Data Engineering

Data Engineering

DATA

Chương trình Data Engineering toàn diện bao quát toàn bộ chuỗi sản xuất dữ liệu. Từ thiết lập môi trường với Docker và GCP đến điều phối pipeline với Airflow và dbt, qua xây dựng Data Warehouse với BigQuery và PostgreSQL. Học cách xử lý data streaming với PySpark, Pub/Sub và Apache Beam, và triển khai production với Kubernetes và Terraform. Nắm vững CI/CD, giám sát và kiến trúc dữ liệu hiện đại.

Bạn sẽ học được gì

Môi trường phát triển: Linux, Git, GitHub, VS Code, Python nâng cao

CI/CD và chất lượng code: Ruff, Pylint, Poetry, GitHub Actions

Container hóa với Docker và Docker Compose

API với FastAPI: thiết kế, triển khai, tài liệu

Data Lake: thu thập, lưu trữ, tổ chức dữ liệu thô

Data Warehouse với BigQuery: schema, phân vùng, tối ưu hóa

PostgreSQL: cài đặt, quản trị, so sánh với giải pháp managed

Thu thập dữ liệu với Fivetran và Airbyte

Chuyển đổi với dbt: model, test, tài liệu, tính module

Điều phối với Apache Airflow: DAG, lập lịch, giám sát

Big Data với PySpark: chuyển đổi quy mô lớn

Data streaming: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: triển khai container, mở rộng, cluster production

Infrastructure as Code với Terraform

Cơ sở dữ liệu nâng cao: GraphDB, Document DB, Wide Column DB

Ghi log, giám sát và khả năng quan sát pipeline

Chủ đề chính cần nắm vững

Những khái niệm quan trọng nhất để hiểu công nghệ này và thành công trong phỏng vấn

1

Linux và Shell: lệnh cơ bản, bash scripting, quyền, cron job

2

Git và GitHub: nhánh, merge, rebase, pull request, quy trình CI/CD

3

Python nâng cao: OOP, decorator, generator, context manager, typing, async/await

4

CI/CD: linting (Ruff, Pylint), đóng gói (Poetry), test, GitHub Actions, pipeline

5

Docker: Dockerfile, image, container, volume, network, multi-stage build

6

Docker Compose: dịch vụ đa container, phụ thuộc, healthcheck, điều phối cục bộ

7

FastAPI: route, model Pydantic, dependency, middleware, triển khai

8

SQL nâng cao: window function, CTE, truy vấn phân tích, tối ưu hóa, index

9

BigQuery: kiến trúc serverless, phân vùng, gom cụm, chi phí, UDF, truy vấn liên hợp

10

PostgreSQL: cấu hình, nhân bản, index (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

11

Mô hình hóa dữ liệu: lược đồ hình sao, bảng fact/dimension, chuẩn hóa, SCD, data vault

12

ELT vs ETL vs ETLT: mẫu, đánh đổi, lựa chọn kiến trúc

13

Fivetran và Airbyte: connector, chế độ đồng bộ, CDC, tiến hóa schema

14

dbt: model, source, ref, test, snapshot, model tăng dần, Jinja macro

15

Apache Airflow: DAG, operator, sensor, XCom, connection, pool, phụ thuộc tác vụ

16

PySpark: RDD vs DataFrame, chuyển đổi, action, phân vùng, biến broadcast

17

Streaming: Pub/Sub (topic, subscription), Apache Beam (PCollection, transform, windowing), Dataflow

18

Kubernetes: pod, deployment, service, ingress, ConfigMap, Secret, Helm, mở rộng

19

Terraform: provider, resource, state, module, plan/apply, infrastructure as code

20

IAM và bảo mật: nguyên tắc quyền tối thiểu, service account, vai trò GCP

21

Cơ sở dữ liệu NoSQL: GraphDB (Neo4j), Document DB (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

22

Kiến trúc dữ liệu: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contract

23

Giám sát và khả năng quan sát: ghi log, chỉ số, cảnh báo, SLA/SLO/SLI, kiểm tra chất lượng dữ liệu