Data Engineering

Data Engineering

DATA

หลักสูตร Data Engineering ที่ครอบคลุมห่วงโซ่การผลิตข้อมูลทั้งหมด ตั้งแต่การตั้งค่าสภาพแวดล้อมด้วย Docker และ GCP ไปจนถึงการจัดการ pipeline ด้วย Airflow และ dbt ผ่านการสร้าง Data Warehouse ด้วย BigQuery และ PostgreSQL เรียนรู้การจัดการ data streaming ด้วย PySpark, Pub/Sub และ Apache Beam และการ deploy ไปยัง production ด้วย Kubernetes และ Terraform เชี่ยวชาญ CI/CD, การติดตาม และสถาปัตยกรรมข้อมูลสมัยใหม่

สิ่งที่คุณจะได้เรียนรู้

สภาพแวดล้อมการพัฒนา: Linux, Git, GitHub, VS Code, Python ขั้นสูง

CI/CD และคุณภาพโค้ด: Ruff, Pylint, Poetry, GitHub Actions

การทำ container ด้วย Docker และ Docker Compose

API ด้วย FastAPI: การออกแบบ, การ deploy, เอกสาร

Data Lake: การนำเข้า, การจัดเก็บ, การจัดระเบียบข้อมูลดิบ

Data Warehouse ด้วย BigQuery: schema, การแบ่งพาร์ทิชัน, การเพิ่มประสิทธิภาพ

PostgreSQL: การติดตั้ง, การจัดการ, การเปรียบเทียบกับโซลูชัน managed

การนำเข้าข้อมูลด้วย Fivetran และ Airbyte

การแปลงด้วย dbt: model, test, เอกสาร, ความเป็นโมดูล

การจัดการด้วย Apache Airflow: DAG, การตั้งเวลา, การติดตาม

Big Data ด้วย PySpark: การแปลงขนาดใหญ่

Data streaming: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: การ deploy container, การปรับขนาด, คลัสเตอร์ production

Infrastructure as Code ด้วย Terraform

ฐานข้อมูลขั้นสูง: GraphDB, Document DB, Wide Column DB

การบันทึก log, การติดตาม และความสามารถในการสังเกต pipeline

หัวข้อสำคัญที่ต้องเชี่ยวชาญ

แนวคิดที่สำคัญที่สุดเพื่อเข้าใจเทคโนโลยีนี้และประสบความสำเร็จในการสัมภาษณ์

1

Linux และ Shell: คำสั่งพื้นฐาน, bash scripting, สิทธิ์, cron job

2

Git และ GitHub: การแตกสาขา, merge, rebase, pull request, workflow CI/CD

3

Python ขั้นสูง: OOP, decorator, generator, context manager, typing, async/await

4

CI/CD: linting (Ruff, Pylint), การจัดแพ็กเกจ (Poetry), test, GitHub Actions, pipeline

5

Docker: Dockerfile, image, container, volume, network, multi-stage build

6

Docker Compose: บริการหลาย container, การพึ่งพา, healthcheck, การจัดการในเครื่อง

7

FastAPI: route, โมเดล Pydantic, dependency, middleware, การ deploy

8

SQL ขั้นสูง: window function, CTE, คิวรีวิเคราะห์, การเพิ่มประสิทธิภาพ, index

9

BigQuery: สถาปัตยกรรม serverless, การแบ่งพาร์ทิชัน, คลัสเตอร์, ต้นทุน, UDF, คิวรีแบบ federated

10

PostgreSQL: การตั้งค่า, การจำลอง, index (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

11

การสร้างโมเดลข้อมูล: star schema, ตาราง fact/dimension, normalization, SCD, data vault

12

ELT vs ETL vs ETLT: รูปแบบ, การแลกเปลี่ยน, ทางเลือกสถาปัตยกรรม

13

Fivetran และ Airbyte: connector, โหมดการซิงค์, CDC, การพัฒนา schema

14

dbt: model, source, ref, test, snapshot, model เพิ่มทีละส่วน, Jinja macro

15

Apache Airflow: DAG, operator, sensor, XCom, connection, pool, การพึ่งพางาน

16

PySpark: RDD vs DataFrame, การแปลง, action, การแบ่งพาร์ทิชัน, ตัวแปร broadcast

17

Streaming: Pub/Sub (topic, subscription), Apache Beam (PCollection, transform, windowing), Dataflow

18

Kubernetes: pod, deployment, service, ingress, ConfigMap, Secret, Helm, การปรับขนาด

19

Terraform: provider, resource, state, module, plan/apply, infrastructure as code

20

IAM และความปลอดภัย: หลักสิทธิ์น้อยที่สุด, service account, บทบาท GCP

21

ฐานข้อมูล NoSQL: GraphDB (Neo4j), Document DB (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

22

สถาปัตยกรรมข้อมูล: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contract

23

การติดตามและความสามารถในการสังเกต: logging, เมตริก, การแจ้งเตือน, SLA/SLO/SLI, การตรวจสอบคุณภาพข้อมูล

บทความ Data Engineering ล่าสุด

ค้นพบบทความและคู่มือล่าสุดเกี่ยวกับ Data Engineering

ดูบทความ Data Engineering ทั้งหมด