Data Engineering

Data Engineering

DATA

หลักสูตร Data Engineering ที่ครอบคลุมห่วงโซ่การผลิตข้อมูลทั้งหมด ตั้งแต่การตั้งค่าสภาพแวดล้อมด้วย Docker และ GCP ไปจนถึงการจัดการ pipeline ด้วย Airflow และ dbt ผ่านการสร้าง Data Warehouse ด้วย BigQuery และ PostgreSQL เรียนรู้การจัดการ data streaming ด้วย PySpark, Pub/Sub และ Apache Beam และการ deploy ไปยัง production ด้วย Kubernetes และ Terraform เชี่ยวชาญ CI/CD, การติดตาม และสถาปัตยกรรมข้อมูลสมัยใหม่

สิ่งที่คุณจะได้เรียนรู้

สภาพแวดล้อมการพัฒนา: Linux, Git, GitHub, VS Code, Python ขั้นสูง

CI/CD และคุณภาพโค้ด: Ruff, Pylint, Poetry, GitHub Actions

การทำ container ด้วย Docker และ Docker Compose

API ด้วย FastAPI: การออกแบบ, การ deploy, เอกสาร

Data Lake: การนำเข้า, การจัดเก็บ, การจัดระเบียบข้อมูลดิบ

Data Warehouse ด้วย BigQuery: schema, การแบ่งพาร์ทิชัน, การเพิ่มประสิทธิภาพ

PostgreSQL: การติดตั้ง, การจัดการ, การเปรียบเทียบกับโซลูชัน managed

การนำเข้าข้อมูลด้วย Fivetran และ Airbyte

การแปลงด้วย dbt: model, test, เอกสาร, ความเป็นโมดูล

การจัดการด้วย Apache Airflow: DAG, การตั้งเวลา, การติดตาม

Big Data ด้วย PySpark: การแปลงขนาดใหญ่

Data streaming: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: การ deploy container, การปรับขนาด, คลัสเตอร์ production

Infrastructure as Code ด้วย Terraform

ฐานข้อมูลขั้นสูง: GraphDB, Document DB, Wide Column DB

การบันทึก log, การติดตาม และความสามารถในการสังเกต pipeline

หัวข้อสำคัญที่ต้องเชี่ยวชาญ

แนวคิดที่สำคัญที่สุดเพื่อเข้าใจเทคโนโลยีนี้และประสบความสำเร็จในการสัมภาษณ์

1

Linux และ Shell: คำสั่งพื้นฐาน, bash scripting, สิทธิ์, cron job

2

Git และ GitHub: การแตกสาขา, merge, rebase, pull request, workflow CI/CD

3

Python ขั้นสูง: OOP, decorator, generator, context manager, typing, async/await

4

CI/CD: linting (Ruff, Pylint), การจัดแพ็กเกจ (Poetry), test, GitHub Actions, pipeline

5

Docker: Dockerfile, image, container, volume, network, multi-stage build

6

Docker Compose: บริการหลาย container, การพึ่งพา, healthcheck, การจัดการในเครื่อง

7

FastAPI: route, โมเดล Pydantic, dependency, middleware, การ deploy

8

SQL ขั้นสูง: window function, CTE, คิวรีวิเคราะห์, การเพิ่มประสิทธิภาพ, index

9

BigQuery: สถาปัตยกรรม serverless, การแบ่งพาร์ทิชัน, คลัสเตอร์, ต้นทุน, UDF, คิวรีแบบ federated

10

PostgreSQL: การตั้งค่า, การจำลอง, index (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

11

การสร้างโมเดลข้อมูล: star schema, ตาราง fact/dimension, normalization, SCD, data vault

12

ELT vs ETL vs ETLT: รูปแบบ, การแลกเปลี่ยน, ทางเลือกสถาปัตยกรรม

13

Fivetran และ Airbyte: connector, โหมดการซิงค์, CDC, การพัฒนา schema

14

dbt: model, source, ref, test, snapshot, model เพิ่มทีละส่วน, Jinja macro

15

Apache Airflow: DAG, operator, sensor, XCom, connection, pool, การพึ่งพางาน

16

PySpark: RDD vs DataFrame, การแปลง, action, การแบ่งพาร์ทิชัน, ตัวแปร broadcast

17

Streaming: Pub/Sub (topic, subscription), Apache Beam (PCollection, transform, windowing), Dataflow

18

Kubernetes: pod, deployment, service, ingress, ConfigMap, Secret, Helm, การปรับขนาด

19

Terraform: provider, resource, state, module, plan/apply, infrastructure as code

20

IAM และความปลอดภัย: หลักสิทธิ์น้อยที่สุด, service account, บทบาท GCP

21

ฐานข้อมูล NoSQL: GraphDB (Neo4j), Document DB (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

22

สถาปัตยกรรมข้อมูล: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contract

23

การติดตามและความสามารถในการสังเกต: logging, เมตริก, การแจ้งเตือน, SLA/SLO/SLI, การตรวจสอบคุณภาพข้อมูล

บทความ Data Engineering ล่าสุด

ค้นพบบทความและคู่มือล่าสุดเกี่ยวกับ Data Engineering

dbt data transformations testing interview 2026

dbt ในปี 2026: การแปลงข้อมูล การทดสอบ และคำถามสัมภาษณ์งาน

คู่มือ dbt สำหรับวิศวกรข้อมูล: การแปลง SQL, การสร้างโมเดลแบบแบ่งชั้น, กลยุทธ์ incremental, การทดสอบคุณภาพข้อมูล และคำถามสัมภาษณ์พร้อมตัวอย่างโค้ดสำหรับปี 2026

Apache Spark 4 new features and structured streaming

Apache Spark 4: ฟีเจอร์ใหม่ Structured Streaming และคำถามสัมภาษณ์งาน

สำรวจฟีเจอร์สำคัญใน Apache Spark 4 รวมถึง ANSI SQL Mode, VARIANT data type, Real-Time Mode streaming และ transformWithState API พร้อมตัวอย่างโค้ดและคำถามสัมภาษณ์งานที่พบบ่อย

แผนผังสถาปัตยกรรม streaming ของ Apache Kafka พร้อม partition และการไหลของข้อมูล

Apache Kafka สำหรับวิศวกรข้อมูล: Streaming, Partitions และคำถามสัมภาษณ์

เจาะลึก Apache Kafka สำหรับวิศวกรข้อมูล ครอบคลุมสถาปัตยกรรม streaming กลยุทธ์ partition consumer groups และคำถามสัมภาษณ์ที่พบบ่อย พร้อมตัวอย่างการใช้งานจริงด้วย Kafka 4.x และ KRaft

ดูบทความ Data Engineering ทั้งหมด