Data Engineering

DATA

หลักสูตร Data Engineering ที่ครอบคลุมห่วงโซ่การผลิตข้อมูลทั้งหมด ตั้งแต่การตั้งค่าสภาพแวดล้อมด้วย Docker และ GCP ไปจนถึงการจัดการ pipeline ด้วย Airflow และ dbt ผ่านการสร้าง Data Warehouse ด้วย BigQuery และ PostgreSQL เรียนรู้การจัดการ data streaming ด้วย PySpark, Pub/Sub และ Apache Beam และการ deploy ไปยัง production ด้วย Kubernetes และ Terraform เชี่ยวชาญ CI/CD, การติดตาม และสถาปัตยกรรมข้อมูลสมัยใหม่

สิ่งที่คุณจะได้เรียนรู้

สภาพแวดล้อมการพัฒนา: Linux, Git, GitHub, VS Code, Python ขั้นสูง

CI/CD และคุณภาพโค้ด: Ruff, Pylint, Poetry, GitHub Actions

การทำ container ด้วย Docker และ Docker Compose

API ด้วย FastAPI: การออกแบบ, การ deploy, เอกสาร

Data Lake: การนำเข้า, การจัดเก็บ, การจัดระเบียบข้อมูลดิบ

Data Warehouse ด้วย BigQuery: schema, การแบ่งพาร์ทิชัน, การเพิ่มประสิทธิภาพ

PostgreSQL: การติดตั้ง, การจัดการ, การเปรียบเทียบกับโซลูชัน managed

การนำเข้าข้อมูลด้วย Fivetran และ Airbyte

การแปลงด้วย dbt: model, test, เอกสาร, ความเป็นโมดูล

การจัดการด้วย Apache Airflow: DAG, การตั้งเวลา, การติดตาม

Big Data ด้วย PySpark: การแปลงขนาดใหญ่

Data streaming: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: การ deploy container, การปรับขนาด, คลัสเตอร์ production

Infrastructure as Code ด้วย Terraform

ฐานข้อมูลขั้นสูง: GraphDB, Document DB, Wide Column DB

การบันทึก log, การติดตาม และความสามารถในการสังเกต pipeline

หัวข้อสำคัญที่ต้องเชี่ยวชาญ

แนวคิดที่สำคัญที่สุดเพื่อเข้าใจเทคโนโลยีนี้และประสบความสำเร็จในการสัมภาษณ์

Linux และ Shell: คำสั่งพื้นฐาน, bash scripting, สิทธิ์, cron job

Git และ GitHub: การแตกสาขา, merge, rebase, pull request, workflow CI/CD

Python ขั้นสูง: OOP, decorator, generator, context manager, typing, async/await

CI/CD: linting (Ruff, Pylint), การจัดแพ็กเกจ (Poetry), test, GitHub Actions, pipeline

Docker: Dockerfile, image, container, volume, network, multi-stage build

Docker Compose: บริการหลาย container, การพึ่งพา, healthcheck, การจัดการในเครื่อง

FastAPI: route, โมเดล Pydantic, dependency, middleware, การ deploy

SQL ขั้นสูง: window function, CTE, คิวรีวิเคราะห์, การเพิ่มประสิทธิภาพ, index

BigQuery: สถาปัตยกรรม serverless, การแบ่งพาร์ทิชัน, คลัสเตอร์, ต้นทุน, UDF, คิวรีแบบ federated

PostgreSQL: การตั้งค่า, การจำลอง, index (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

การสร้างโมเดลข้อมูล: star schema, ตาราง fact/dimension, normalization, SCD, data vault

ELT vs ETL vs ETLT: รูปแบบ, การแลกเปลี่ยน, ทางเลือกสถาปัตยกรรม

Fivetran และ Airbyte: connector, โหมดการซิงค์, CDC, การพัฒนา schema

dbt: model, source, ref, test, snapshot, model เพิ่มทีละส่วน, Jinja macro

Apache Airflow: DAG, operator, sensor, XCom, connection, pool, การพึ่งพางาน

PySpark: RDD vs DataFrame, การแปลง, action, การแบ่งพาร์ทิชัน, ตัวแปร broadcast

Streaming: Pub/Sub (topic, subscription), Apache Beam (PCollection, transform, windowing), Dataflow

Kubernetes: pod, deployment, service, ingress, ConfigMap, Secret, Helm, การปรับขนาด

Terraform: provider, resource, state, module, plan/apply, infrastructure as code

IAM และความปลอดภัย: หลักสิทธิ์น้อยที่สุด, service account, บทบาท GCP

ฐานข้อมูล NoSQL: GraphDB (Neo4j), Document DB (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

สถาปัตยกรรมข้อมูล: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contract

การติดตามและความสามารถในการสังเกต: logging, เมตริก, การแจ้งเตือน, SLA/SLO/SLI, การตรวจสอบคุณภาพข้อมูล

บทความ Data Engineering ล่าสุด

ค้นพบบทความและคู่มือล่าสุดเกี่ยวกับ Data Engineering

Apache Spark 4 new features and structured streaming

May 11, 2026

Apache Spark 4: ฟีเจอร์ใหม่ Structured Streaming และคำถามสัมภาษณ์งาน

สำรวจฟีเจอร์สำคัญใน Apache Spark 4 รวมถึง ANSI SQL Mode, VARIANT data type, Real-Time Mode streaming และ transformWithState API พร้อมตัวอย่างโค้ดและคำถามสัมภาษณ์งานที่พบบ่อย

แผนผังสถาปัตยกรรม streaming ของ Apache Kafka พร้อม partition และการไหลของข้อมูล

April 20, 2026

Apache Kafka สำหรับวิศวกรข้อมูล: Streaming, Partitions และคำถามสัมภาษณ์

เจาะลึก Apache Kafka สำหรับวิศวกรข้อมูล ครอบคลุมสถาปัตยกรรม streaming กลยุทธ์ partition consumer groups และคำถามสัมภาษณ์ที่พบบ่อย พร้อมตัวอย่างการใช้งานจริงด้วย Kafka 4.x และ KRaft

ETL vs ELT data pipeline architecture comparison diagram

April 13, 2026

ETL vs ELT ในปี 2026: สถาปัตยกรรม Data Pipeline ที่ Data Engineer ต้องรู้

เปรียบเทียบ ETL และ ELT อย่างละเอียด พร้อมตัวอย่างโค้ด dbt และ Python เพื่อเลือกสถาปัตยกรรม data pipeline ที่เหมาะสมกับทีมของคุณในปี 2026

ดูบทความ Data Engineering ทั้งหมด