Question 1

ข้อดีหลักของการใช้ astronomer-cosmos เพื่อรวม dbt เข้ากับ Airflow คืออะไร?

Accepted Answer

Astronomer-cosmos จะแปลง model ของ dbt เป็น task ของ Airflow แต่ละตัวโดยอัตโนมัติ ทำให้สามารถมองเห็นรายละเอียดของแต่ละ model ใน UI ของ Airflow ได้ ซึ่งช่วยให้ใช้ประโยชน์จากคุณสมบัติของ Airflow (retry, alerting, monitoring) ในระดับ model แทนที่จะเป็นทั้งโปรเจกต์ dbt

Question 2

cosmos จัดการกับ dependencies ระหว่าง model ของ dbt ใน DAG Airflow อย่างไร?

Accepted Answer

Cosmos วิเคราะห์ manifest.json ของ dbt เพื่อดึงกราฟ dependencies ระหว่าง model จากนั้นจะสร้างความสัมพันธ์แบบ dependencies (upstream/downstream) ระหว่าง task Airflow ที่เกี่ยวข้องโดยอัตโนมัติ ซึ่งสอดคล้องกับลำดับการรันที่กำหนดโดย refs ในโปรเจกต์ dbt

Question 3

ความแตกต่างระหว่างโหมดการรัน 'local' และ 'docker' ใน cosmos คืออะไร?

Accepted Answer

ในโหมด local, cosmos จะรัน dbt โดยตรงในสภาพแวดล้อม Python ของ worker Airflow ซึ่งต้องติดตั้ง dbt ในโหมด docker, แต่ละ task ของ dbt จะรันใน Docker container ที่แยกต่างหากด้วย image dbt ของตัวเอง ซึ่งให้การแยกตัวและความสามารถในการสร้างซ้ำของ dependencies ที่ดีขึ้น

Airflow + dbt - การจัดการ Pipeline

ข้อดีหลักของการใช้ astronomer-cosmos เพื่อรวม dbt เข้ากับ Airflow คืออะไร?

คำตอบ

cosmos จัดการกับ dependencies ระหว่าง model ของ dbt ใน DAG Airflow อย่างไร?

คำตอบ

ความแตกต่างระหว่างโหมดการรัน 'local' และ 'docker' ใน cosmos คืออะไร?

คำตอบ

วิธีการกำหนดค่า cosmos ให้รันเฉพาะชุดย่อยของ model dbt ตาม tags อย่างไร?

บทบาทของ DbtTaskGroup ในการรวม Airflow-dbt กับ cosmos คืออะไร?

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Git & GitHub - พื้นฐาน

Python ขั้นสูงสำหรับ Data Engineering

Docker - พื้นฐาน

Google Cloud Platform - พื้นฐาน

CI/CD และคุณภาพโค้ด

Docker Compose

FastAPI - Data API

SQL ขั้นสูงสำหรับ Data Engineering

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

BigQuery สำหรับ Data Engineering

PostgreSQL - การดูแลระบบ

Data Modeling สำหรับ Data Engineering

Fivetran & Airbyte - การนำเข้าข้อมูล

dbt - พื้นฐาน

Apache Airflow - พื้นฐาน

Kubernetes - พื้นฐาน

dbt - ฟีเจอร์ขั้นสูง

รูปแบบ ETL / ELT / ETLT

Apache Airflow - ขั้นสูง

PySpark - การประมวลผลขนาดใหญ่

Google Pub/Sub - การสตรีมข้อมูล

Apache Beam & Dataflow

Kubernetes - Production และ Scaling

Terraform - Infrastructure as Code

ฐานข้อมูล NoSQL

Data Architecture สมัยใหม่

การมอนิเตอร์และการสังเกตการณ์

IAM และความปลอดภัยของข้อมูล

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป