
Airflow + dbt - การจัดการ Pipeline
astronomer-cosmos, DbtDagParser, dbt run/test ใน Airflow, การจัดการ dependencies, การตรวจสอบแบบ end-to-end
1ข้อดีหลักของการใช้ astronomer-cosmos เพื่อรวม dbt เข้ากับ Airflow คืออะไร?
ข้อดีหลักของการใช้ astronomer-cosmos เพื่อรวม dbt เข้ากับ Airflow คืออะไร?
คำตอบ
Astronomer-cosmos จะแปลง model ของ dbt เป็น task ของ Airflow แต่ละตัวโดยอัตโนมัติ ทำให้สามารถมองเห็นรายละเอียดของแต่ละ model ใน UI ของ Airflow ได้ ซึ่งช่วยให้ใช้ประโยชน์จากคุณสมบัติของ Airflow (retry, alerting, monitoring) ในระดับ model แทนที่จะเป็นทั้งโปรเจกต์ dbt
2cosmos จัดการกับ dependencies ระหว่าง model ของ dbt ใน DAG Airflow อย่างไร?
cosmos จัดการกับ dependencies ระหว่าง model ของ dbt ใน DAG Airflow อย่างไร?
คำตอบ
Cosmos วิเคราะห์ manifest.json ของ dbt เพื่อดึงกราฟ dependencies ระหว่าง model จากนั้นจะสร้างความสัมพันธ์แบบ dependencies (upstream/downstream) ระหว่าง task Airflow ที่เกี่ยวข้องโดยอัตโนมัติ ซึ่งสอดคล้องกับลำดับการรันที่กำหนดโดย refs ในโปรเจกต์ dbt
3ความแตกต่างระหว่างโหมดการรัน 'local' และ 'docker' ใน cosmos คืออะไร?
ความแตกต่างระหว่างโหมดการรัน 'local' และ 'docker' ใน cosmos คืออะไร?
คำตอบ
ในโหมด local, cosmos จะรัน dbt โดยตรงในสภาพแวดล้อม Python ของ worker Airflow ซึ่งต้องติดตั้ง dbt ในโหมด docker, แต่ละ task ของ dbt จะรันใน Docker container ที่แยกต่างหากด้วย image dbt ของตัวเอง ซึ่งให้การแยกตัวและความสามารถในการสร้างซ้ำของ dependencies ที่ดีขึ้น
วิธีการกำหนดค่า cosmos ให้รันเฉพาะชุดย่อยของ model dbt ตาม tags อย่างไร?
บทบาทของ DbtTaskGroup ในการรวม Airflow-dbt กับ cosmos คืออะไร?
+17 คำถามสัมภาษณ์
หัวข้อสัมภาษณ์ Data Engineering อื่นๆ
Linux & Shell - พื้นฐาน
Git & GitHub - พื้นฐาน
Python ขั้นสูงสำหรับ Data Engineering
Docker - พื้นฐาน
Google Cloud Platform - พื้นฐาน
CI/CD และคุณภาพโค้ด
Docker Compose
FastAPI - Data API
SQL ขั้นสูงสำหรับ Data Engineering
Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล
BigQuery สำหรับ Data Engineering
PostgreSQL - การดูแลระบบ
Data Modeling สำหรับ Data Engineering
Fivetran & Airbyte - การนำเข้าข้อมูล
dbt - พื้นฐาน
Apache Airflow - พื้นฐาน
Kubernetes - พื้นฐาน
dbt - ฟีเจอร์ขั้นสูง
รูปแบบ ETL / ELT / ETLT
Apache Airflow - ขั้นสูง
PySpark - การประมวลผลขนาดใหญ่
Google Pub/Sub - การสตรีมข้อมูล
Apache Beam & Dataflow
Kubernetes - Production และ Scaling
Terraform - Infrastructure as Code
ฐานข้อมูล NoSQL
Data Architecture สมัยใหม่
การมอนิเตอร์และการสังเกตการณ์
IAM และความปลอดภัยของข้อมูล
เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป
เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์
เริ่มใช้ฟรี