Data Engineering

Airflow + dbt - การจัดการ Pipeline

astronomer-cosmos, DbtDagParser, dbt run/test ใน Airflow, การจัดการ dependencies, การตรวจสอบแบบ end-to-end

20 คำถามสัมภาษณ์·
Senior
1

ข้อดีหลักของการใช้ astronomer-cosmos เพื่อรวม dbt เข้ากับ Airflow คืออะไร?

คำตอบ

Astronomer-cosmos จะแปลง model ของ dbt เป็น task ของ Airflow แต่ละตัวโดยอัตโนมัติ ทำให้สามารถมองเห็นรายละเอียดของแต่ละ model ใน UI ของ Airflow ได้ ซึ่งช่วยให้ใช้ประโยชน์จากคุณสมบัติของ Airflow (retry, alerting, monitoring) ในระดับ model แทนที่จะเป็นทั้งโปรเจกต์ dbt

2

cosmos จัดการกับ dependencies ระหว่าง model ของ dbt ใน DAG Airflow อย่างไร?

คำตอบ

Cosmos วิเคราะห์ manifest.json ของ dbt เพื่อดึงกราฟ dependencies ระหว่าง model จากนั้นจะสร้างความสัมพันธ์แบบ dependencies (upstream/downstream) ระหว่าง task Airflow ที่เกี่ยวข้องโดยอัตโนมัติ ซึ่งสอดคล้องกับลำดับการรันที่กำหนดโดย refs ในโปรเจกต์ dbt

3

ความแตกต่างระหว่างโหมดการรัน 'local' และ 'docker' ใน cosmos คืออะไร?

คำตอบ

ในโหมด local, cosmos จะรัน dbt โดยตรงในสภาพแวดล้อม Python ของ worker Airflow ซึ่งต้องติดตั้ง dbt ในโหมด docker, แต่ละ task ของ dbt จะรันใน Docker container ที่แยกต่างหากด้วย image dbt ของตัวเอง ซึ่งให้การแยกตัวและความสามารถในการสร้างซ้ำของ dependencies ที่ดีขึ้น

4

วิธีการกำหนดค่า cosmos ให้รันเฉพาะชุดย่อยของ model dbt ตาม tags อย่างไร?

5

บทบาทของ DbtTaskGroup ในการรวม Airflow-dbt กับ cosmos คืออะไร?

+17 คำถามสัมภาษณ์

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Junior
20 คำถาม

Git & GitHub - พื้นฐาน

Junior
20 คำถาม

Python ขั้นสูงสำหรับ Data Engineering

Junior
25 คำถาม

Docker - พื้นฐาน

Junior
25 คำถาม

Google Cloud Platform - พื้นฐาน

Junior
20 คำถาม

CI/CD และคุณภาพโค้ด

Mid-Level
20 คำถาม

Docker Compose

Mid-Level
20 คำถาม

FastAPI - Data API

Mid-Level
20 คำถาม

SQL ขั้นสูงสำหรับ Data Engineering

Mid-Level
20 คำถาม

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

Mid-Level
20 คำถาม

BigQuery สำหรับ Data Engineering

Mid-Level
20 คำถาม

PostgreSQL - การดูแลระบบ

Mid-Level
20 คำถาม

Data Modeling สำหรับ Data Engineering

Mid-Level
20 คำถาม

Fivetran & Airbyte - การนำเข้าข้อมูล

Mid-Level
20 คำถาม

dbt - พื้นฐาน

Mid-Level
20 คำถาม

Apache Airflow - พื้นฐาน

Mid-Level
20 คำถาม

Kubernetes - พื้นฐาน

Mid-Level
20 คำถาม

dbt - ฟีเจอร์ขั้นสูง

Senior
20 คำถาม

รูปแบบ ETL / ELT / ETLT

Senior
20 คำถาม

Apache Airflow - ขั้นสูง

Senior
20 คำถาม

PySpark - การประมวลผลขนาดใหญ่

Senior
20 คำถาม

Google Pub/Sub - การสตรีมข้อมูล

Senior
20 คำถาม

Apache Beam & Dataflow

Senior
20 คำถาม

Kubernetes - Production และ Scaling

Senior
20 คำถาม

Terraform - Infrastructure as Code

Senior
20 คำถาม

ฐานข้อมูล NoSQL

Senior
20 คำถาม

Data Architecture สมัยใหม่

Senior
20 คำถาม

การมอนิเตอร์และการสังเกตการณ์

Senior
20 คำถาม

IAM และความปลอดภัยของข้อมูล

Senior
20 คำถาม

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป

เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์

เริ่มใช้ฟรี