
Apache Airflow - พื้นฐาน
DAG, operator (Bash, Python, SQL), การกำหนดเวลา, ความสัมพันธ์ของ task, Airflow UI, connection, variable, trigger rule
1DAG ใน Apache Airflow คืออะไร?
DAG ใน Apache Airflow คืออะไร?
คำตอบ
DAG (Directed Acyclic Graph) คือชุดของ task ที่จัดระเบียบด้วย dependency และความสัมพันธ์ แสดงถึง workflow ที่สมบูรณ์ ลักษณะ acyclic หมายถึงไม่สามารถมี loop ใน dependency graph ได้ ซึ่งรับประกันว่าแต่ละ task จะถูกดำเนินการเพียงครั้งเดียวต่อ run DAG กำหนดว่า task ควรทำงานเมื่อใดและอย่างไร แต่ไม่ใช่ว่าทำอะไรในเชิงรูปธรรม
2พารามิเตอร์ DAG ใดที่กำหนดวันที่ scheduler เริ่มกำหนดเวลาการรัน?
พารามิเตอร์ DAG ใดที่กำหนดวันที่ scheduler เริ่มกำหนดเวลาการรัน?
คำตอบ
พารามิเตอร์ start_date กำหนดวันที่ Airflow เริ่มกำหนดเวลาการรัน DAG วันที่นี้ใช้ร่วมกับ schedule_interval เพื่อกำหนด data intervals จุดสำคัญ: หาก start_date อยู่ในอดีต Airflow อาจทริกเกอร์ backfill เพื่อตามทันการรันที่พลาดไป เว้นแต่จะกำหนด catchup=False
3ควรใช้ operator ใดในการดำเนินการฟังก์ชัน Python ใน Airflow DAG?
ควรใช้ operator ใดในการดำเนินการฟังก์ชัน Python ใน Airflow DAG?
คำตอบ
PythonOperator ช่วยให้สามารถดำเนินการฟังก์ชัน Python callable ใน Airflow DAG ฟังก์ชันจะถูกส่งผ่านพารามิเตอร์ python_callable และสามารถรับ argument ผ่าน op_args (รายการ) หรือ op_kwargs (พจนานุกรม) PythonOperator เป็นหนึ่งใน operator ที่ใช้บ่อยที่สุดเพราะให้ความยืดหยุ่นสูงในการรันโค้ด Python ที่กำหนดเอง
จะกำหนด dependency ระหว่างสอง task คือ task_a และ task_b เพื่อให้ task_b รันหลังจาก task_a ได้อย่างไร?
นิพจน์ cron ใดที่แสดงถึงการดำเนินการรายวันในเวลาเที่ยงคืน?
+17 คำถามสัมภาษณ์
หัวข้อสัมภาษณ์ Data Engineering อื่นๆ
Linux & Shell - พื้นฐาน
Git & GitHub - พื้นฐาน
Python ขั้นสูงสำหรับ Data Engineering
Docker - พื้นฐาน
Google Cloud Platform - พื้นฐาน
CI/CD และคุณภาพโค้ด
Docker Compose
FastAPI - Data API
SQL ขั้นสูงสำหรับ Data Engineering
Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล
BigQuery สำหรับ Data Engineering
PostgreSQL - การดูแลระบบ
Data Modeling สำหรับ Data Engineering
Fivetran & Airbyte - การนำเข้าข้อมูล
dbt - พื้นฐาน
Kubernetes - พื้นฐาน
dbt - ฟีเจอร์ขั้นสูง
รูปแบบ ETL / ELT / ETLT
Apache Airflow - ขั้นสูง
Airflow + dbt - การจัดการ Pipeline
PySpark - การประมวลผลขนาดใหญ่
Google Pub/Sub - การสตรีมข้อมูล
Apache Beam & Dataflow
Kubernetes - Production และ Scaling
Terraform - Infrastructure as Code
ฐานข้อมูล NoSQL
Data Architecture สมัยใหม่
การมอนิเตอร์และการสังเกตการณ์
IAM และความปลอดภัยของข้อมูล
เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป
เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์
เริ่มใช้ฟรี