
Apache Airflow - ขั้นสูง
Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring
1บทบาทหลักของ Sensor ใน Apache Airflow คืออะไร?
บทบาทหลักของ Sensor ใน Apache Airflow คืออะไร?
คำตอบ
Sensor เป็นตัวดำเนินการพิเศษที่รอเงื่อนไขที่จะต้องเป็นไปตามก่อนที่จะดำเนินการ DAG ต่อ มันจะตรวจสอบเป็นระยะ (poke) ว่าเงื่อนไขเป็นไปตามหรือไม่ เช่น การมาถึงของไฟล์ ความพร้อมใช้งานของ partition หรือสถานะของ task อื่น Sensors มีความสำคัญต่อการจัดเรียง workflow ที่ขึ้นอยู่กับเหตุการณ์ภายนอก
2ความแตกต่างระหว่างโหมด 'poke' และ 'reschedule' สำหรับ Sensor คืออะไร?
ความแตกต่างระหว่างโหมด 'poke' และ 'reschedule' สำหรับ Sensor คืออะไร?
คำตอบ
ในโหมด poke Sensor จะครอบครอง worker slot อย่างต่อเนื่องและตรวจสอบเงื่อนไขตามช่วงเวลาปกติ (poke_interval) ในโหมด reschedule Sensor จะปล่อย worker slot ระหว่างการตรวจสอบและจัดตารางเวลาใหม่ โหมด reschedule แนะนำสำหรับเงื่อนไขที่ใช้เวลานานเพราะจะปล่อยทรัพยากรให้ task อื่น
3ควรใช้ Sensor ใดเพื่อรอให้ partition ของ Hive พร้อมใช้งาน?
ควรใช้ Sensor ใดเพื่อรอให้ partition ของ Hive พร้อมใช้งาน?
คำตอบ
HivePartitionSensor ตรวจสอบการมีอยู่ของ partition เฉพาะในตาราง Hive มันถูกใช้กันทั่วไปใน data pipelines เพื่อให้แน่ใจว่าข้อมูลต้นทางพร้อมใช้งานก่อนที่จะรันการแปลง มันรับพารามิเตอร์เช่น schema, table และ partition เพื่อตรวจสอบ
วิธีส่งข้อมูลระหว่างสอง task ของ Airflow อย่างไร?
ขนาดสูงสุดที่แนะนำสำหรับข้อมูลที่จัดเก็บใน XCom คืออะไร?
+17 คำถามสัมภาษณ์
หัวข้อสัมภาษณ์ Data Engineering อื่นๆ
Linux & Shell - พื้นฐาน
Git & GitHub - พื้นฐาน
Python ขั้นสูงสำหรับ Data Engineering
Docker - พื้นฐาน
Google Cloud Platform - พื้นฐาน
CI/CD และคุณภาพโค้ด
Docker Compose
FastAPI - Data API
SQL ขั้นสูงสำหรับ Data Engineering
Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล
BigQuery สำหรับ Data Engineering
PostgreSQL - การดูแลระบบ
Data Modeling สำหรับ Data Engineering
Fivetran & Airbyte - การนำเข้าข้อมูล
dbt - พื้นฐาน
Apache Airflow - พื้นฐาน
Kubernetes - พื้นฐาน
dbt - ฟีเจอร์ขั้นสูง
รูปแบบ ETL / ELT / ETLT
Airflow + dbt - การจัดการ Pipeline
PySpark - การประมวลผลขนาดใหญ่
Google Pub/Sub - การสตรีมข้อมูล
Apache Beam & Dataflow
Kubernetes - Production และ Scaling
Terraform - Infrastructure as Code
ฐานข้อมูล NoSQL
Data Architecture สมัยใหม่
การมอนิเตอร์และการสังเกตการณ์
IAM และความปลอดภัยของข้อมูล
เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป
เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์
เริ่มใช้ฟรี