Data Engineering

Apache Airflow - Lanjutan

Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring

20 pertanyaan wawancaraยท
Senior
1

Apa peran utama Sensor di Apache Airflow?

Jawaban

Sensor adalah operator khusus yang menunggu kondisi terpenuhi sebelum melanjutkan eksekusi DAG. Ia memeriksa secara berkala (poke) apakah kondisi terpenuhi, seperti kedatangan file, ketersediaan partisi, atau status task lain. Sensors sangat penting untuk mengorkestrasi workflow yang bergantung pada peristiwa eksternal.

2

Apa perbedaan antara mode 'poke' dan 'reschedule' untuk Sensor?

Jawaban

Dalam mode poke, Sensor terus-menerus menempati worker slot dan memeriksa kondisi pada interval reguler (poke_interval). Dalam mode reschedule, Sensor melepaskan worker slot antara pemeriksaan dan menjadwal ulang dirinya sendiri. Mode reschedule direkomendasikan untuk kondisi yang berjalan lama karena membebaskan sumber daya untuk task lain.

3

Sensor mana yang harus digunakan untuk menunggu partisi Hive tersedia?

Jawaban

HivePartitionSensor memeriksa keberadaan partisi tertentu dalam tabel Hive. Ia umum digunakan dalam data pipeline untuk memastikan data sumber tersedia sebelum menjalankan transformasi. Ia menerima parameter seperti schema, table, dan partition untuk diverifikasi.

4

Bagaimana cara meneruskan data antara dua task Airflow?

5

Berapa ukuran maksimum yang direkomendasikan untuk data yang disimpan di XCom?

+17 pertanyaan wawancara

Kuasai Data Engineering untuk wawancara berikutnya

Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.

Mulai gratis