Data Engineering

Apache Airflow - Dasar-Dasar

DAGs, operators (Bash, Python, SQL), scheduling, dependensi task, Airflow UI, connections, variables, trigger rules

20 pertanyaan wawancaraยท
Mid-Level
1

Apa itu DAG dalam Apache Airflow?

Jawaban

Sebuah DAG (Directed Acyclic Graph) adalah koleksi task yang diorganisir dengan dependensi dan relasi, mewakili workflow lengkap. Sifat asiklik berarti tidak boleh ada loop dalam graph dependensi, yang memastikan setiap task dieksekusi tepat satu kali per run. DAG mendefinisikan kapan dan bagaimana task harus dijalankan, tetapi tidak apa yang mereka lakukan secara konkret.

2

Parameter DAG mana yang mendefinisikan tanggal di mana scheduler mulai menjadwalkan eksekusi?

Jawaban

Parameter start_date mendefinisikan tanggal di mana Airflow mulai menjadwalkan eksekusi DAG. Tanggal ini digunakan bersama dengan schedule_interval untuk menentukan data intervals. Poin penting: jika start_date di masa lalu, Airflow dapat memicu backfill untuk mengejar eksekusi yang terlewat, kecuali catchup=False dikonfigurasi.

3

Operator mana yang harus digunakan untuk mengeksekusi fungsi Python di DAG Airflow?

Jawaban

PythonOperator memungkinkan untuk mengeksekusi fungsi Python callable di DAG Airflow. Fungsi diteruskan melalui parameter python_callable dan dapat menerima argumen melalui op_args (list) atau op_kwargs (dictionary). PythonOperator adalah salah satu operator yang paling umum digunakan karena menawarkan fleksibilitas besar untuk menjalankan kode Python kustom.

4

Bagaimana mendefinisikan dependensi antara dua task task_a dan task_b sehingga task_b berjalan setelah task_a?

5

Ekspresi cron mana yang mewakili eksekusi harian pada tengah malam?

+17 pertanyaan wawancara

Kuasai Data Engineering untuk wawancara berikutnya

Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.

Mulai gratis