
Apache Airflow - Dasar-Dasar
DAGs, operators (Bash, Python, SQL), scheduling, dependensi task, Airflow UI, connections, variables, trigger rules
1Apa itu DAG dalam Apache Airflow?
Apa itu DAG dalam Apache Airflow?
Jawaban
Sebuah DAG (Directed Acyclic Graph) adalah koleksi task yang diorganisir dengan dependensi dan relasi, mewakili workflow lengkap. Sifat asiklik berarti tidak boleh ada loop dalam graph dependensi, yang memastikan setiap task dieksekusi tepat satu kali per run. DAG mendefinisikan kapan dan bagaimana task harus dijalankan, tetapi tidak apa yang mereka lakukan secara konkret.
2Parameter DAG mana yang mendefinisikan tanggal di mana scheduler mulai menjadwalkan eksekusi?
Parameter DAG mana yang mendefinisikan tanggal di mana scheduler mulai menjadwalkan eksekusi?
Jawaban
Parameter start_date mendefinisikan tanggal di mana Airflow mulai menjadwalkan eksekusi DAG. Tanggal ini digunakan bersama dengan schedule_interval untuk menentukan data intervals. Poin penting: jika start_date di masa lalu, Airflow dapat memicu backfill untuk mengejar eksekusi yang terlewat, kecuali catchup=False dikonfigurasi.
3Operator mana yang harus digunakan untuk mengeksekusi fungsi Python di DAG Airflow?
Operator mana yang harus digunakan untuk mengeksekusi fungsi Python di DAG Airflow?
Jawaban
PythonOperator memungkinkan untuk mengeksekusi fungsi Python callable di DAG Airflow. Fungsi diteruskan melalui parameter python_callable dan dapat menerima argumen melalui op_args (list) atau op_kwargs (dictionary). PythonOperator adalah salah satu operator yang paling umum digunakan karena menawarkan fleksibilitas besar untuk menjalankan kode Python kustom.
Bagaimana mendefinisikan dependensi antara dua task task_a dan task_b sehingga task_b berjalan setelah task_a?
Ekspresi cron mana yang mewakili eksekusi harian pada tengah malam?
+17 pertanyaan wawancara
Topik wawancara Data Engineering lainnya
Linux & Shell - Dasar-dasar
Git & GitHub - Dasar-dasar
Python lanjutan untuk Data Engineering
Docker - Dasar-dasar
Google Cloud Platform - Dasar-Dasar
CI/CD dan Kualitas Kode
Docker Compose
FastAPI - API Data
SQL Lanjutan untuk Data Engineering
Data Lake - Arsitektur dan Ingesti
BigQuery untuk Data Engineering
PostgreSQL - Administrasi
Data Modeling untuk Data Engineering
Fivetran & Airbyte - Ingesti Data
dbt - Dasar
Kubernetes - Dasar-Dasar
dbt - Fitur lanjutan
Pola ETL / ELT / ETLT
Apache Airflow - Lanjutan
Airflow + dbt - Orkestrasi Pipeline
PySpark - Pemrosesan Skala Besar
Google Pub/Sub - Streaming Data
Apache Beam & Dataflow
Kubernetes - Produksi dan Penskalaan
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture Modern
Monitoring dan Observability
IAM dan Keamanan Data
Kuasai Data Engineering untuk wawancara berikutnya
Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.
Mulai gratis