
Apache Airflow - Temeller
DAG'lar, operator'ler (Bash, Python, SQL), zamanlama, görev bağımlılıkları, Airflow UI, connection'lar, variable'lar, trigger rule'lar
1Apache Airflow'da DAG nedir?
Apache Airflow'da DAG nedir?
Cevap
Bir DAG (Directed Acyclic Graph), bağımlılıklar ve ilişkilerle organize edilmiş, eksiksiz bir iş akışını temsil eden görev koleksiyonudur. Asiklik yapı, bağımlılık grafiğinde döngü olamayacağı anlamına gelir, bu da her görevin çalışma başına tam olarak bir kez yürütülmesini garanti eder. DAG, görevlerin ne zaman ve nasıl çalışacağını tanımlar, ancak somut olarak ne yaptıklarını değil.
2Hangi DAG parametresi, scheduler'ın çalıştırmaları planlamaya başlayacağı tarihi tanımlar?
Hangi DAG parametresi, scheduler'ın çalıştırmaları planlamaya başlayacağı tarihi tanımlar?
Cevap
start_date parametresi, Airflow'un DAG çalıştırmalarını planlamaya başlayacağı tarihi tanımlar. Bu tarih, data interval'leri belirlemek için schedule_interval ile birlikte kullanılır. Önemli bir nokta: start_date geçmişte ise, catchup=False yapılandırılmadığı sürece Airflow, kaçırılan çalıştırmaları yakalamak için backfill tetikleyebilir.
3Airflow DAG'ında bir Python fonksiyonunu yürütmek için hangi operator kullanılmalıdır?
Airflow DAG'ında bir Python fonksiyonunu yürütmek için hangi operator kullanılmalıdır?
Cevap
PythonOperator, Airflow DAG'ında bir Python callable fonksiyonu yürütmenize olanak tanır. Fonksiyon python_callable parametresi aracılığıyla iletilir ve op_args (liste) veya op_kwargs (sözlük) aracılığıyla argümanlar alabilir. PythonOperator, özel Python kodunu çalıştırmak için büyük esneklik sunduğu için en yaygın kullanılan operatorlerden biridir.
task_b'nin task_a'dan sonra çalışması için iki task task_a ve task_b arasında bir bağımlılık nasıl tanımlanır?
Hangi cron ifadesi gece yarısı günlük bir yürütmeyi temsil eder?
+17 mülakat soruları
Diğer Data Engineering mülakat konuları
Linux & Shell - Temeller
Git & GitHub - Temeller
Data Engineering için ileri düzey Python
Docker - Temeller
Google Cloud Platform - Temeller
CI/CD ve Kod Kalitesi
Docker Compose
FastAPI - Veri API'leri
Data Engineering için İleri Seviye SQL
Data Lake - Mimari ve Veri Alımı
Data Engineering için BigQuery
PostgreSQL - Yönetim
Data Engineering için Data Modeling
Fivetran & Airbyte - Veri Alımı
dbt - Temeller
Kubernetes - Temeller
dbt - Gelişmiş özellikler
ETL / ELT / ETLT Desenleri
Apache Airflow - İleri Seviye
Airflow + dbt - Pipeline Orkestrasyonu
PySpark - Büyük Ölçekli İşleme
Google Pub/Sub - Veri Streaming
Apache Beam & Dataflow
Kubernetes - Üretim ve Ölçeklendirme
Terraform - Infrastructure as Code
NoSQL Veritabanları
Modern Data Architecture
İzleme ve Gözlemlenebilirlik
IAM ve Veri Güvenliği
Bir sonraki mülakatın için Data Engineering'de uzmanlaş
Tüm sorulara, flashcards'a, teknik testlere, code review alıştırmalarına ve mülakat simülatörlerine eriş.
Ücretsiz başla