
Apache Airflow - İleri Seviye
Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring
1Apache Airflow'da bir Sensor'ün ana rolü nedir?
Apache Airflow'da bir Sensor'ün ana rolü nedir?
Cevap
Sensor, DAG yürütmesine devam etmeden önce bir koşulun karşılanmasını bekleyen özel bir operatördür. Dosya gelişi, partition kullanılabilirliği veya başka bir task'in durumu gibi koşulun karşılanıp karşılanmadığını periyodik olarak kontrol eder (poke). Sensors, dış olaylara bağlı workflow'ları orkestre etmek için gereklidir.
2Bir Sensor için 'poke' ve 'reschedule' modları arasındaki fark nedir?
Bir Sensor için 'poke' ve 'reschedule' modları arasındaki fark nedir?
Cevap
poke modunda, Sensor sürekli olarak bir worker slot'unu işgal eder ve düzenli aralıklarla (poke_interval) koşulu kontrol eder. reschedule modunda, Sensor kontroller arasında worker slot'unu serbest bırakır ve kendini yeniden zamanlar. reschedule modu, diğer task'ler için kaynakları serbest bıraktığı için uzun süreli koşullar için önerilir.
3Bir Hive partition'ının kullanılabilir olmasını beklemek için hangi Sensor kullanılmalıdır?
Bir Hive partition'ının kullanılabilir olmasını beklemek için hangi Sensor kullanılmalıdır?
Cevap
HivePartitionSensor, bir Hive tablosundaki belirli bir partition'ın varlığını kontrol eder. Dönüşümleri çalıştırmadan önce kaynak verilerin kullanılabilir olduğundan emin olmak için veri pipeline'larında yaygın olarak kullanılır. schema, table ve partition gibi parametreleri kabul eder.
İki Airflow task'i arasında veri nasıl aktarılır?
XCom'da depolanan veriler için önerilen maksimum boyut nedir?
+17 mülakat soruları
Diğer Data Engineering mülakat konuları
Linux & Shell - Temeller
Git & GitHub - Temeller
Data Engineering için ileri düzey Python
Docker - Temeller
Google Cloud Platform - Temeller
CI/CD ve Kod Kalitesi
Docker Compose
FastAPI - Veri API'leri
Data Engineering için İleri Seviye SQL
Data Lake - Mimari ve Veri Alımı
Data Engineering için BigQuery
PostgreSQL - Yönetim
Data Engineering için Data Modeling
Fivetran & Airbyte - Veri Alımı
dbt - Temeller
Apache Airflow - Temeller
Kubernetes - Temeller
dbt - Gelişmiş özellikler
ETL / ELT / ETLT Desenleri
Airflow + dbt - Pipeline Orkestrasyonu
PySpark - Büyük Ölçekli İşleme
Google Pub/Sub - Veri Streaming
Apache Beam & Dataflow
Kubernetes - Üretim ve Ölçeklendirme
Terraform - Infrastructure as Code
NoSQL Veritabanları
Modern Data Architecture
İzleme ve Gözlemlenebilirlik
IAM ve Veri Güvenliği
Bir sonraki mülakatın için Data Engineering'de uzmanlaş
Tüm sorulara, flashcards'a, teknik testlere, code review alıştırmalarına ve mülakat simülatörlerine eriş.
Ücretsiz başla