
ETL / ELT / ETLT Desenleri
ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, idempotans, hata yönetimi, dead letter queue, veri kalitesi, lineage
1ETL ve ELT arasındaki temel fark nedir?
ETL ve ELT arasındaki temel fark nedir?
Cevap
ETL'de (Extract-Transform-Load) veriler, hedefe yüklenmeden önce bir ara sunucuda dönüştürülür. ELT'de (Extract-Load-Transform) ham veriler önce hedefe (genellikle bir cloud data warehouse) yüklenir, ardından compute power'ı kullanılarak doğrudan içinde dönüştürülür. ELT, elastik compute power sunan BigQuery, Snowflake veya Redshift gibi cloud data warehouse'larla popülerleşmiştir.
2Geleneksel ETL'e kıyasla ELT yaklaşımının temel avantajı nedir?
Geleneksel ETL'e kıyasla ELT yaklaşımının temel avantajı nedir?
Cevap
ELT yaklaşımı, modern cloud data warehouse'ların (BigQuery, Snowflake, Redshift) elastik compute power'ından yararlanır. Bottleneck olabilecek ayrı bir dönüşüm altyapısını sürdürmek yerine, dönüşümler doğrudan data warehouse'un scaling yeteneklerini kullanır. Bu, operasyonel karmaşıklığı azaltır ve manuel kaynak provisioning olmadan çok daha büyük veri hacimlerini işlemeyi mümkün kılar.
3ETLT deseni nedir ve ne zaman uygundur?
ETLT deseni nedir ve ne zaman uygundur?
Cevap
ETLT, her iki yaklaşımı birleştirir: Çıkarma sırasında ilk hafif dönüşüm gerçekleştirilir (temizleme, filtreleme, anonimleştirme), ardından veriler yüklenir ve data warehouse'da daha karmaşık dönüşümler uygulanır. Bu desen, belirli dönüşümlerin compliance nedenleriyle (yükleme öncesi hassas veri maskeleme), hacim azaltma (erken filtreleme) veya heterojen kaynak formatlarını normalleştirme için yukarı akışta yapılması gerektiğinde kullanışlıdır.
Veri pipeline'ları bağlamında idempotans nedir?
Bir tabloya veri yüklerken idempotans nasıl uygulanır?
+17 mülakat soruları
Diğer Data Engineering mülakat konuları
Linux & Shell - Temeller
Git & GitHub - Temeller
Data Engineering için ileri düzey Python
Docker - Temeller
Google Cloud Platform - Temeller
CI/CD ve Kod Kalitesi
Docker Compose
FastAPI - Veri API'leri
Data Engineering için İleri Seviye SQL
Data Lake - Mimari ve Veri Alımı
Data Engineering için BigQuery
PostgreSQL - Yönetim
Data Engineering için Data Modeling
Fivetran & Airbyte - Veri Alımı
dbt - Temeller
Apache Airflow - Temeller
Kubernetes - Temeller
dbt - Gelişmiş özellikler
Apache Airflow - İleri Seviye
Airflow + dbt - Pipeline Orkestrasyonu
PySpark - Büyük Ölçekli İşleme
Google Pub/Sub - Veri Streaming
Apache Beam & Dataflow
Kubernetes - Üretim ve Ölçeklendirme
Terraform - Infrastructure as Code
NoSQL Veritabanları
Modern Data Architecture
İzleme ve Gözlemlenebilirlik
IAM ve Veri Güvenliği
Bir sonraki mülakatın için Data Engineering'de uzmanlaş
Tüm sorulara, flashcards'a, teknik testlere, code review alıştırmalarına ve mülakat simülatörlerine eriş.
Ücretsiz başla