
Data Lake - Mimari ve Veri Alımı
Data Lake mimarisi, bölgeler (raw/refined/curated), formatlar (Parquet, Avro, JSON), veri alımı, bölümlendirme
1Data Lake nedir?
Data Lake nedir?
Cevap
Data Lake, yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış olsun, ham verileri yerel formatlarında saklayabilen merkezi bir depolama sistemidir. Yazma sırasında şema dayatan Data Warehouse'un (schema-on-write) aksine, Data Lake okuma sırasında şema uygular (schema-on-read), veri keşfi ve analizi için maksimum esneklik sunar.
2Schema-on-write ve schema-on-read arasındaki temel fark nedir?
Schema-on-write ve schema-on-read arasındaki temel fark nedir?
Cevap
Schema-on-write, depolama öncesi veri doğrulama ve dönüşüm zorunlu kılar, tutarlı yapı sağlar ancak esnekliği sınırlar. Schema-on-read, verileri ham formatta saklar ve şemayı yalnızca okuma sırasında uygular, maksimum veri alımı esnekliği sunar ancak verilere erişirken işleme gerektirir.
3Bir Data Lake'in üç klasik bölgesi nedir?
Bir Data Lake'in üç klasik bölgesi nedir?
Cevap
Standart Data Lake mimarisi üç bölgeden oluşur: dönüştürülmemiş ham veriler için Raw (Bronze), temizlenmiş ve normalleştirilmiş veriler için Refined (Silver) ve tüketime hazır birleştirilmiş veriler için Curated (Gold). Bu katmanlı organizasyon yönetişim, izlenebilirlik ve veri kalitesini kolaylaştırır.
Bir Data Lake'te Raw (Bronze) bölgesinin rolü nedir?
Bir Data Lake'te büyük analitik verileri depolamak için en uygun dosya formatı hangisidir?
+17 mülakat soruları
Diğer Data Engineering mülakat konuları
Linux & Shell - Temeller
Git & GitHub - Temeller
Data Engineering için ileri düzey Python
Docker - Temeller
Google Cloud Platform - Temeller
CI/CD ve Kod Kalitesi
Docker Compose
FastAPI - Veri API'leri
Data Engineering için İleri Seviye SQL
Data Engineering için BigQuery
PostgreSQL - Yönetim
Data Engineering için Data Modeling
Fivetran & Airbyte - Veri Alımı
dbt - Temeller
Apache Airflow - Temeller
Kubernetes - Temeller
dbt - Gelişmiş özellikler
ETL / ELT / ETLT Desenleri
Apache Airflow - İleri Seviye
Airflow + dbt - Pipeline Orkestrasyonu
PySpark - Büyük Ölçekli İşleme
Google Pub/Sub - Veri Streaming
Apache Beam & Dataflow
Kubernetes - Üretim ve Ölçeklendirme
Terraform - Infrastructure as Code
NoSQL Veritabanları
Modern Data Architecture
İzleme ve Gözlemlenebilirlik
IAM ve Veri Güvenliği
Bir sonraki mülakatın için Data Engineering'de uzmanlaş
Tüm sorulara, flashcards'a, teknik testlere, code review alıştırmalarına ve mülakat simülatörlerine eriş.
Ücretsiz başla