Data Engineering

Data Lake - Mimari ve Veri Alımı

Data Lake mimarisi, bölgeler (raw/refined/curated), formatlar (Parquet, Avro, JSON), veri alımı, bölümlendirme

20 mülakat soruları·
Mid-Level
1

Data Lake nedir?

Cevap

Data Lake, yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış olsun, ham verileri yerel formatlarında saklayabilen merkezi bir depolama sistemidir. Yazma sırasında şema dayatan Data Warehouse'un (schema-on-write) aksine, Data Lake okuma sırasında şema uygular (schema-on-read), veri keşfi ve analizi için maksimum esneklik sunar.

2

Schema-on-write ve schema-on-read arasındaki temel fark nedir?

Cevap

Schema-on-write, depolama öncesi veri doğrulama ve dönüşüm zorunlu kılar, tutarlı yapı sağlar ancak esnekliği sınırlar. Schema-on-read, verileri ham formatta saklar ve şemayı yalnızca okuma sırasında uygular, maksimum veri alımı esnekliği sunar ancak verilere erişirken işleme gerektirir.

3

Bir Data Lake'in üç klasik bölgesi nedir?

Cevap

Standart Data Lake mimarisi üç bölgeden oluşur: dönüştürülmemiş ham veriler için Raw (Bronze), temizlenmiş ve normalleştirilmiş veriler için Refined (Silver) ve tüketime hazır birleştirilmiş veriler için Curated (Gold). Bu katmanlı organizasyon yönetişim, izlenebilirlik ve veri kalitesini kolaylaştırır.

4

Bir Data Lake'te Raw (Bronze) bölgesinin rolü nedir?

5

Bir Data Lake'te büyük analitik verileri depolamak için en uygun dosya formatı hangisidir?

+17 mülakat soruları

Bir sonraki mülakatın için Data Engineering'de uzmanlaş

Tüm sorulara, flashcards'a, teknik testlere, code review alıştırmalarına ve mülakat simülatörlerine eriş.

Ücretsiz başla