Question 1

Data Lake nedir?

Accepted Answer

Data Lake, yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış olsun, ham verileri yerel formatlarında saklayabilen merkezi bir depolama sistemidir. Yazma sırasında şema dayatan Data Warehouse'un (schema-on-write) aksine, Data Lake okuma sırasında şema uygular (schema-on-read), veri keşfi ve analizi için maksimum esneklik sunar.

Question 2

Schema-on-write ve schema-on-read arasındaki temel fark nedir?

Accepted Answer

Schema-on-write, depolama öncesi veri doğrulama ve dönüşüm zorunlu kılar, tutarlı yapı sağlar ancak esnekliği sınırlar. Schema-on-read, verileri ham formatta saklar ve şemayı yalnızca okuma sırasında uygular, maksimum veri alımı esnekliği sunar ancak verilere erişirken işleme gerektirir.

Question 3

Bir Data Lake'in üç klasik bölgesi nedir?

Accepted Answer

Standart Data Lake mimarisi üç bölgeden oluşur: dönüştürülmemiş ham veriler için Raw (Bronze), temizlenmiş ve normalleştirilmiş veriler için Refined (Silver) ve tüketime hazır birleştirilmiş veriler için Curated (Gold). Bu katmanlı organizasyon yönetişim, izlenebilirlik ve veri kalitesini kolaylaştırır.

Data Lake - Mimari ve Veri Alımı

Data Lake nedir?

Cevap

Schema-on-write ve schema-on-read arasındaki temel fark nedir?

Cevap

Bir Data Lake'in üç klasik bölgesi nedir?

Cevap

Bir Data Lake'te Raw (Bronze) bölgesinin rolü nedir?

Bir Data Lake'te büyük analitik verileri depolamak için en uygun dosya formatı hangisidir?

Diğer Data Engineering mülakat konuları

Linux & Shell - Temeller

Git & GitHub - Temeller

Data Engineering için ileri düzey Python

Docker - Temeller

Google Cloud Platform - Temeller

CI/CD ve Kod Kalitesi

Docker Compose

FastAPI - Veri API'leri

Data Engineering için İleri Seviye SQL

Data Engineering için BigQuery

PostgreSQL - Yönetim

Data Engineering için Data Modeling

Fivetran & Airbyte - Veri Alımı

dbt - Temeller

Apache Airflow - Temeller

Kubernetes - Temeller

dbt - Gelişmiş özellikler

ETL / ELT / ETLT Desenleri

Apache Airflow - İleri Seviye

Airflow + dbt - Pipeline Orkestrasyonu

PySpark - Büyük Ölçekli İşleme

Google Pub/Sub - Veri Streaming

Apache Beam & Dataflow

Kubernetes - Üretim ve Ölçeklendirme

Terraform - Infrastructure as Code

NoSQL Veritabanları

Modern Data Architecture

İzleme ve Gözlemlenebilirlik

IAM ve Veri Güvenliği

Bir sonraki mülakatın için Data Engineering'de uzmanlaş