Question 1

BigQuery hangi depolama mimarisini kullanır?

Accepted Answer

BigQuery, Capacitor adı verilen sütun tabanlı depolama ile serverless bir mimari kullanır. Bu mimari, storage ve compute'u ayırarak bağımsız ölçeklendirme ve ayrı faturalandırma sağlar. Sütun tabanlı depolama, yalnızca gerekli sütunların okunmasına izin verdiği için analitik sorgular için optimize edilmiştir ve I/O'yu önemli ölçüde azaltır.

Question 2

BigQuery'de tablo partitioning'in temel avantajı nedir?

Accepted Answer

Partitioning, büyük bir tabloyu bir sütuna (genellikle bir tarih) göre daha küçük segmentlere böler. Sorgular sırasında BigQuery, ilgisiz partition'ları atlayabilir (partition pruning) ve taranan veri miktarını azaltır. Bu, performansı artırır ve maliyetleri düşürür çünkü BigQuery işlenen veri hacmine göre faturalandırma yapar.

Question 3

BigQuery'de hangi partitioning türleri mevcuttur?

Accepted Answer

BigQuery üç partitioning türünü destekler: DATE veya TIMESTAMP sütunu ile (en yaygın), tamsayı aralığı ile (INTEGER RANGE) ve ingestion zamanı ile (_PARTITIONTIME). Tarih filtrelerinde verimli partition pruning sağladığı için tarih partitioning'i zaman serisi verileri için önerilir.

Data Engineering için BigQuery

BigQuery hangi depolama mimarisini kullanır?

Cevap

BigQuery'de tablo partitioning'in temel avantajı nedir?

Cevap

BigQuery'de hangi partitioning türleri mevcuttur?

Cevap

BigQuery'de partitioning ile clustering arasındaki fark nedir?

BigQuery'de sorgu maliyetleri nasıl optimize edilir?

Diğer Data Engineering mülakat konuları

Linux & Shell - Temeller

Git & GitHub - Temeller

Data Engineering için ileri düzey Python

Docker - Temeller

Google Cloud Platform - Temeller

CI/CD ve Kod Kalitesi

Docker Compose

FastAPI - Veri API'leri

Data Engineering için İleri Seviye SQL

Data Lake - Mimari ve Veri Alımı

PostgreSQL - Yönetim

Data Engineering için Data Modeling

Fivetran & Airbyte - Veri Alımı

dbt - Temeller

Apache Airflow - Temeller

Kubernetes - Temeller

dbt - Gelişmiş özellikler

ETL / ELT / ETLT Desenleri

Apache Airflow - İleri Seviye

Airflow + dbt - Pipeline Orkestrasyonu

PySpark - Büyük Ölçekli İşleme

Google Pub/Sub - Veri Streaming

Apache Beam & Dataflow

Kubernetes - Üretim ve Ölçeklendirme

Terraform - Infrastructure as Code

NoSQL Veritabanları

Modern Data Architecture

İzleme ve Gözlemlenebilirlik

IAM ve Veri Güvenliği

Bir sonraki mülakatın için Data Engineering'de uzmanlaş