Data Engineering

Data Engineering

DATA

Tüm veri üretim zincirini kapsayan kapsamlı Data Engineering müfredatı. Docker ve GCP ile ortam kurulumundan Airflow ve dbt ile pipeline orkestrasyonuna, BigQuery ve PostgreSQL ile Data Warehouse oluşturmaya kadar. PySpark, Pub/Sub ve Apache Beam ile veri akışını yönetmeyi, Kubernetes ve Terraform ile üretime dağıtmayı öğren. CI/CD, izleme ve modern veri mimarileri en iyi uygulamalarında uzmanlaş.

Ne öğreneceksin

Geliştirme ortamları: Linux, Git, GitHub, VS Code, gelişmiş Python

CI/CD ve kod kalitesi: Ruff, Pylint, Poetry, GitHub Actions

Docker ve Docker Compose ile konteynerleştirme

FastAPI ile API geliştirme: tasarım, dağıtım, dokümantasyon

Data Lake: veri alımı, depolama, ham veri organizasyonu

BigQuery ile Data Warehouse: şemalar, bölümleme, optimizasyon

PostgreSQL: kurulum, yönetim, yönetilen çözümlerle karşılaştırma

Fivetran ve Airbyte ile veri alımı

dbt ile dönüşüm: modeller, testler, dokümantasyon, modülerlik

Apache Airflow ile orkestrasyon: DAG, zamanlama, izleme

PySpark ile Big Data: büyük ölçekli dönüşümler

Veri akışı: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: konteyner dağıtımı, ölçekleme, üretim kümeleri

Terraform ile Infrastructure as Code

Gelişmiş veritabanları: GraphDB, Document DB, Wide Column DB

Loglama, izleme ve pipeline gözlemlenebilirliği

Uzmanlaşılması gereken temel konular

Bu teknolojiyi anlamak ve mülakatlarını başarmak için en önemli kavramlar

1

Linux ve Shell: temel komutlar, bash betikleri, izinler, cron görevleri

2

Git ve GitHub: dallanma, merge, rebase, pull request, CI/CD iş akışları

3

Gelişmiş Python: OOP, decorator, generator, context manager, typing, async/await

4

CI/CD: linting (Ruff, Pylint), paketleme (Poetry), testler, GitHub Actions, pipeline

5

Docker: Dockerfile, imaj, konteyner, volume, ağ, multi-stage build

6

Docker Compose: çoklu konteyner servisleri, bağımlılıklar, healthcheck, yerel orkestrasyon

7

FastAPI: route, Pydantic modelleri, bağımlılıklar, middleware, dağıtım

8

Gelişmiş SQL: window function, CTE, analitik sorgular, optimizasyon, indeksleme

9

BigQuery: sunucusuz mimari, bölümleme, kümeleme, maliyetler, UDF, federatif sorgular

10

PostgreSQL: yapılandırma, replikasyon, indeksleme (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

11

Veri Modelleme: yıldız şeması, fact/dimension tabloları, normalizasyon, SCD, data vault

12

ELT vs ETL vs ETLT: kalıplar, ödünleşimler, mimari seçimler

13

Fivetran ve Airbyte: bağlayıcılar, senkronizasyon modları, CDC, şema evrimi

14

dbt: modeller, kaynaklar, ref, testler, snapshot, artımlı modeller, Jinja makroları

15

Apache Airflow: DAG, operatör, sensör, XCom, bağlantılar, havuzlar, görev bağımlılıkları

16

PySpark: RDD vs DataFrame, dönüşümler, eylemler, bölümleme, broadcast değişkenler

17

Streaming: Pub/Sub (konu, abonelik), Apache Beam (PCollection, dönüşüm, pencereleme), Dataflow

18

Kubernetes: pod, deployment, service, ingress, ConfigMap, Secret, Helm, ölçekleme

19

Terraform: provider, kaynak, state, modül, plan/apply, infrastructure as code

20

IAM ve güvenlik: en az yetki ilkeleri, servis hesapları, GCP rolleri

21

NoSQL veritabanları: GraphDB (Neo4j), Document DB (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

22

Veri Mimarisi: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contract

23

İzleme ve gözlemlenebilirlik: loglama, metrikler, uyarılar, SLA/SLO/SLI, veri kalitesi kontrolleri