Data Engineering

Data Engineering

DATA

Kompleksowy program Data Engineering obejmujący cały łańcuch produkcji danych. Od konfiguracji środowiska z Docker i GCP po orkiestrację pipeline z Airflow i dbt, przez tworzenie Data Warehouse z BigQuery i PostgreSQL. Naucz się obsługi data streaming z PySpark, Pub/Sub i Apache Beam, oraz wdrażania na produkcję z Kubernetes i Terraform. Opanuj najlepsze praktyki CI/CD, monitorowania i nowoczesnych architektur danych.

Czego się nauczysz

Środowiska deweloperskie: Linux, Git, GitHub, VS Code, zaawansowany Python

CI/CD i jakość kodu: Ruff, Pylint, Poetry, GitHub Actions

Konteneryzacja z Docker i Docker Compose

API z FastAPI: projektowanie, wdrażanie, dokumentacja

Data Lake: pozyskiwanie, przechowywanie, organizacja surowych danych

Data Warehouse z BigQuery: schematy, partycjonowanie, optymalizacja

PostgreSQL: instalacja, administracja, porównanie z rozwiązaniami managed

Pozyskiwanie danych z Fivetran i Airbyte

Transformacja z dbt: modele, testy, dokumentacja, modularność

Orkiestracja z Apache Airflow: DAG, planowanie, monitorowanie

Big Data z PySpark: transformacje na dużą skalę

Data streaming: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: wdrażanie kontenerów, skalowanie, klastry produkcyjne

Infrastructure as Code z Terraform

Zaawansowane bazy danych: GraphDB, Document DB, Wide Column DB

Logowanie, monitorowanie i obserwowalność pipeline

Kluczowe tematy do opanowania

Najważniejsze pojęcia do zrozumienia tej technologii i zdania rozmów

1

Linux i Shell: podstawowe komendy, skrypty bash, uprawnienia, zadania cron

2

Git i GitHub: gałęzie, merge, rebase, pull request, procesy CI/CD

3

Zaawansowany Python: OOP, dekoratory, generatory, menedżery kontekstu, typing, async/await

4

CI/CD: linting (Ruff, Pylint), pakowanie (Poetry), testy, GitHub Actions, pipeline

5

Docker: Dockerfile, obrazy, kontenery, wolumeny, sieci, multi-stage build

6

Docker Compose: wielokontenerowe usługi, zależności, healthcheck, lokalna orkiestracja

7

FastAPI: trasy, modele Pydantic, zależności, middleware, wdrażanie

8

Zaawansowany SQL: funkcje okna, CTE, zapytania analityczne, optymalizacja, indeksowanie

9

BigQuery: architektura serverless, partycjonowanie, klastrowanie, koszty, UDF, zapytania federacyjne

10

PostgreSQL: konfiguracja, replikacja, indeksowanie (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

11

Modelowanie danych: schemat gwiazdy, tabele faktów/wymiarów, normalizacja, SCD, data vault

12

ELT vs ETL vs ETLT: wzorce, kompromisy, wybory architektoniczne

13

Fivetran i Airbyte: konektory, tryby synchronizacji, CDC, ewolucja schematów

14

dbt: modele, źródła, ref, testy, snapshoty, modele przyrostowe, makra Jinja

15

Apache Airflow: DAG, operatory, sensory, XCom, połączenia, pule, zależności zadań

16

PySpark: RDD vs DataFrame, transformacje, akcje, partycjonowanie, zmienne broadcast

17

Streaming: Pub/Sub (tematy, subskrypcje), Apache Beam (PCollection, transformacje, okienkowanie), Dataflow

18

Kubernetes: pody, deploymenty, serwisy, ingress, ConfigMap, Secret, Helm, skalowanie

19

Terraform: providery, zasoby, state, moduły, plan/apply, infrastructure as code

20

IAM i bezpieczeństwo: zasada najmniejszych uprawnień, konta usług, role GCP

21

Bazy NoSQL: GraphDB (Neo4j), Document DB (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

22

Architektura danych: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contract

23

Monitorowanie i obserwowalność: logowanie, metryki, alerty, SLA/SLO/SLI, kontrole jakości danych