Data Engineering

DATA

Kompleksowy program Data Engineering obejmujący cały łańcuch produkcji danych. Od konfiguracji środowiska z Docker i GCP po orkiestrację pipeline z Airflow i dbt, przez tworzenie Data Warehouse z BigQuery i PostgreSQL. Naucz się obsługi data streaming z PySpark, Pub/Sub i Apache Beam, oraz wdrażania na produkcję z Kubernetes i Terraform. Opanuj najlepsze praktyki CI/CD, monitorowania i nowoczesnych architektur danych.

Czego się nauczysz

Środowiska deweloperskie: Linux, Git, GitHub, VS Code, zaawansowany Python

CI/CD i jakość kodu: Ruff, Pylint, Poetry, GitHub Actions

Konteneryzacja z Docker i Docker Compose

API z FastAPI: projektowanie, wdrażanie, dokumentacja

Data Lake: pozyskiwanie, przechowywanie, organizacja surowych danych

Data Warehouse z BigQuery: schematy, partycjonowanie, optymalizacja

PostgreSQL: instalacja, administracja, porównanie z rozwiązaniami managed

Pozyskiwanie danych z Fivetran i Airbyte

Transformacja z dbt: modele, testy, dokumentacja, modularność

Orkiestracja z Apache Airflow: DAG, planowanie, monitorowanie

Big Data z PySpark: transformacje na dużą skalę

Data streaming: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: wdrażanie kontenerów, skalowanie, klastry produkcyjne

Infrastructure as Code z Terraform

Zaawansowane bazy danych: GraphDB, Document DB, Wide Column DB

Logowanie, monitorowanie i obserwowalność pipeline

Kluczowe tematy do opanowania

Najważniejsze pojęcia do zrozumienia tej technologii i zdania rozmów

Linux i Shell: podstawowe komendy, skrypty bash, uprawnienia, zadania cron

Git i GitHub: gałęzie, merge, rebase, pull request, procesy CI/CD

Zaawansowany Python: OOP, dekoratory, generatory, menedżery kontekstu, typing, async/await

CI/CD: linting (Ruff, Pylint), pakowanie (Poetry), testy, GitHub Actions, pipeline

Docker: Dockerfile, obrazy, kontenery, wolumeny, sieci, multi-stage build

Docker Compose: wielokontenerowe usługi, zależności, healthcheck, lokalna orkiestracja

FastAPI: trasy, modele Pydantic, zależności, middleware, wdrażanie

Zaawansowany SQL: funkcje okna, CTE, zapytania analityczne, optymalizacja, indeksowanie

BigQuery: architektura serverless, partycjonowanie, klastrowanie, koszty, UDF, zapytania federacyjne

PostgreSQL: konfiguracja, replikacja, indeksowanie (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

Modelowanie danych: schemat gwiazdy, tabele faktów/wymiarów, normalizacja, SCD, data vault

ELT vs ETL vs ETLT: wzorce, kompromisy, wybory architektoniczne

Fivetran i Airbyte: konektory, tryby synchronizacji, CDC, ewolucja schematów

dbt: modele, źródła, ref, testy, snapshoty, modele przyrostowe, makra Jinja

Apache Airflow: DAG, operatory, sensory, XCom, połączenia, pule, zależności zadań

PySpark: RDD vs DataFrame, transformacje, akcje, partycjonowanie, zmienne broadcast

Streaming: Pub/Sub (tematy, subskrypcje), Apache Beam (PCollection, transformacje, okienkowanie), Dataflow

Kubernetes: pody, deploymenty, serwisy, ingress, ConfigMap, Secret, Helm, skalowanie

Terraform: providery, zasoby, state, moduły, plan/apply, infrastructure as code

IAM i bezpieczeństwo: zasada najmniejszych uprawnień, konta usług, role GCP

Bazy NoSQL: GraphDB (Neo4j), Document DB (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

Architektura danych: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contract

Monitorowanie i obserwowalność: logowanie, metryki, alerty, SLA/SLO/SLI, kontrole jakości danych

Najnowsze artykuły o Data Engineering

Odkryj nasze najnowsze artykuły i poradniki o Data Engineering

Apache Spark 4 nowe funkcje i Structured Streaming

May 11, 2026

Apache Spark 4 w 2026 roku: Nowe funkcje, Structured Streaming i pytania rekrutacyjne

Kompleksowy przewodnik techniczny po Apache Spark 4 z omowieniem trybu ANSI SQL, typu danych VARIANT, Real-Time Mode Streaming, Spark Connect oraz najwazniejszych pytan rekrutacyjnych na stanowiska Data Engineering.

April 20, 2026

Apache Kafka w Data Engineering: Partycje, Consumer Groups i Pipeline'y Strumieniowe

Kompleksowy przewodnik po Apache Kafka dla inzynierow danych. Architektura streamingu w trybie KRaft, strategie partycjonowania, consumer groups, Kafka Connect z Debezium, semantyka exactly-once, Share Groups (KIP-932) oraz pytania rekrutacyjne z przykladami kodu Python.

ETL vs ELT data pipeline architecture comparison diagram

April 13, 2026

ETL vs ELT w 2026: Architektura potoków danych od podstaw

Porównanie ETL i ELT dla nowoczesnych potoków danych. Różnice architektoniczne, kompromisy wydajnościowe i zastosowania z Snowflake, BigQuery i dbt.

Zobacz wszystkie artykuły o Data Engineering