Data Engineering

DATA

Umfassendes Data-Engineering-Curriculum, das die gesamte Datenproduktionskette abdeckt. Von der Umgebungseinrichtung mit Docker und GCP bis zur Pipeline-Orchestrierung mit Airflow und dbt, über die Data-Warehouse-Erstellung mit BigQuery und PostgreSQL. Lerne den Umgang mit Datenstreaming via PySpark, Pub/Sub und Apache Beam sowie das Deployment in Produktion mit Kubernetes und Terraform. Meistere Best Practices für CI/CD, Monitoring und moderne Datenarchitekturen.

Was du lernen wirst

Entwicklungsumgebungen: Linux, Git, GitHub, VS Code, fortgeschrittenes Python

CI/CD und Codequalität: Ruff, Pylint, Poetry, GitHub Actions

Containerisierung mit Docker und Docker Compose

APIs mit FastAPI: Design, Deployment, Dokumentation

Data Lake: Ingestion, Speicherung, Rohdatenorganisation

Data Warehouse mit BigQuery: Schemas, Partitionierung, Optimierung

PostgreSQL: Einrichtung, Administration, Vergleich mit verwalteten Lösungen

Dateningestion mit Fivetran und Airbyte

Transformation mit dbt: Models, Tests, Dokumentation, Modularität

Orchestrierung mit Apache Airflow: DAGs, Scheduling, Monitoring

Big Data mit PySpark: Transformationen im großen Maßstab

Datenstreaming: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: Container-Deployment, Skalierung, Produktionscluster

Infrastructure as Code mit Terraform

Fortgeschrittene Datenbanken: GraphDB, Document DBs, Wide Column DBs

Logging, Monitoring und Pipeline-Observability

Schlüsselthemen zum Meistern

Die wichtigsten Konzepte, um diese Technologie zu verstehen und deine Interviews zu bestehen

Linux und Shell: Wesentliche Befehle, Bash-Scripting, Berechtigungen, Cron Jobs

Git und GitHub: Branching, Merge, Rebase, Pull Requests, CI/CD Workflows

Fortgeschrittenes Python: OOP, Decorators, Generators, Context Managers, Typing, async/await

CI/CD: Linting (Ruff, Pylint), Packaging (Poetry), Tests, GitHub Actions, Pipelines

Docker: Dockerfile, Images, Container, Volumes, Networks, Multi-Stage Builds

Docker Compose: Multi-Container-Services, Abhängigkeiten, Healthchecks, lokale Orchestrierung

FastAPI: Routen, Pydantic-Modelle, Dependencies, Middleware, Deployment

Fortgeschrittenes SQL: Window Functions, CTEs, analytische Abfragen, Optimierung, Indexierung

BigQuery: Serverless-Architektur, Partitionierung, Clustering, Kosten, UDFs, Federated Queries

PostgreSQL: Konfiguration, Replikation, Indexierung (B-Tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

Datenmodellierung: Sternschema, Fakten-/Dimensionstabellen, Normalisierung, SCD, Data Vault

ELT vs ETL vs ETLT: Muster, Trade-offs, Architekturentscheidungen

Fivetran und Airbyte: Connectors, Sync-Modi, CDC, Schemaevolution

dbt: Models, Sources, Refs, Tests, Snapshots, Incremental Models, Jinja Macros

Apache Airflow: DAGs, Operators, Sensors, XCom, Connections, Pools, Task-Abhängigkeiten

PySpark: RDD vs DataFrame, Transformationen, Actions, Partitionierung, Broadcast Variables

Streaming: Pub/Sub (Topics, Subscriptions), Apache Beam (PCollections, Transforms, Windowing), Dataflow

Kubernetes: Pods, Deployments, Services, Ingress, ConfigMaps, Secrets, Helm, Scaling

Terraform: Providers, Resources, State, Modules, Plan/Apply, Infrastructure as Code

IAM und Sicherheit: Least-Privilege-Prinzipien, Service Accounts, GCP-Rollen

NoSQL-Datenbanken: GraphDB (Neo4j), Document DBs (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

Datenarchitektur: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contracts

Monitoring und Observability: Logging, Metriken, Alerting, SLA/SLO/SLI, Data Quality Checks

Aktuelle Data Engineering-Artikel

Entdecke unsere neuesten Artikel und Anleitungen zu Data Engineering

Apache Spark 4 neue Funktionen und Structured Streaming

May 11, 2026

Apache Spark 4 im Jahr 2026: Neue Features, Structured Streaming und Interview-Fragen

Umfassender technischer Leitfaden zu Apache Spark 4 mit ANSI SQL, VARIANT-Datentyp, Real-Time Mode Streaming, Spark Connect und den wichtigsten Interview-Fragen fuer Data Engineering Positionen.

Apache Kafka Streaming-Architektur für Data Engineering

April 20, 2026

Apache Kafka für Data Engineers: Streaming-Architektur, Partitionen und Interviewfragen

Apache Kafka Deep Dive für Data Engineers: KRaft-Architektur, Partitionsstrategien, Consumer Groups, CDC mit Debezium, Exactly-Once-Semantik und häufig gestellte Interviewfragen mit Kafka 4.x.

ETL vs ELT Datenpipeline-Architektur Vergleichsdiagramm

April 13, 2026

ETL vs ELT 2026: Datenpipeline-Architektur im Vergleich

ETL vs ELT Vergleich für moderne Datenpipelines. Architekturunterschiede, Leistungs-Kompromisse und wann welcher Ansatz mit Snowflake, BigQuery und dbt in 2026 sinnvoll ist.

Alle Data Engineering-Artikel anzeigen