Data Engineering

DATA

Uitgebreid Data Engineering-curriculum dat de hele dataproductieketen omvat. Van omgevingsconfiguratie met Docker en GCP tot pipeline-orkestratie met Airflow en dbt, via het bouwen van Data Warehouses met BigQuery en PostgreSQL. Leer datastreaming afhandelen met PySpark, Pub/Sub en Apache Beam, en deployen naar productie met Kubernetes en Terraform. Beheers best practices voor CI/CD, monitoring en moderne data-architecturen.

Wat je zult leren

Ontwikkelomgevingen: Linux, Git, GitHub, VS Code, geavanceerd Python

CI/CD en codekwaliteit: Ruff, Pylint, Poetry, GitHub Actions

Containerisatie met Docker en Docker Compose

API's met FastAPI: ontwerp, deployment, documentatie

Data Lake: ingestie, opslag, organisatie van ruwe data

Data Warehouse met BigQuery: schema's, partitionering, optimalisatie

PostgreSQL: installatie, beheer, vergelijking met managed oplossingen

Data-ingestie met Fivetran en Airbyte

Transformatie met dbt: modellen, tests, documentatie, modulariteit

Orkestratie met Apache Airflow: DAG's, scheduling, monitoring

Big Data met PySpark: grootschalige transformaties

Datastreaming: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: container-deployment, schaling, productiechlusters

Infrastructure as Code met Terraform

Geavanceerde databases: GraphDB, Document DB, Wide Column DB

Logging, monitoring en pipeline-observeerbaarheid

Belangrijkste onderwerpen om te beheersen

De belangrijkste concepten om deze technologie te begrijpen en je gesprekken te halen

Linux en Shell: essentiële commando's, bash-scripting, machtigingen, cron jobs

Git en GitHub: branching, merge, rebase, pull requests, CI/CD-workflows

Geavanceerd Python: OOP, decorators, generators, context managers, typing, async/await

CI/CD: linting (Ruff, Pylint), packaging (Poetry), tests, GitHub Actions, pipelines

Docker: Dockerfile, images, containers, volumes, netwerken, multi-stage builds

Docker Compose: multi-container services, afhankelijkheden, healthchecks, lokale orkestratie

FastAPI: routes, Pydantic-modellen, dependencies, middleware, deployment

Geavanceerde SQL: window functions, CTE's, analytische queries, optimalisatie, indexering

BigQuery: serverless architectuur, partitionering, clustering, kosten, UDF's, gefedereerde queries

PostgreSQL: configuratie, replicatie, indexering (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

Datamodellering: sterschema, fact/dimensietabellen, normalisatie, SCD, data vault

ELT vs ETL vs ETLT: patronen, afwegingen, architectuurkeuzes

Fivetran en Airbyte: connectors, synchronisatiemodi, CDC, schema-evolutie

dbt: modellen, bronnen, refs, tests, snapshots, incrementele modellen, Jinja-macro's

Apache Airflow: DAG's, operators, sensors, XCom, verbindingen, pools, taakafhankelijkheden

PySpark: RDD vs DataFrame, transformaties, acties, partitionering, broadcast-variabelen

Streaming: Pub/Sub (topics, subscripties), Apache Beam (PCollections, transformaties, windowing), Dataflow

Kubernetes: pods, deployments, services, ingress, ConfigMaps, Secrets, Helm, schaling

Terraform: providers, resources, state, modules, plan/apply, infrastructure as code

IAM en beveiliging: least privilege-principes, serviceaccounts, GCP-rollen

NoSQL-databases: GraphDB (Neo4j), Document DB (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

Data-architectuur: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contracts

Monitoring en observeerbaarheid: logging, metrics, alerting, SLA/SLO/SLI, datakwaliteitscontroles

Recente Data Engineering artikelen

Ontdek onze nieuwste artikelen en gidsen over Data Engineering

Apache Airflow pipeline orchestratie en DAG tutorial

June 13, 2026

Apache Airflow in 2026: Pipeline Orchestratie, DAGs en Sollicitatievragen

Leer Apache Airflow 3.2 beheersen met de Task SDK, dynamische task mapping, asset partities en native async ondersteuning. Inclusief vergelijking met Prefect en Dagster, productietips en veelgestelde sollicitatievragen.

May 25, 2026

dbt in 2026: Datatransformaties, Testing en Interviewvragen voor Data Engineers

Een uitgebreide gids over dbt in 2026: gelaagde modellering, testing, incrementele materialisaties en veelgestelde interviewvragen voor data engineering posities.

Apache Spark 4 nieuwe functies en Structured Streaming

May 11, 2026

Apache Spark 4 in 2026: Nieuwe Functies, Structured Streaming en Sollicitatievragen

Uitgebreide gids over Apache Spark 4 met ANSI SQL, VARIANT datatype, Real-Time Mode streaming, Spark Connect en declaratieve pipelines. Inclusief veelgestelde sollicitatievragen voor data engineering.

Bekijk alle Data Engineering artikelen