Data Engineering

Data Engineering

DATA

Uitgebreid Data Engineering-curriculum dat de hele dataproductieketen omvat. Van omgevingsconfiguratie met Docker en GCP tot pipeline-orkestratie met Airflow en dbt, via het bouwen van Data Warehouses met BigQuery en PostgreSQL. Leer datastreaming afhandelen met PySpark, Pub/Sub en Apache Beam, en deployen naar productie met Kubernetes en Terraform. Beheers best practices voor CI/CD, monitoring en moderne data-architecturen.

Wat je zult leren

Ontwikkelomgevingen: Linux, Git, GitHub, VS Code, geavanceerd Python

CI/CD en codekwaliteit: Ruff, Pylint, Poetry, GitHub Actions

Containerisatie met Docker en Docker Compose

API's met FastAPI: ontwerp, deployment, documentatie

Data Lake: ingestie, opslag, organisatie van ruwe data

Data Warehouse met BigQuery: schema's, partitionering, optimalisatie

PostgreSQL: installatie, beheer, vergelijking met managed oplossingen

Data-ingestie met Fivetran en Airbyte

Transformatie met dbt: modellen, tests, documentatie, modulariteit

Orkestratie met Apache Airflow: DAG's, scheduling, monitoring

Big Data met PySpark: grootschalige transformaties

Datastreaming: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: container-deployment, schaling, productiechlusters

Infrastructure as Code met Terraform

Geavanceerde databases: GraphDB, Document DB, Wide Column DB

Logging, monitoring en pipeline-observeerbaarheid

Belangrijkste onderwerpen om te beheersen

De belangrijkste concepten om deze technologie te begrijpen en je gesprekken te halen

1

Linux en Shell: essentiële commando's, bash-scripting, machtigingen, cron jobs

2

Git en GitHub: branching, merge, rebase, pull requests, CI/CD-workflows

3

Geavanceerd Python: OOP, decorators, generators, context managers, typing, async/await

4

CI/CD: linting (Ruff, Pylint), packaging (Poetry), tests, GitHub Actions, pipelines

5

Docker: Dockerfile, images, containers, volumes, netwerken, multi-stage builds

6

Docker Compose: multi-container services, afhankelijkheden, healthchecks, lokale orkestratie

7

FastAPI: routes, Pydantic-modellen, dependencies, middleware, deployment

8

Geavanceerde SQL: window functions, CTE's, analytische queries, optimalisatie, indexering

9

BigQuery: serverless architectuur, partitionering, clustering, kosten, UDF's, gefedereerde queries

10

PostgreSQL: configuratie, replicatie, indexering (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

11

Datamodellering: sterschema, fact/dimensietabellen, normalisatie, SCD, data vault

12

ELT vs ETL vs ETLT: patronen, afwegingen, architectuurkeuzes

13

Fivetran en Airbyte: connectors, synchronisatiemodi, CDC, schema-evolutie

14

dbt: modellen, bronnen, refs, tests, snapshots, incrementele modellen, Jinja-macro's

15

Apache Airflow: DAG's, operators, sensors, XCom, verbindingen, pools, taakafhankelijkheden

16

PySpark: RDD vs DataFrame, transformaties, acties, partitionering, broadcast-variabelen

17

Streaming: Pub/Sub (topics, subscripties), Apache Beam (PCollections, transformaties, windowing), Dataflow

18

Kubernetes: pods, deployments, services, ingress, ConfigMaps, Secrets, Helm, schaling

19

Terraform: providers, resources, state, modules, plan/apply, infrastructure as code

20

IAM en beveiliging: least privilege-principes, serviceaccounts, GCP-rollen

21

NoSQL-databases: GraphDB (Neo4j), Document DB (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

22

Data-architectuur: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contracts

23

Monitoring en observeerbaarheid: logging, metrics, alerting, SLA/SLO/SLI, datakwaliteitscontroles