Question 1

Wat is het belangrijkste verschil tussen ETL en ELT?

Accepted Answer

Bij ETL (Extract-Transform-Load) worden gegevens getransformeerd op een tussenserver voordat ze in de bestemming worden geladen. Bij ELT (Extract-Load-Transform) worden ruwe gegevens eerst in de bestemming geladen (meestal een cloud data warehouse) en vervolgens direct daarin getransformeerd met behulp van de rekenkracht ervan. ELT is populair geworden bij cloud data warehouses zoals BigQuery, Snowflake of Redshift die elastische rekenkracht bieden.

Question 2

Wat is het belangrijkste voordeel van de ELT-aanpak vergeleken met traditionele ETL?

Accepted Answer

De ELT-aanpak benut de elastische rekenkracht van moderne cloud data warehouses (BigQuery, Snowflake, Redshift). In plaats van een aparte transformatie-infrastructuur te onderhouden die een bottleneck kan worden, gebruiken transformaties direct de scaling-mogelijkheden van het data warehouse. Dit vermindert operationele complexiteit en maakt het verwerken van veel grotere datavolumes mogelijk zonder handmatige resource provisioning.

Question 3

Wat is het ETLT-patroon en wanneer is het relevant?

Accepted Answer

ETLT combineert beide benaderingen: een eerste lichte transformatie wordt uitgevoerd tijdens de extractie (opschoning, filtering, anonimisering), daarna worden de gegevens geladen en worden complexere transformaties toegepast in het data warehouse. Dit patroon is nuttig wanneer bepaalde transformaties stroomopwaarts moeten worden uitgevoerd om compliance-redenen (maskeren van gevoelige gegevens vóór het laden), volumevermindering (vroeg filteren) of normalisatie van heterogene bronformaten.

ETL- / ELT- / ETLT-patronen

Wat is het belangrijkste verschil tussen ETL en ELT?

Antwoord

Wat is het belangrijkste voordeel van de ELT-aanpak vergeleken met traditionele ETL?

Antwoord

Wat is het ETLT-patroon en wanneer is het relevant?

Antwoord

Wat is idempotentie in de context van datapipelines?

Hoe implementeer je idempotentie bij het laden van gegevens in een tabel?

Andere Data Engineering-sollicitatieonderwerpen

Linux & Shell - Grondbeginselen

Git & GitHub - Grondbeginselen

Geavanceerde Python voor Data Engineering

Docker - Basisbeginselen

Google Cloud Platform - Fundamenten

CI/CD en codekwaliteit

Docker Compose

FastAPI - Data-API's

Geavanceerde SQL voor Data Engineering

Data Lake - Architectuur en ingestie

BigQuery voor Data Engineering

PostgreSQL - Administratie

Data Modeling voor Data Engineering

Fivetran & Airbyte - Data-ingestie

dbt - Grondbeginselen

Apache Airflow - Grondbeginselen

Kubernetes - Fundamenten

dbt - Geavanceerde functies

Apache Airflow - Gevorderd

Airflow + dbt - Pipeline-orkestratie

PySpark - Grootschalige verwerking

Google Pub/Sub - Datastreaming

Apache Beam & Dataflow

Kubernetes - Productie en scaling

Terraform - Infrastructure as Code

NoSQL-databases

Moderne Data Architecture

Monitoring en observability

IAM en gegevensbeveiliging

Beheers Data Engineering voor je volgende gesprek