
ETL- / ELT- / ETLT-patronen
ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, idempotentie, error handling, dead letter queues, datakwaliteit, lineage
1Wat is het belangrijkste verschil tussen ETL en ELT?
Wat is het belangrijkste verschil tussen ETL en ELT?
Antwoord
Bij ETL (Extract-Transform-Load) worden gegevens getransformeerd op een tussenserver voordat ze in de bestemming worden geladen. Bij ELT (Extract-Load-Transform) worden ruwe gegevens eerst in de bestemming geladen (meestal een cloud data warehouse) en vervolgens direct daarin getransformeerd met behulp van de rekenkracht ervan. ELT is populair geworden bij cloud data warehouses zoals BigQuery, Snowflake of Redshift die elastische rekenkracht bieden.
2Wat is het belangrijkste voordeel van de ELT-aanpak vergeleken met traditionele ETL?
Wat is het belangrijkste voordeel van de ELT-aanpak vergeleken met traditionele ETL?
Antwoord
De ELT-aanpak benut de elastische rekenkracht van moderne cloud data warehouses (BigQuery, Snowflake, Redshift). In plaats van een aparte transformatie-infrastructuur te onderhouden die een bottleneck kan worden, gebruiken transformaties direct de scaling-mogelijkheden van het data warehouse. Dit vermindert operationele complexiteit en maakt het verwerken van veel grotere datavolumes mogelijk zonder handmatige resource provisioning.
3Wat is het ETLT-patroon en wanneer is het relevant?
Wat is het ETLT-patroon en wanneer is het relevant?
Antwoord
ETLT combineert beide benaderingen: een eerste lichte transformatie wordt uitgevoerd tijdens de extractie (opschoning, filtering, anonimisering), daarna worden de gegevens geladen en worden complexere transformaties toegepast in het data warehouse. Dit patroon is nuttig wanneer bepaalde transformaties stroomopwaarts moeten worden uitgevoerd om compliance-redenen (maskeren van gevoelige gegevens vóór het laden), volumevermindering (vroeg filteren) of normalisatie van heterogene bronformaten.
Wat is idempotentie in de context van datapipelines?
Hoe implementeer je idempotentie bij het laden van gegevens in een tabel?
+17 gespreksvragen
Andere Data Engineering-sollicitatieonderwerpen
Linux & Shell - Grondbeginselen
Git & GitHub - Grondbeginselen
Geavanceerde Python voor Data Engineering
Docker - Basisbeginselen
Google Cloud Platform - Fundamenten
CI/CD en codekwaliteit
Docker Compose
FastAPI - Data-API's
Geavanceerde SQL voor Data Engineering
Data Lake - Architectuur en ingestie
BigQuery voor Data Engineering
PostgreSQL - Administratie
Data Modeling voor Data Engineering
Fivetran & Airbyte - Data-ingestie
dbt - Grondbeginselen
Apache Airflow - Grondbeginselen
Kubernetes - Fundamenten
dbt - Geavanceerde functies
Apache Airflow - Gevorderd
Airflow + dbt - Pipeline-orkestratie
PySpark - Grootschalige verwerking
Google Pub/Sub - Datastreaming
Apache Beam & Dataflow
Kubernetes - Productie en scaling
Terraform - Infrastructure as Code
NoSQL-databases
Moderne Data Architecture
Monitoring en observability
IAM en gegevensbeveiliging
Beheers Data Engineering voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis