
Moderne Data Architecture
Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, governance, data catalog, lineage
1Wat is het fundamentele verschil tussen een Data Lake en een Data Warehouse?
Wat is het fundamentele verschil tussen een Data Lake en een Data Warehouse?
Antwoord
Een Data Lake slaat data op in zijn native (ruwe) formaat met schema toegepast bij het lezen (schema-on-read), wat grote flexibiliteit voor exploratie biedt. Een Data Warehouse dwingt een gestructureerd schema af bij het schrijven (schema-on-write) met getransformeerde en voor analytics geoptimaliseerde data. Data Lakes geven prioriteit aan flexibiliteit en massieve goedkope opslag, terwijl Data Warehouses prioriteit geven aan query-prestaties en datakwaliteit.
2Wat is het belangrijkste voordeel van Lakehouse-architectuur ten opzichte van gescheiden Data Lake- en Data Warehouse-architecturen?
Wat is het belangrijkste voordeel van Lakehouse-architectuur ten opzichte van gescheiden Data Lake- en Data Warehouse-architecturen?
Antwoord
De Lakehouse-architectuur combineert het beste van twee werelden: de flexibele en kosteneffectieve opslag van Data Lake met de ACID-mogelijkheden, query-prestaties en governance van Data Warehouse. Dit elimineert dataduplicatie tussen systemen, vermindert synchronisatiekosten en complexiteit, terwijl BI- en ML-workloads op hetzelfde platform mogelijk worden gemaakt met open formaten zoals Delta Lake, Iceberg of Hudi.
3Welk open tabelformaat maakt ACID-transacties op een Data Lake mogelijk?
Welk open tabelformaat maakt ACID-transacties op een Data Lake mogelijk?
Antwoord
Delta Lake, Apache Iceberg en Apache Hudi zijn de drie belangrijkste open tabelformaten die ACID-transacties op een Data Lake mogelijk maken. Delta Lake, ontwikkeld door Databricks, gebruikt een transaction log om atomiciteit en consistentie te garanderen. Iceberg, gemaakt door Netflix, biedt geavanceerd partitiebeheer en schema evolution. Hudi, ontwikkeld door Uber, blinkt uit in upsert- en CDC-scenario's. Deze formaten transformeren eenvoudige object storage in een Lakehouse met transactionele garanties.
Wat is het fundamentele principe van Data Mesh?
Wat is een Data Contract in de context van Data Mesh?
+17 gespreksvragen
Andere Data Engineering-sollicitatieonderwerpen
Linux & Shell - Grondbeginselen
Git & GitHub - Grondbeginselen
Geavanceerde Python voor Data Engineering
Docker - Basisbeginselen
Google Cloud Platform - Fundamenten
CI/CD en codekwaliteit
Docker Compose
FastAPI - Data-API's
Geavanceerde SQL voor Data Engineering
Data Lake - Architectuur en ingestie
BigQuery voor Data Engineering
PostgreSQL - Administratie
Data Modeling voor Data Engineering
Fivetran & Airbyte - Data-ingestie
dbt - Grondbeginselen
Apache Airflow - Grondbeginselen
Kubernetes - Fundamenten
dbt - Geavanceerde functies
ETL- / ELT- / ETLT-patronen
Apache Airflow - Gevorderd
Airflow + dbt - Pipeline-orkestratie
PySpark - Grootschalige verwerking
Google Pub/Sub - Datastreaming
Apache Beam & Dataflow
Kubernetes - Productie en scaling
Terraform - Infrastructure as Code
NoSQL-databases
Monitoring en observability
IAM en gegevensbeveiliging
Beheers Data Engineering voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis