
Data Lake - Architectuur en ingestie
Data Lake-architectuur, zones (raw/refined/curated), formaten (Parquet, Avro, JSON), ingestie, partitionering
1Wat is een Data Lake?
Wat is een Data Lake?
Antwoord
Een Data Lake is een gecentraliseerd opslagsysteem dat ruwe data kan opslaan in hun oorspronkelijke formaat, of ze nu gestructureerd, semi-gestructureerd of ongestructureerd zijn. In tegenstelling tot een Data Warehouse dat een schema bij schrijven oplegt (schema-on-write), past een Data Lake het schema toe bij lezen (schema-on-read), wat maximale flexibiliteit biedt voor dataverkenning en -analyse.
2Wat is het belangrijkste verschil tussen schema-on-write en schema-on-read?
Wat is het belangrijkste verschil tussen schema-on-write en schema-on-read?
Antwoord
Schema-on-write dwingt datavalidatie en -transformatie af vóór opslag, wat een consistente structuur garandeert maar de flexibiliteit beperkt. Schema-on-read slaat data op in het ruwe formaat en past het schema alleen toe tijdens het lezen, wat maximale ingestieflexibiliteit biedt maar verwerking vereist bij toegang tot de data.
3Wat zijn de drie klassieke zones van een Data Lake?
Wat zijn de drie klassieke zones van een Data Lake?
Antwoord
De standaard Data Lake-architectuur omvat drie zones: Raw (Bronze) voor onbewerkte ruwe data, Refined (Silver) voor opgeschoonde en genormaliseerde data, en Curated (Gold) voor geaggregeerde data klaar voor consumptie. Deze gelaagde organisatie vergemakkelijkt governance, traceerbaarheid en datakwaliteit.
Wat is de rol van de Raw (Bronze)-zone in een Data Lake?
Welk bestandsformaat is het meest geschikt voor het opslaan van grote analytische data in een Data Lake?
+17 gespreksvragen
Andere Data Engineering-sollicitatieonderwerpen
Linux & Shell - Grondbeginselen
Git & GitHub - Grondbeginselen
Geavanceerde Python voor Data Engineering
Docker - Basisbeginselen
Google Cloud Platform - Fundamenten
CI/CD en codekwaliteit
Docker Compose
FastAPI - Data-API's
Geavanceerde SQL voor Data Engineering
BigQuery voor Data Engineering
PostgreSQL - Administratie
Data Modeling voor Data Engineering
Fivetran & Airbyte - Data-ingestie
dbt - Grondbeginselen
Apache Airflow - Grondbeginselen
Kubernetes - Fundamenten
dbt - Geavanceerde functies
ETL- / ELT- / ETLT-patronen
Apache Airflow - Gevorderd
Airflow + dbt - Pipeline-orkestratie
PySpark - Grootschalige verwerking
Google Pub/Sub - Datastreaming
Apache Beam & Dataflow
Kubernetes - Productie en scaling
Terraform - Infrastructure as Code
NoSQL-databases
Moderne Data Architecture
Monitoring en observability
IAM en gegevensbeveiliging
Beheers Data Engineering voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis