Data Engineering

Data Lake - Architectuur en ingestie

Data Lake-architectuur, zones (raw/refined/curated), formaten (Parquet, Avro, JSON), ingestie, partitionering

20 gespreksvragen·
Mid-Level
1

Wat is een Data Lake?

Antwoord

Een Data Lake is een gecentraliseerd opslagsysteem dat ruwe data kan opslaan in hun oorspronkelijke formaat, of ze nu gestructureerd, semi-gestructureerd of ongestructureerd zijn. In tegenstelling tot een Data Warehouse dat een schema bij schrijven oplegt (schema-on-write), past een Data Lake het schema toe bij lezen (schema-on-read), wat maximale flexibiliteit biedt voor dataverkenning en -analyse.

2

Wat is het belangrijkste verschil tussen schema-on-write en schema-on-read?

Antwoord

Schema-on-write dwingt datavalidatie en -transformatie af vóór opslag, wat een consistente structuur garandeert maar de flexibiliteit beperkt. Schema-on-read slaat data op in het ruwe formaat en past het schema alleen toe tijdens het lezen, wat maximale ingestieflexibiliteit biedt maar verwerking vereist bij toegang tot de data.

3

Wat zijn de drie klassieke zones van een Data Lake?

Antwoord

De standaard Data Lake-architectuur omvat drie zones: Raw (Bronze) voor onbewerkte ruwe data, Refined (Silver) voor opgeschoonde en genormaliseerde data, en Curated (Gold) voor geaggregeerde data klaar voor consumptie. Deze gelaagde organisatie vergemakkelijkt governance, traceerbaarheid en datakwaliteit.

4

Wat is de rol van de Raw (Bronze)-zone in een Data Lake?

5

Welk bestandsformaat is het meest geschikt voor het opslaan van grote analytische data in een Data Lake?

+17 gespreksvragen

Beheers Data Engineering voor je volgende gesprek

Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.

Begin gratis