Data Engineering

Data Lake - Architettura e ingestione

Architettura Data Lake, zone (raw/refined/curated), formati (Parquet, Avro, JSON), ingestione, partizionamento

20 domande da colloquio·
Mid-Level
1

Cos'è un Data Lake?

Risposta

Un Data Lake è un sistema di archiviazione centralizzato capace di memorizzare dati grezzi nel loro formato nativo, siano essi strutturati, semi-strutturati o non strutturati. A differenza del Data Warehouse che impone uno schema in scrittura (schema-on-write), il Data Lake applica lo schema in lettura (schema-on-read), offrendo massima flessibilità per l'esplorazione e l'analisi dei dati.

2

Qual è la principale differenza tra schema-on-write e schema-on-read?

Risposta

Schema-on-write impone validazione e trasformazione dei dati prima dell'archiviazione, garantendo struttura coerente ma limitando la flessibilità. Schema-on-read archivia i dati in formato grezzo e applica lo schema solo durante le letture, offrendo massima flessibilità di ingestione ma richiedendo elaborazione all'accesso ai dati.

3

Quali sono le tre zone classiche di un Data Lake?

Risposta

L'architettura standard di Data Lake comprende tre zone: Raw (Bronze) per dati grezzi non trasformati, Refined (Silver) per dati puliti e normalizzati, e Curated (Gold) per dati aggregati pronti al consumo. Questa organizzazione a strati facilita la governance, la tracciabilità e la qualità dei dati.

4

Qual è il ruolo della zona Raw (Bronze) in un Data Lake?

5

Quale formato di file è più adatto per archiviare grandi dati analitici in un Data Lake?

+17 domande da colloquio

Padroneggia Data Engineering per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis