
Data Lake - Architettura e ingestione
Architettura Data Lake, zone (raw/refined/curated), formati (Parquet, Avro, JSON), ingestione, partizionamento
1Cos'è un Data Lake?
Cos'è un Data Lake?
Risposta
Un Data Lake è un sistema di archiviazione centralizzato capace di memorizzare dati grezzi nel loro formato nativo, siano essi strutturati, semi-strutturati o non strutturati. A differenza del Data Warehouse che impone uno schema in scrittura (schema-on-write), il Data Lake applica lo schema in lettura (schema-on-read), offrendo massima flessibilità per l'esplorazione e l'analisi dei dati.
2Qual è la principale differenza tra schema-on-write e schema-on-read?
Qual è la principale differenza tra schema-on-write e schema-on-read?
Risposta
Schema-on-write impone validazione e trasformazione dei dati prima dell'archiviazione, garantendo struttura coerente ma limitando la flessibilità. Schema-on-read archivia i dati in formato grezzo e applica lo schema solo durante le letture, offrendo massima flessibilità di ingestione ma richiedendo elaborazione all'accesso ai dati.
3Quali sono le tre zone classiche di un Data Lake?
Quali sono le tre zone classiche di un Data Lake?
Risposta
L'architettura standard di Data Lake comprende tre zone: Raw (Bronze) per dati grezzi non trasformati, Refined (Silver) per dati puliti e normalizzati, e Curated (Gold) per dati aggregati pronti al consumo. Questa organizzazione a strati facilita la governance, la tracciabilità e la qualità dei dati.
Qual è il ruolo della zona Raw (Bronze) in un Data Lake?
Quale formato di file è più adatto per archiviare grandi dati analitici in un Data Lake?
+17 domande da colloquio
Altri argomenti di colloquio Data Engineering
Linux & Shell - Fondamenti
Git & GitHub - Fondamenti
Python avanzato per Data Engineering
Docker - Fondamenti
Google Cloud Platform - Fondamenti
CI/CD e qualità del codice
Docker Compose
FastAPI - API per dati
SQL avanzato per il Data Engineering
BigQuery per il Data Engineering
PostgreSQL - Amministrazione
Data Modeling per Data Engineering
Fivetran & Airbyte - Ingestione dati
dbt - Fondamenti
Apache Airflow - Fondamenti
Kubernetes - Fondamenti
dbt - Funzionalità avanzate
Pattern ETL / ELT / ETLT
Apache Airflow - Avanzato
Airflow + dbt - Orchestrazione delle pipeline
PySpark - Elaborazione su larga scala
Google Pub/Sub - Streaming di dati
Apache Beam & Dataflow
Kubernetes - Produzione e scaling
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture moderna
Monitoraggio e osservabilità
IAM e sicurezza dei dati
Padroneggia Data Engineering per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis