Question 1

Cos'è un Data Lake?

Accepted Answer

Un Data Lake è un sistema di archiviazione centralizzato capace di memorizzare dati grezzi nel loro formato nativo, siano essi strutturati, semi-strutturati o non strutturati. A differenza del Data Warehouse che impone uno schema in scrittura (schema-on-write), il Data Lake applica lo schema in lettura (schema-on-read), offrendo massima flessibilità per l'esplorazione e l'analisi dei dati.

Question 2

Qual è la principale differenza tra schema-on-write e schema-on-read?

Accepted Answer

Schema-on-write impone validazione e trasformazione dei dati prima dell'archiviazione, garantendo struttura coerente ma limitando la flessibilità. Schema-on-read archivia i dati in formato grezzo e applica lo schema solo durante le letture, offrendo massima flessibilità di ingestione ma richiedendo elaborazione all'accesso ai dati.

Question 3

Quali sono le tre zone classiche di un Data Lake?

Accepted Answer

L'architettura standard di Data Lake comprende tre zone: Raw (Bronze) per dati grezzi non trasformati, Refined (Silver) per dati puliti e normalizzati, e Curated (Gold) per dati aggregati pronti al consumo. Questa organizzazione a strati facilita la governance, la tracciabilità e la qualità dei dati.

Data Lake - Architettura e ingestione

Cos'è un Data Lake?

Risposta

Qual è la principale differenza tra schema-on-write e schema-on-read?

Risposta

Quali sono le tre zone classiche di un Data Lake?

Risposta

Qual è il ruolo della zona Raw (Bronze) in un Data Lake?

Quale formato di file è più adatto per archiviare grandi dati analitici in un Data Lake?

Altri argomenti di colloquio Data Engineering

Linux & Shell - Fondamenti

Git & GitHub - Fondamenti

Python avanzato per Data Engineering

Docker - Fondamenti

Google Cloud Platform - Fondamenti

CI/CD e qualità del codice

Docker Compose

FastAPI - API per dati

SQL avanzato per il Data Engineering

BigQuery per il Data Engineering

PostgreSQL - Amministrazione

Data Modeling per Data Engineering

Fivetran & Airbyte - Ingestione dati

dbt - Fondamenti

Apache Airflow - Fondamenti

Kubernetes - Fondamenti

dbt - Funzionalità avanzate

Pattern ETL / ELT / ETLT

Apache Airflow - Avanzato

Airflow + dbt - Orchestrazione delle pipeline

PySpark - Elaborazione su larga scala

Google Pub/Sub - Streaming di dati

Apache Beam & Dataflow

Kubernetes - Produzione e scaling

Terraform - Infrastructure as Code

Database NoSQL

Data Architecture moderna

Monitoraggio e osservabilità

IAM e sicurezza dei dati

Padroneggia Data Engineering per il tuo prossimo colloquio