
Data Architecture moderna
Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, governance, data catalog, lineage
1Qual è la differenza fondamentale tra un Data Lake e un Data Warehouse?
Qual è la differenza fondamentale tra un Data Lake e un Data Warehouse?
Risposta
Un Data Lake memorizza i dati nel loro formato nativo (grezzo) con uno schema applicato in lettura (schema-on-read), consentendo grande flessibilità per l'esplorazione. Un Data Warehouse impone uno schema strutturato in scrittura (schema-on-write) con dati trasformati e ottimizzati per l'analytics. I Data Lake privilegiano flessibilità e storage massivo a basso costo, mentre i Data Warehouse privilegiano la performance delle query analitiche e la qualità dei dati.
2Qual è il principale vantaggio dell'architettura Lakehouse rispetto ad architetture Data Lake e Data Warehouse separate?
Qual è il principale vantaggio dell'architettura Lakehouse rispetto ad architetture Data Lake e Data Warehouse separate?
Risposta
L'architettura Lakehouse combina il meglio di entrambi i mondi: lo storage flessibile ed economico del Data Lake con le capacità ACID, le performance delle query e la governance del Data Warehouse. Questo elimina la duplicazione dei dati tra i sistemi, riduce costi e complessità di sincronizzazione, consentendo workload BI e ML sulla stessa piattaforma utilizzando formati aperti come Delta Lake, Iceberg o Hudi.
3Quale formato di tabella aperto consente transazioni ACID su un Data Lake?
Quale formato di tabella aperto consente transazioni ACID su un Data Lake?
Risposta
Delta Lake, Apache Iceberg e Apache Hudi sono i tre principali formati di tabella aperti che abilitano transazioni ACID su un Data Lake. Delta Lake, sviluppato da Databricks, usa un transaction log per garantire atomicità e coerenza. Iceberg, creato da Netflix, offre gestione avanzata delle partizioni e schema evolution. Hudi, sviluppato da Uber, eccelle in scenari di upsert e CDC. Questi formati trasformano un semplice storage di oggetti in un Lakehouse con garanzie transazionali.
Qual è il principio fondamentale del Data Mesh?
Cos'è un Data Contract nel contesto del Data Mesh?
+17 domande da colloquio
Altri argomenti di colloquio Data Engineering
Linux & Shell - Fondamenti
Git & GitHub - Fondamenti
Python avanzato per Data Engineering
Docker - Fondamenti
Google Cloud Platform - Fondamenti
CI/CD e qualità del codice
Docker Compose
FastAPI - API per dati
SQL avanzato per il Data Engineering
Data Lake - Architettura e ingestione
BigQuery per il Data Engineering
PostgreSQL - Amministrazione
Data Modeling per Data Engineering
Fivetran & Airbyte - Ingestione dati
dbt - Fondamenti
Apache Airflow - Fondamenti
Kubernetes - Fondamenti
dbt - Funzionalità avanzate
Pattern ETL / ELT / ETLT
Apache Airflow - Avanzato
Airflow + dbt - Orchestrazione delle pipeline
PySpark - Elaborazione su larga scala
Google Pub/Sub - Streaming di dati
Apache Beam & Dataflow
Kubernetes - Produzione e scaling
Terraform - Infrastructure as Code
Database NoSQL
Monitoraggio e osservabilità
IAM e sicurezza dei dati
Padroneggia Data Engineering per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis