
Pattern ETL / ELT / ETLT
ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, idempotenza, gestione degli errori, dead letter queue, qualità dei dati, lineage
1Qual è la principale differenza tra ETL ed ELT?
Qual è la principale differenza tra ETL ed ELT?
Risposta
In ETL (Extract-Transform-Load), i dati vengono trasformati su un server intermedio prima di essere caricati nella destinazione. In ELT (Extract-Load-Transform), i dati grezzi vengono prima caricati nella destinazione (tipicamente un data warehouse cloud), poi trasformati direttamente al suo interno usando la sua potenza di calcolo. ELT è diventato popolare con i data warehouse cloud come BigQuery, Snowflake o Redshift che offrono potenza di calcolo elastica.
2Qual è il principale vantaggio dell'approccio ELT rispetto all'ETL tradizionale?
Qual è il principale vantaggio dell'approccio ELT rispetto all'ETL tradizionale?
Risposta
L'approccio ELT sfrutta la potenza di calcolo elastica dei moderni data warehouse cloud (BigQuery, Snowflake, Redshift). Invece di mantenere un'infrastruttura di trasformazione separata che può diventare un collo di bottiglia, le trasformazioni utilizzano direttamente le capacità di scaling del data warehouse. Ciò riduce la complessità operativa e consente di elaborare volumi di dati molto maggiori senza provisioning manuale delle risorse.
3Cos'è il pattern ETLT e quando è rilevante?
Cos'è il pattern ETLT e quando è rilevante?
Risposta
ETLT combina entrambi gli approcci: una prima trasformazione leggera viene eseguita durante l'estrazione (pulizia, filtraggio, anonimizzazione), poi i dati vengono caricati e trasformazioni più complesse vengono applicate nel data warehouse. Questo pattern è utile quando determinate trasformazioni devono essere fatte a monte per motivi di compliance (mascheramento di dati sensibili prima del caricamento), riduzione del volume (filtraggio precoce) o normalizzazione di formati sorgente eterogenei.
Cos'è l'idempotenza nel contesto delle data pipeline?
Come implementare l'idempotenza durante il caricamento dei dati in una tabella?
+17 domande da colloquio
Altri argomenti di colloquio Data Engineering
Linux & Shell - Fondamenti
Git & GitHub - Fondamenti
Python avanzato per Data Engineering
Docker - Fondamenti
Google Cloud Platform - Fondamenti
CI/CD e qualità del codice
Docker Compose
FastAPI - API per dati
SQL avanzato per il Data Engineering
Data Lake - Architettura e ingestione
BigQuery per il Data Engineering
PostgreSQL - Amministrazione
Data Modeling per Data Engineering
Fivetran & Airbyte - Ingestione dati
dbt - Fondamenti
Apache Airflow - Fondamenti
Kubernetes - Fondamenti
dbt - Funzionalità avanzate
Apache Airflow - Avanzato
Airflow + dbt - Orchestrazione delle pipeline
PySpark - Elaborazione su larga scala
Google Pub/Sub - Streaming di dati
Apache Beam & Dataflow
Kubernetes - Produzione e scaling
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture moderna
Monitoraggio e osservabilità
IAM e sicurezza dei dati
Padroneggia Data Engineering per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis