Question 1

Qual è la principale differenza tra ETL ed ELT?

Accepted Answer

In ETL (Extract-Transform-Load), i dati vengono trasformati su un server intermedio prima di essere caricati nella destinazione. In ELT (Extract-Load-Transform), i dati grezzi vengono prima caricati nella destinazione (tipicamente un data warehouse cloud), poi trasformati direttamente al suo interno usando la sua potenza di calcolo. ELT è diventato popolare con i data warehouse cloud come BigQuery, Snowflake o Redshift che offrono potenza di calcolo elastica.

Question 2

Qual è il principale vantaggio dell'approccio ELT rispetto all'ETL tradizionale?

Accepted Answer

L'approccio ELT sfrutta la potenza di calcolo elastica dei moderni data warehouse cloud (BigQuery, Snowflake, Redshift). Invece di mantenere un'infrastruttura di trasformazione separata che può diventare un collo di bottiglia, le trasformazioni utilizzano direttamente le capacità di scaling del data warehouse. Ciò riduce la complessità operativa e consente di elaborare volumi di dati molto maggiori senza provisioning manuale delle risorse.

Question 3

Cos'è il pattern ETLT e quando è rilevante?

Accepted Answer

ETLT combina entrambi gli approcci: una prima trasformazione leggera viene eseguita durante l'estrazione (pulizia, filtraggio, anonimizzazione), poi i dati vengono caricati e trasformazioni più complesse vengono applicate nel data warehouse. Questo pattern è utile quando determinate trasformazioni devono essere fatte a monte per motivi di compliance (mascheramento di dati sensibili prima del caricamento), riduzione del volume (filtraggio precoce) o normalizzazione di formati sorgente eterogenei.

Pattern ETL / ELT / ETLT

Qual è la principale differenza tra ETL ed ELT?

Risposta

Qual è il principale vantaggio dell'approccio ELT rispetto all'ETL tradizionale?

Risposta

Cos'è il pattern ETLT e quando è rilevante?

Risposta

Cos'è l'idempotenza nel contesto delle data pipeline?

Come implementare l'idempotenza durante il caricamento dei dati in una tabella?

Altri argomenti di colloquio Data Engineering

Linux & Shell - Fondamenti

Git & GitHub - Fondamenti

Python avanzato per Data Engineering

Docker - Fondamenti

Google Cloud Platform - Fondamenti

CI/CD e qualità del codice

Docker Compose

FastAPI - API per dati

SQL avanzato per il Data Engineering

Data Lake - Architettura e ingestione

BigQuery per il Data Engineering

PostgreSQL - Amministrazione

Data Modeling per Data Engineering

Fivetran & Airbyte - Ingestione dati

dbt - Fondamenti

Apache Airflow - Fondamenti

Kubernetes - Fondamenti

dbt - Funzionalità avanzate

Apache Airflow - Avanzato

Airflow + dbt - Orchestrazione delle pipeline

PySpark - Elaborazione su larga scala

Google Pub/Sub - Streaming di dati

Apache Beam & Dataflow

Kubernetes - Produzione e scaling

Terraform - Infrastructure as Code

Database NoSQL

Data Architecture moderna

Monitoraggio e osservabilità

IAM e sicurezza dei dati

Padroneggia Data Engineering per il tuo prossimo colloquio