Question 1

Quelle est la principale différence entre ETL et ELT ?

Accepted Answer

Dans ETL (Extract-Transform-Load), les données sont transformées sur un serveur intermédiaire avant d'être chargées dans la destination. Dans ELT (Extract-Load-Transform), les données brutes sont d'abord chargées dans la destination (généralement un data warehouse cloud), puis transformées directement dans celui-ci en utilisant sa puissance de calcul. ELT est devenu populaire avec les data warehouses cloud comme BigQuery, Snowflake ou Redshift qui offrent une puissance de calcul élastique.

Question 2

Quel avantage principal offre l'approche ELT par rapport à ETL traditionnel ?

Accepted Answer

L'approche ELT exploite la puissance de calcul élastique des data warehouses cloud modernes (BigQuery, Snowflake, Redshift). Au lieu de maintenir une infrastructure de transformation séparée qui peut devenir un goulot d'étranglement, les transformations utilisent directement les capacités de scaling du data warehouse. Cela réduit la complexité opérationnelle et permet de traiter des volumes de données beaucoup plus importants sans provisionnement manuel de ressources.

Question 3

Qu'est-ce que le pattern ETLT et quand est-il pertinent ?

Accepted Answer

ETLT combine les deux approches : une première transformation légère est effectuée pendant l'extraction (nettoyage, filtrage, anonymisation), puis les données sont chargées et des transformations plus complexes sont appliquées dans le data warehouse. Ce pattern est utile quand certaines transformations doivent être faites en amont pour des raisons de conformité (masquage de données sensibles avant chargement), de réduction de volume (filtrage précoce), ou de normalisation des formats sources hétérogènes.

Patterns ETL / ELT / ETLT

Quelle est la principale différence entre ETL et ELT ?

Réponse

Quel avantage principal offre l'approche ELT par rapport à ETL traditionnel ?

Réponse

Qu'est-ce que le pattern ETLT et quand est-il pertinent ?

Réponse

Qu'est-ce que l'idempotence dans le contexte des pipelines de données ?

Comment implémenter l'idempotence lors du chargement de données dans une table ?

Autres sujets d'entretien Data Engineering

Linux & Shell - Fondamentaux

Git & GitHub - Fondamentaux

Python avancé pour le Data Engineering

Docker - Fondamentaux

Google Cloud Platform - Fondamentaux

CI/CD et qualité de code

Docker Compose

FastAPI - APIs de données

SQL avancé pour le Data Engineering

Data Lake - Architecture et ingestion

BigQuery pour le Data Engineering

PostgreSQL - Administration

Data Modeling pour le Data Engineering

Fivetran & Airbyte - Ingestion de données

dbt - Fondamentaux

Apache Airflow - Fondamentaux

Kubernetes - Fondamentaux

dbt - Fonctionnalités avancées

Apache Airflow - Avancé

Airflow + dbt - Orchestration de pipelines

PySpark - Traitement à grande échelle

Google Pub/Sub - Streaming de données

Apache Beam & Dataflow

Kubernetes - Production et scaling

Terraform - Infrastructure as Code

Bases de données NoSQL

Architecture Data moderne

Monitoring et observabilité

IAM et sécurité des données

Maîtrise Data Engineering pour ton prochain entretien