
Patterns ETL / ELT / ETLT
ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, idempotence, error handling, dead letter queues, data quality, lineage
1Quelle est la principale différence entre ETL et ELT ?
Quelle est la principale différence entre ETL et ELT ?
Réponse
Dans ETL (Extract-Transform-Load), les données sont transformées sur un serveur intermédiaire avant d'être chargées dans la destination. Dans ELT (Extract-Load-Transform), les données brutes sont d'abord chargées dans la destination (généralement un data warehouse cloud), puis transformées directement dans celui-ci en utilisant sa puissance de calcul. ELT est devenu populaire avec les data warehouses cloud comme BigQuery, Snowflake ou Redshift qui offrent une puissance de calcul élastique.
2Quel avantage principal offre l'approche ELT par rapport à ETL traditionnel ?
Quel avantage principal offre l'approche ELT par rapport à ETL traditionnel ?
Réponse
L'approche ELT exploite la puissance de calcul élastique des data warehouses cloud modernes (BigQuery, Snowflake, Redshift). Au lieu de maintenir une infrastructure de transformation séparée qui peut devenir un goulot d'étranglement, les transformations utilisent directement les capacités de scaling du data warehouse. Cela réduit la complexité opérationnelle et permet de traiter des volumes de données beaucoup plus importants sans provisionnement manuel de ressources.
3Qu'est-ce que le pattern ETLT et quand est-il pertinent ?
Qu'est-ce que le pattern ETLT et quand est-il pertinent ?
Réponse
ETLT combine les deux approches : une première transformation légère est effectuée pendant l'extraction (nettoyage, filtrage, anonymisation), puis les données sont chargées et des transformations plus complexes sont appliquées dans le data warehouse. Ce pattern est utile quand certaines transformations doivent être faites en amont pour des raisons de conformité (masquage de données sensibles avant chargement), de réduction de volume (filtrage précoce), ou de normalisation des formats sources hétérogènes.
Qu'est-ce que l'idempotence dans le contexte des pipelines de données ?
Comment implémenter l'idempotence lors du chargement de données dans une table ?
+17 questions d'entretien
Autres sujets d'entretien Data Engineering
Linux & Shell - Fondamentaux
Git & GitHub - Fondamentaux
Python avancé pour le Data Engineering
Docker - Fondamentaux
Google Cloud Platform - Fondamentaux
CI/CD et qualité de code
Docker Compose
FastAPI - APIs de données
SQL avancé pour le Data Engineering
Data Lake - Architecture et ingestion
BigQuery pour le Data Engineering
PostgreSQL - Administration
Data Modeling pour le Data Engineering
Fivetran & Airbyte - Ingestion de données
dbt - Fondamentaux
Apache Airflow - Fondamentaux
Kubernetes - Fondamentaux
dbt - Fonctionnalités avancées
Apache Airflow - Avancé
Airflow + dbt - Orchestration de pipelines
PySpark - Traitement à grande échelle
Google Pub/Sub - Streaming de données
Apache Beam & Dataflow
Kubernetes - Production et scaling
Terraform - Infrastructure as Code
Bases de données NoSQL
Architecture Data moderne
Monitoring et observabilité
IAM et sécurité des données
Maîtrise Data Engineering pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement