Data Engineering

Patterns ETL / ELT / ETLT

ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, idempotence, error handling, dead letter queues, data quality, lineage

20 questions d'entretien·
Senior
1

Quelle est la principale différence entre ETL et ELT ?

Réponse

Dans ETL (Extract-Transform-Load), les données sont transformées sur un serveur intermédiaire avant d'être chargées dans la destination. Dans ELT (Extract-Load-Transform), les données brutes sont d'abord chargées dans la destination (généralement un data warehouse cloud), puis transformées directement dans celui-ci en utilisant sa puissance de calcul. ELT est devenu populaire avec les data warehouses cloud comme BigQuery, Snowflake ou Redshift qui offrent une puissance de calcul élastique.

2

Quel avantage principal offre l'approche ELT par rapport à ETL traditionnel ?

Réponse

L'approche ELT exploite la puissance de calcul élastique des data warehouses cloud modernes (BigQuery, Snowflake, Redshift). Au lieu de maintenir une infrastructure de transformation séparée qui peut devenir un goulot d'étranglement, les transformations utilisent directement les capacités de scaling du data warehouse. Cela réduit la complexité opérationnelle et permet de traiter des volumes de données beaucoup plus importants sans provisionnement manuel de ressources.

3

Qu'est-ce que le pattern ETLT et quand est-il pertinent ?

Réponse

ETLT combine les deux approches : une première transformation légère est effectuée pendant l'extraction (nettoyage, filtrage, anonymisation), puis les données sont chargées et des transformations plus complexes sont appliquées dans le data warehouse. Ce pattern est utile quand certaines transformations doivent être faites en amont pour des raisons de conformité (masquage de données sensibles avant chargement), de réduction de volume (filtrage précoce), ou de normalisation des formats sources hétérogènes.

4

Qu'est-ce que l'idempotence dans le contexte des pipelines de données ?

5

Comment implémenter l'idempotence lors du chargement de données dans une table ?

+17 questions d'entretien

Maîtrise Data Engineering pour ton prochain entretien

Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.

Commencer gratuitement