Data Engineering

Architecture Data moderne

Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, gouvernance, data catalog, lineage

20 questions d'entretien·
Senior
1

Quelle est la différence fondamentale entre un Data Lake et un Data Warehouse ?

Réponse

Un Data Lake stocke les données dans leur format natif (brut) avec un schéma appliqué à la lecture (schema-on-read), permettant une grande flexibilité pour l'exploration. Un Data Warehouse impose un schéma structuré à l'écriture (schema-on-write) avec des données transformées et optimisées pour l'analyse. Le Data Lake privilégie la flexibilité et le stockage massif à faible coût, tandis que le Data Warehouse privilégie la performance des requêtes analytiques et la qualité des données.

2

Quel est le principal avantage de l'architecture Lakehouse par rapport aux architectures Data Lake et Data Warehouse séparées ?

Réponse

L'architecture Lakehouse combine le meilleur des deux mondes : le stockage flexible et économique du Data Lake avec les capacités ACID, les performances de requêtes et la gouvernance du Data Warehouse. Cela élimine la duplication des données entre les deux systèmes, réduit les coûts et la complexité de la synchronisation, tout en permettant des workloads BI et ML sur la même plateforme avec des formats ouverts comme Delta Lake, Iceberg ou Hudi.

3

Quel format de table ouvert permet les transactions ACID sur un Data Lake ?

Réponse

Delta Lake, Apache Iceberg et Apache Hudi sont les trois principaux formats de table ouverts qui permettent les transactions ACID sur un Data Lake. Delta Lake, développé par Databricks, utilise un transaction log pour garantir l'atomicité et la cohérence. Iceberg, créé par Netflix, offre une gestion avancée des partitions et du schema evolution. Hudi, développé par Uber, excelle dans les scénarios d'upsert et de CDC. Ces formats transforment un simple stockage objet en un Lakehouse avec des garanties transactionnelles.

4

Quel est le principe fondamental du Data Mesh ?

5

Qu'est-ce qu'un Data Contract dans le contexte du Data Mesh ?

+17 questions d'entretien

Maîtrise Data Engineering pour ton prochain entretien

Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.

Commencer gratuitement