
Architecture Data moderne
Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, gouvernance, data catalog, lineage
1Quelle est la différence fondamentale entre un Data Lake et un Data Warehouse ?
Quelle est la différence fondamentale entre un Data Lake et un Data Warehouse ?
Réponse
Un Data Lake stocke les données dans leur format natif (brut) avec un schéma appliqué à la lecture (schema-on-read), permettant une grande flexibilité pour l'exploration. Un Data Warehouse impose un schéma structuré à l'écriture (schema-on-write) avec des données transformées et optimisées pour l'analyse. Le Data Lake privilégie la flexibilité et le stockage massif à faible coût, tandis que le Data Warehouse privilégie la performance des requêtes analytiques et la qualité des données.
2Quel est le principal avantage de l'architecture Lakehouse par rapport aux architectures Data Lake et Data Warehouse séparées ?
Quel est le principal avantage de l'architecture Lakehouse par rapport aux architectures Data Lake et Data Warehouse séparées ?
Réponse
L'architecture Lakehouse combine le meilleur des deux mondes : le stockage flexible et économique du Data Lake avec les capacités ACID, les performances de requêtes et la gouvernance du Data Warehouse. Cela élimine la duplication des données entre les deux systèmes, réduit les coûts et la complexité de la synchronisation, tout en permettant des workloads BI et ML sur la même plateforme avec des formats ouverts comme Delta Lake, Iceberg ou Hudi.
3Quel format de table ouvert permet les transactions ACID sur un Data Lake ?
Quel format de table ouvert permet les transactions ACID sur un Data Lake ?
Réponse
Delta Lake, Apache Iceberg et Apache Hudi sont les trois principaux formats de table ouverts qui permettent les transactions ACID sur un Data Lake. Delta Lake, développé par Databricks, utilise un transaction log pour garantir l'atomicité et la cohérence. Iceberg, créé par Netflix, offre une gestion avancée des partitions et du schema evolution. Hudi, développé par Uber, excelle dans les scénarios d'upsert et de CDC. Ces formats transforment un simple stockage objet en un Lakehouse avec des garanties transactionnelles.
Quel est le principe fondamental du Data Mesh ?
Qu'est-ce qu'un Data Contract dans le contexte du Data Mesh ?
+17 questions d'entretien
Autres sujets d'entretien Data Engineering
Linux & Shell - Fondamentaux
Git & GitHub - Fondamentaux
Python avancé pour le Data Engineering
Docker - Fondamentaux
Google Cloud Platform - Fondamentaux
CI/CD et qualité de code
Docker Compose
FastAPI - APIs de données
SQL avancé pour le Data Engineering
Data Lake - Architecture et ingestion
BigQuery pour le Data Engineering
PostgreSQL - Administration
Data Modeling pour le Data Engineering
Fivetran & Airbyte - Ingestion de données
dbt - Fondamentaux
Apache Airflow - Fondamentaux
Kubernetes - Fondamentaux
dbt - Fonctionnalités avancées
Patterns ETL / ELT / ETLT
Apache Airflow - Avancé
Airflow + dbt - Orchestration de pipelines
PySpark - Traitement à grande échelle
Google Pub/Sub - Streaming de données
Apache Beam & Dataflow
Kubernetes - Production et scaling
Terraform - Infrastructure as Code
Bases de données NoSQL
Monitoring et observabilité
IAM et sécurité des données
Maîtrise Data Engineering pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement