Question 1

Quelle est la différence fondamentale entre un Data Lake et un Data Warehouse ?

Accepted Answer

Un Data Lake stocke les données dans leur format natif (brut) avec un schéma appliqué à la lecture (schema-on-read), permettant une grande flexibilité pour l'exploration. Un Data Warehouse impose un schéma structuré à l'écriture (schema-on-write) avec des données transformées et optimisées pour l'analyse. Le Data Lake privilégie la flexibilité et le stockage massif à faible coût, tandis que le Data Warehouse privilégie la performance des requêtes analytiques et la qualité des données.

Question 2

Quel est le principal avantage de l'architecture Lakehouse par rapport aux architectures Data Lake et Data Warehouse séparées ?

Accepted Answer

L'architecture Lakehouse combine le meilleur des deux mondes : le stockage flexible et économique du Data Lake avec les capacités ACID, les performances de requêtes et la gouvernance du Data Warehouse. Cela élimine la duplication des données entre les deux systèmes, réduit les coûts et la complexité de la synchronisation, tout en permettant des workloads BI et ML sur la même plateforme avec des formats ouverts comme Delta Lake, Iceberg ou Hudi.

Question 3

Quel format de table ouvert permet les transactions ACID sur un Data Lake ?

Accepted Answer

Delta Lake, Apache Iceberg et Apache Hudi sont les trois principaux formats de table ouverts qui permettent les transactions ACID sur un Data Lake. Delta Lake, développé par Databricks, utilise un transaction log pour garantir l'atomicité et la cohérence. Iceberg, créé par Netflix, offre une gestion avancée des partitions et du schema evolution. Hudi, développé par Uber, excelle dans les scénarios d'upsert et de CDC. Ces formats transforment un simple stockage objet en un Lakehouse avec des garanties transactionnelles.

Architecture Data moderne

Quelle est la différence fondamentale entre un Data Lake et un Data Warehouse ?

Réponse

Quel est le principal avantage de l'architecture Lakehouse par rapport aux architectures Data Lake et Data Warehouse séparées ?

Réponse

Quel format de table ouvert permet les transactions ACID sur un Data Lake ?

Réponse

Quel est le principe fondamental du Data Mesh ?

Qu'est-ce qu'un Data Contract dans le contexte du Data Mesh ?

Autres sujets d'entretien Data Engineering

Linux & Shell - Fondamentaux

Git & GitHub - Fondamentaux

Python avancé pour le Data Engineering

Docker - Fondamentaux

Google Cloud Platform - Fondamentaux

CI/CD et qualité de code

Docker Compose

FastAPI - APIs de données

SQL avancé pour le Data Engineering

Data Lake - Architecture et ingestion

BigQuery pour le Data Engineering

PostgreSQL - Administration

Data Modeling pour le Data Engineering

Fivetran & Airbyte - Ingestion de données

dbt - Fondamentaux

Apache Airflow - Fondamentaux

Kubernetes - Fondamentaux

dbt - Fonctionnalités avancées

Patterns ETL / ELT / ETLT

Apache Airflow - Avancé

Airflow + dbt - Orchestration de pipelines

PySpark - Traitement à grande échelle

Google Pub/Sub - Streaming de données

Apache Beam & Dataflow

Kubernetes - Production et scaling

Terraform - Infrastructure as Code

Bases de données NoSQL

Monitoring et observabilité

IAM et sécurité des données

Maîtrise Data Engineering pour ton prochain entretien