Question 1

Qu'est-ce qu'un Data Lake ?

Accepted Answer

Un Data Lake est un système de stockage centralisé capable de stocker des données brutes dans leur format natif, qu'elles soient structurées, semi-structurées ou non structurées. Contrairement au Data Warehouse qui impose un schéma à l'écriture (schema-on-write), le Data Lake applique un schéma à la lecture (schema-on-read), offrant une flexibilité maximale pour l'exploration et l'analyse des données.

Question 2

Quelle est la différence principale entre schema-on-write et schema-on-read ?

Accepted Answer

Schema-on-write impose la validation et transformation des données avant leur stockage, garantissant une structure cohérente mais limitant la flexibilité. Schema-on-read stocke les données dans leur format brut et applique le schéma uniquement lors de la lecture, offrant une flexibilité maximale pour l'ingestion mais nécessitant un traitement lors de l'accès aux données.

Question 3

Quelles sont les trois zones classiques d'un Data Lake ?

Accepted Answer

L'architecture Data Lake standard comprend trois zones : Raw (Bronze) pour les données brutes non transformées, Refined (Silver) pour les données nettoyées et normalisées, et Curated (Gold) pour les données agrégées prêtes pour la consommation. Cette organisation en couches facilite la gouvernance, la traçabilité et la qualité des données.

Data Lake - Architecture et ingestion

Qu'est-ce qu'un Data Lake ?

Réponse

Quelle est la différence principale entre schema-on-write et schema-on-read ?

Réponse

Quelles sont les trois zones classiques d'un Data Lake ?

Réponse

Quel est le rôle de la zone Raw (Bronze) dans un Data Lake ?

Quel format de fichier est le plus adapté pour stocker des données analytiques volumineuses dans un Data Lake ?

Autres sujets d'entretien Data Engineering

Linux & Shell - Fondamentaux

Git & GitHub - Fondamentaux

Python avancé pour le Data Engineering

Docker - Fondamentaux

Google Cloud Platform - Fondamentaux

CI/CD et qualité de code

Docker Compose

FastAPI - APIs de données

SQL avancé pour le Data Engineering

BigQuery pour le Data Engineering

PostgreSQL - Administration

Data Modeling pour le Data Engineering

Fivetran & Airbyte - Ingestion de données

dbt - Fondamentaux

Apache Airflow - Fondamentaux

Kubernetes - Fondamentaux

dbt - Fonctionnalités avancées

Patterns ETL / ELT / ETLT

Apache Airflow - Avancé

Airflow + dbt - Orchestration de pipelines

PySpark - Traitement à grande échelle

Google Pub/Sub - Streaming de données

Apache Beam & Dataflow

Kubernetes - Production et scaling

Terraform - Infrastructure as Code

Bases de données NoSQL

Architecture Data moderne

Monitoring et observabilité

IAM et sécurité des données

Maîtrise Data Engineering pour ton prochain entretien