
Data Lake - Architecture et ingestion
Architecture Data Lake, zones (raw/refined/curated), formats (Parquet, Avro, JSON), ingestion, partitionnement
1Qu'est-ce qu'un Data Lake ?
Qu'est-ce qu'un Data Lake ?
Réponse
Un Data Lake est un système de stockage centralisé capable de stocker des données brutes dans leur format natif, qu'elles soient structurées, semi-structurées ou non structurées. Contrairement au Data Warehouse qui impose un schéma à l'écriture (schema-on-write), le Data Lake applique un schéma à la lecture (schema-on-read), offrant une flexibilité maximale pour l'exploration et l'analyse des données.
2Quelle est la différence principale entre schema-on-write et schema-on-read ?
Quelle est la différence principale entre schema-on-write et schema-on-read ?
Réponse
Schema-on-write impose la validation et transformation des données avant leur stockage, garantissant une structure cohérente mais limitant la flexibilité. Schema-on-read stocke les données dans leur format brut et applique le schéma uniquement lors de la lecture, offrant une flexibilité maximale pour l'ingestion mais nécessitant un traitement lors de l'accès aux données.
3Quelles sont les trois zones classiques d'un Data Lake ?
Quelles sont les trois zones classiques d'un Data Lake ?
Réponse
L'architecture Data Lake standard comprend trois zones : Raw (Bronze) pour les données brutes non transformées, Refined (Silver) pour les données nettoyées et normalisées, et Curated (Gold) pour les données agrégées prêtes pour la consommation. Cette organisation en couches facilite la gouvernance, la traçabilité et la qualité des données.
Quel est le rôle de la zone Raw (Bronze) dans un Data Lake ?
Quel format de fichier est le plus adapté pour stocker des données analytiques volumineuses dans un Data Lake ?
+17 questions d'entretien
Autres sujets d'entretien Data Engineering
Linux & Shell - Fondamentaux
Git & GitHub - Fondamentaux
Python avancé pour le Data Engineering
Docker - Fondamentaux
Google Cloud Platform - Fondamentaux
CI/CD et qualité de code
Docker Compose
FastAPI - APIs de données
SQL avancé pour le Data Engineering
BigQuery pour le Data Engineering
PostgreSQL - Administration
Data Modeling pour le Data Engineering
Fivetran & Airbyte - Ingestion de données
dbt - Fondamentaux
Apache Airflow - Fondamentaux
Kubernetes - Fondamentaux
dbt - Fonctionnalités avancées
Patterns ETL / ELT / ETLT
Apache Airflow - Avancé
Airflow + dbt - Orchestration de pipelines
PySpark - Traitement à grande échelle
Google Pub/Sub - Streaming de données
Apache Beam & Dataflow
Kubernetes - Production et scaling
Terraform - Infrastructure as Code
Bases de données NoSQL
Architecture Data moderne
Monitoring et observabilité
IAM et sécurité des données
Maîtrise Data Engineering pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement