
Data Modeling pour le Data Engineering
Schéma en étoile, snowflake, Data Vault, normalisation, SCD types, grain, métriques additives
1Qu'est-ce qu'un schéma en étoile (star schema) ?
Qu'est-ce qu'un schéma en étoile (star schema) ?
Réponse
Un schéma en étoile est un modèle de données dimensionnel où une table de faits centrale est entourée de tables de dimensions. La table de faits contient les métriques et les clés étrangères vers les dimensions, qui elles contiennent les attributs descriptifs. Cette structure simple et dénormalisée optimise les performances des requêtes analytiques en minimisant les jointures.
2Quelle est la différence entre une table de faits et une table de dimensions ?
Quelle est la différence entre une table de faits et une table de dimensions ?
Réponse
Une table de faits contient les mesures quantitatives (métriques) et les clés étrangères vers les dimensions. Elle enregistre les événements ou transactions. Une table de dimensions contient les attributs descriptifs (qui, quoi, où, quand) permettant de filtrer et grouper les faits. Les faits sont numériques et agrégables, les dimensions sont textuelles et descriptives.
3Qu'est-ce que le grain d'une table de faits ?
Qu'est-ce que le grain d'une table de faits ?
Réponse
Le grain définit le niveau de détail d'une ligne dans la table de faits. Il répond à la question : que représente exactement une ligne ? Par exemple, une vente par ligne, une vente par jour et par produit, ou une vente par heure. Définir le grain est la première étape du dimensional modeling car il détermine quelles dimensions sont nécessaires et quel niveau d'agrégation est stocké.
Quelle est la différence entre un schéma en étoile et un schéma en flocon (snowflake) ?
Qu'est-ce qu'une dimension conforme (conformed dimension) ?
+17 questions d'entretien
Autres sujets d'entretien Data Engineering
Linux & Shell - Fondamentaux
Git & GitHub - Fondamentaux
Python avancé pour le Data Engineering
Docker - Fondamentaux
Google Cloud Platform - Fondamentaux
CI/CD et qualité de code
Docker Compose
FastAPI - APIs de données
SQL avancé pour le Data Engineering
Data Lake - Architecture et ingestion
BigQuery pour le Data Engineering
PostgreSQL - Administration
Fivetran & Airbyte - Ingestion de données
dbt - Fondamentaux
Apache Airflow - Fondamentaux
Kubernetes - Fondamentaux
dbt - Fonctionnalités avancées
Patterns ETL / ELT / ETLT
Apache Airflow - Avancé
Airflow + dbt - Orchestration de pipelines
PySpark - Traitement à grande échelle
Google Pub/Sub - Streaming de données
Apache Beam & Dataflow
Kubernetes - Production et scaling
Terraform - Infrastructure as Code
Bases de données NoSQL
Architecture Data moderne
Monitoring et observabilité
IAM et sécurité des données
Maîtrise Data Engineering pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement