Question 1

Qu'est-ce qu'un schéma en étoile (star schema) ?

Accepted Answer

Un schéma en étoile est un modèle de données dimensionnel où une table de faits centrale est entourée de tables de dimensions. La table de faits contient les métriques et les clés étrangères vers les dimensions, qui elles contiennent les attributs descriptifs. Cette structure simple et dénormalisée optimise les performances des requêtes analytiques en minimisant les jointures.

Question 2

Quelle est la différence entre une table de faits et une table de dimensions ?

Accepted Answer

Une table de faits contient les mesures quantitatives (métriques) et les clés étrangères vers les dimensions. Elle enregistre les événements ou transactions. Une table de dimensions contient les attributs descriptifs (qui, quoi, où, quand) permettant de filtrer et grouper les faits. Les faits sont numériques et agrégables, les dimensions sont textuelles et descriptives.

Question 3

Qu'est-ce que le grain d'une table de faits ?

Accepted Answer

Le grain définit le niveau de détail d'une ligne dans la table de faits. Il répond à la question : que représente exactement une ligne ? Par exemple, une vente par ligne, une vente par jour et par produit, ou une vente par heure. Définir le grain est la première étape du dimensional modeling car il détermine quelles dimensions sont nécessaires et quel niveau d'agrégation est stocké.

Data Modeling pour le Data Engineering

Qu'est-ce qu'un schéma en étoile (star schema) ?

Réponse

Quelle est la différence entre une table de faits et une table de dimensions ?

Réponse

Qu'est-ce que le grain d'une table de faits ?

Réponse

Quelle est la différence entre un schéma en étoile et un schéma en flocon (snowflake) ?

Qu'est-ce qu'une dimension conforme (conformed dimension) ?

Autres sujets d'entretien Data Engineering

Linux & Shell - Fondamentaux

Git & GitHub - Fondamentaux

Python avancé pour le Data Engineering

Docker - Fondamentaux

Google Cloud Platform - Fondamentaux

CI/CD et qualité de code

Docker Compose

FastAPI - APIs de données

SQL avancé pour le Data Engineering

Data Lake - Architecture et ingestion

BigQuery pour le Data Engineering

PostgreSQL - Administration

Fivetran & Airbyte - Ingestion de données

dbt - Fondamentaux

Apache Airflow - Fondamentaux

Kubernetes - Fondamentaux

dbt - Fonctionnalités avancées

Patterns ETL / ELT / ETLT

Apache Airflow - Avancé

Airflow + dbt - Orchestration de pipelines

PySpark - Traitement à grande échelle

Google Pub/Sub - Streaming de données

Apache Beam & Dataflow

Kubernetes - Production et scaling

Terraform - Infrastructure as Code

Bases de données NoSQL

Architecture Data moderne

Monitoring et observabilité

IAM et sécurité des données

Maîtrise Data Engineering pour ton prochain entretien