Question 1

Qu'est-ce que dbt (data build tool) ?

Accepted Answer

dbt est un outil de transformation de données qui permet d'écrire des transformations en SQL et de les exécuter dans un data warehouse. Il applique les principes du software engineering (versioning, tests, documentation) au travail de transformation de données. dbt ne fait pas d'extraction ni de chargement (le E et L de ELT), uniquement la transformation.

Question 2

Quelle est la structure de base d'un projet dbt ?

Accepted Answer

Un projet dbt contient un fichier dbt_project.yml à la racine qui définit la configuration du projet. Les dossiers principaux sont models (contenant les fichiers SQL), tests pour les tests custom, macros pour les macros Jinja, seeds pour les fichiers CSV, et snapshots pour les captures de données historiques. Le fichier profiles.yml (généralement en dehors du projet) définit les connexions aux warehouses.

Question 3

Quel est le rôle du fichier profiles.yml dans dbt ?

Accepted Answer

Le fichier profiles.yml contient les informations de connexion aux data warehouses (BigQuery, Snowflake, Redshift, PostgreSQL, etc.). Il est généralement stocké dans le dossier ~/.dbt/ et non dans le projet pour éviter de versionner des credentials sensibles. Chaque profil peut avoir plusieurs targets (dev, prod) permettant de basculer facilement entre environnements.

dbt - Fondamentaux

Qu'est-ce que dbt (data build tool) ?

Réponse

Quelle est la structure de base d'un projet dbt ?

Réponse

Quel est le rôle du fichier profiles.yml dans dbt ?

Réponse

Qu'est-ce qu'un model dans dbt ?

Quel est le rôle de la fonction ref() dans dbt ?

Autres sujets d'entretien Data Engineering

Linux & Shell - Fondamentaux

Git & GitHub - Fondamentaux

Python avancé pour le Data Engineering

Docker - Fondamentaux

Google Cloud Platform - Fondamentaux

CI/CD et qualité de code

Docker Compose

FastAPI - APIs de données

SQL avancé pour le Data Engineering

Data Lake - Architecture et ingestion

BigQuery pour le Data Engineering

PostgreSQL - Administration

Data Modeling pour le Data Engineering

Fivetran & Airbyte - Ingestion de données

Apache Airflow - Fondamentaux

Kubernetes - Fondamentaux

dbt - Fonctionnalités avancées

Patterns ETL / ELT / ETLT

Apache Airflow - Avancé

Airflow + dbt - Orchestration de pipelines

PySpark - Traitement à grande échelle

Google Pub/Sub - Streaming de données

Apache Beam & Dataflow

Kubernetes - Production et scaling

Terraform - Infrastructure as Code

Bases de données NoSQL

Architecture Data moderne

Monitoring et observabilité

IAM et sécurité des données

Maîtrise Data Engineering pour ton prochain entretien