
dbt - Fondamentaux
Projet dbt, models, sources, refs, tests, documentation, materializations (table, view, incremental), seeds
1Qu'est-ce que dbt (data build tool) ?
Qu'est-ce que dbt (data build tool) ?
Réponse
dbt est un outil de transformation de données qui permet d'écrire des transformations en SQL et de les exécuter dans un data warehouse. Il applique les principes du software engineering (versioning, tests, documentation) au travail de transformation de données. dbt ne fait pas d'extraction ni de chargement (le E et L de ELT), uniquement la transformation.
2Quelle est la structure de base d'un projet dbt ?
Quelle est la structure de base d'un projet dbt ?
Réponse
Un projet dbt contient un fichier dbt_project.yml à la racine qui définit la configuration du projet. Les dossiers principaux sont models (contenant les fichiers SQL), tests pour les tests custom, macros pour les macros Jinja, seeds pour les fichiers CSV, et snapshots pour les captures de données historiques. Le fichier profiles.yml (généralement en dehors du projet) définit les connexions aux warehouses.
3Quel est le rôle du fichier profiles.yml dans dbt ?
Quel est le rôle du fichier profiles.yml dans dbt ?
Réponse
Le fichier profiles.yml contient les informations de connexion aux data warehouses (BigQuery, Snowflake, Redshift, PostgreSQL, etc.). Il est généralement stocké dans le dossier ~/.dbt/ et non dans le projet pour éviter de versionner des credentials sensibles. Chaque profil peut avoir plusieurs targets (dev, prod) permettant de basculer facilement entre environnements.
Qu'est-ce qu'un model dans dbt ?
Quel est le rôle de la fonction ref() dans dbt ?
+17 questions d'entretien
Autres sujets d'entretien Data Engineering
Linux & Shell - Fondamentaux
Git & GitHub - Fondamentaux
Python avancé pour le Data Engineering
Docker - Fondamentaux
Google Cloud Platform - Fondamentaux
CI/CD et qualité de code
Docker Compose
FastAPI - APIs de données
SQL avancé pour le Data Engineering
Data Lake - Architecture et ingestion
BigQuery pour le Data Engineering
PostgreSQL - Administration
Data Modeling pour le Data Engineering
Fivetran & Airbyte - Ingestion de données
Apache Airflow - Fondamentaux
Kubernetes - Fondamentaux
dbt - Fonctionnalités avancées
Patterns ETL / ELT / ETLT
Apache Airflow - Avancé
Airflow + dbt - Orchestration de pipelines
PySpark - Traitement à grande échelle
Google Pub/Sub - Streaming de données
Apache Beam & Dataflow
Kubernetes - Production et scaling
Terraform - Infrastructure as Code
Bases de données NoSQL
Architecture Data moderne
Monitoring et observabilité
IAM et sécurité des données
Maîtrise Data Engineering pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement