Data Analytics

dbt - Fondamentaux

Projet dbt, models, sources, refs, tests, documentation, materializations, seeds

20 questions d'entretien·
Confirmé
1

Qu'est-ce que dbt (data build tool) ?

Réponse

dbt est un outil de transformation de données qui permet aux analystes et ingénieurs data d'écrire des transformations en SQL ou Python directement dans le data warehouse. Il suit l'approche ELT (Extract, Load, Transform) où les données sont d'abord chargées dans le warehouse puis transformées sur place, contrairement à l'ETL classique qui transforme avant le chargement. dbt gère les dépendances entre modèles, les tests et la documentation automatiquement.

2

Quelle est la structure de base d'un projet dbt ?

Réponse

Un projet dbt est organisé autour de dossiers clés : models/ contient les fichiers SQL définissant les transformations, seeds/ les fichiers CSV chargés comme tables, tests/ les tests personnalisés, macros/ les fonctions Jinja réutilisables, et snapshots/ les captures d'état. Le fichier dbt_project.yml à la racine configure le projet (nom, version, materializations par défaut), tandis que profiles.yml définit les connexions au warehouse.

3

Qu'est-ce qu'un model dans dbt ?

Réponse

Un model dbt est un fichier SQL contenant une instruction SELECT qui définit une transformation de données. Chaque model correspond à un fichier .sql dans le dossier models/ et produit une table ou une vue dans le data warehouse lors de l'exécution. Les models peuvent référencer d'autres models via la fonction ref(), créant ainsi un graphe de dépendances (DAG) que dbt exécute dans le bon ordre.

4

À quoi sert la fonction ref() dans dbt ?

5

Qu'est-ce qu'une source dans dbt et comment la déclarer ?

+17 questions d'entretien

Maîtrise Data Analytics pour ton prochain entretien

Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.

Commencer gratuitement