Data Engineering

Airflow + dbt - Orchestration de pipelines

astronomer-cosmos, DbtDagParser, dbt run/test dans Airflow, gestion des dépendances, monitoring end-to-end

20 questions d'entretien·
Senior
1

Quel est l'avantage principal d'utiliser astronomer-cosmos pour intégrer dbt dans Airflow ?

Réponse

Astronomer-cosmos convertit automatiquement les models dbt en tâches Airflow individuelles, permettant une visibilité granulaire sur chaque model dans l'UI Airflow. Cela permet de bénéficier des fonctionnalités d'Airflow (retry, alerting, monitoring) au niveau de chaque model plutôt que sur l'ensemble du projet dbt.

2

Comment cosmos gère-t-il les dépendances entre les models dbt dans un DAG Airflow ?

Réponse

Cosmos analyse le manifest.json de dbt pour extraire le graphe de dépendances entre les models. Il crée ensuite automatiquement les relations de dépendance (upstream/downstream) entre les tâches Airflow correspondantes, respectant ainsi l'ordre d'exécution défini par les refs dans le projet dbt.

3

Quelle est la différence entre les modes d'exécution 'local' et 'docker' dans cosmos ?

Réponse

En mode local, cosmos exécute dbt directement dans l'environnement Python du worker Airflow, nécessitant que dbt soit installé. En mode docker, chaque tâche dbt s'exécute dans un conteneur Docker isolé avec sa propre image dbt, offrant une meilleure isolation et reproductibilité des dépendances.

4

Comment configurer cosmos pour n'exécuter qu'un sous-ensemble de models dbt basé sur les tags ?

5

Quel est le rôle de DbtTaskGroup dans l'intégration Airflow-dbt avec cosmos ?

+17 questions d'entretien

Maîtrise Data Engineering pour ton prochain entretien

Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.

Commencer gratuitement