
Airflow + dbt - Orchestration de pipelines
astronomer-cosmos, DbtDagParser, dbt run/test dans Airflow, gestion des dépendances, monitoring end-to-end
1Quel est l'avantage principal d'utiliser astronomer-cosmos pour intégrer dbt dans Airflow ?
Quel est l'avantage principal d'utiliser astronomer-cosmos pour intégrer dbt dans Airflow ?
Réponse
Astronomer-cosmos convertit automatiquement les models dbt en tâches Airflow individuelles, permettant une visibilité granulaire sur chaque model dans l'UI Airflow. Cela permet de bénéficier des fonctionnalités d'Airflow (retry, alerting, monitoring) au niveau de chaque model plutôt que sur l'ensemble du projet dbt.
2Comment cosmos gère-t-il les dépendances entre les models dbt dans un DAG Airflow ?
Comment cosmos gère-t-il les dépendances entre les models dbt dans un DAG Airflow ?
Réponse
Cosmos analyse le manifest.json de dbt pour extraire le graphe de dépendances entre les models. Il crée ensuite automatiquement les relations de dépendance (upstream/downstream) entre les tâches Airflow correspondantes, respectant ainsi l'ordre d'exécution défini par les refs dans le projet dbt.
3Quelle est la différence entre les modes d'exécution 'local' et 'docker' dans cosmos ?
Quelle est la différence entre les modes d'exécution 'local' et 'docker' dans cosmos ?
Réponse
En mode local, cosmos exécute dbt directement dans l'environnement Python du worker Airflow, nécessitant que dbt soit installé. En mode docker, chaque tâche dbt s'exécute dans un conteneur Docker isolé avec sa propre image dbt, offrant une meilleure isolation et reproductibilité des dépendances.
Comment configurer cosmos pour n'exécuter qu'un sous-ensemble de models dbt basé sur les tags ?
Quel est le rôle de DbtTaskGroup dans l'intégration Airflow-dbt avec cosmos ?
+17 questions d'entretien
Autres sujets d'entretien Data Engineering
Linux & Shell - Fondamentaux
Git & GitHub - Fondamentaux
Python avancé pour le Data Engineering
Docker - Fondamentaux
Google Cloud Platform - Fondamentaux
CI/CD et qualité de code
Docker Compose
FastAPI - APIs de données
SQL avancé pour le Data Engineering
Data Lake - Architecture et ingestion
BigQuery pour le Data Engineering
PostgreSQL - Administration
Data Modeling pour le Data Engineering
Fivetran & Airbyte - Ingestion de données
dbt - Fondamentaux
Apache Airflow - Fondamentaux
Kubernetes - Fondamentaux
dbt - Fonctionnalités avancées
Patterns ETL / ELT / ETLT
Apache Airflow - Avancé
PySpark - Traitement à grande échelle
Google Pub/Sub - Streaming de données
Apache Beam & Dataflow
Kubernetes - Production et scaling
Terraform - Infrastructure as Code
Bases de données NoSQL
Architecture Data moderne
Monitoring et observabilité
IAM et sécurité des données
Maîtrise Data Engineering pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement