
Airflow + dbt - Orchestrazione delle pipeline
astronomer-cosmos, DbtDagParser, dbt run/test in Airflow, gestione delle dipendenze, monitoraggio end-to-end
1Qual è il vantaggio principale dell'utilizzo di astronomer-cosmos per integrare dbt in Airflow?
Qual è il vantaggio principale dell'utilizzo di astronomer-cosmos per integrare dbt in Airflow?
Risposta
Astronomer-cosmos converte automaticamente i model dbt in task Airflow individuali, fornendo visibilità granulare su ciascun model nell'interfaccia Airflow. Questo permette di sfruttare le funzionalità di Airflow (retry, alerting, monitoring) a livello di model piuttosto che sull'intero progetto dbt.
2Come gestisce cosmos le dipendenze tra i model dbt in un DAG Airflow?
Come gestisce cosmos le dipendenze tra i model dbt in un DAG Airflow?
Risposta
Cosmos analizza il manifest.json di dbt per estrarre il grafo delle dipendenze tra i model. Quindi crea automaticamente le relazioni di dipendenza (upstream/downstream) tra i task Airflow corrispondenti, rispettando così l'ordine di esecuzione definito dai refs nel progetto dbt.
3Qual è la differenza tra le modalità di esecuzione 'local' e 'docker' in cosmos?
Qual è la differenza tra le modalità di esecuzione 'local' e 'docker' in cosmos?
Risposta
In modalità local, cosmos esegue dbt direttamente nell'ambiente Python del worker Airflow, richiedendo che dbt sia installato. In modalità docker, ogni task dbt viene eseguito in un container Docker isolato con la propria immagine dbt, offrendo migliore isolamento e riproducibilità delle dipendenze.
Come configurare cosmos per eseguire solo un sottoinsieme di model dbt basato sui tag?
Qual è il ruolo di DbtTaskGroup nell'integrazione Airflow-dbt con cosmos?
+17 domande da colloquio
Altri argomenti di colloquio Data Engineering
Linux & Shell - Fondamenti
Git & GitHub - Fondamenti
Python avanzato per Data Engineering
Docker - Fondamenti
Google Cloud Platform - Fondamenti
CI/CD e qualità del codice
Docker Compose
FastAPI - API per dati
SQL avanzato per il Data Engineering
Data Lake - Architettura e ingestione
BigQuery per il Data Engineering
PostgreSQL - Amministrazione
Data Modeling per Data Engineering
Fivetran & Airbyte - Ingestione dati
dbt - Fondamenti
Apache Airflow - Fondamenti
Kubernetes - Fondamenti
dbt - Funzionalità avanzate
Pattern ETL / ELT / ETLT
Apache Airflow - Avanzato
PySpark - Elaborazione su larga scala
Google Pub/Sub - Streaming di dati
Apache Beam & Dataflow
Kubernetes - Produzione e scaling
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture moderna
Monitoraggio e osservabilità
IAM e sicurezza dei dati
Padroneggia Data Engineering per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis