
Airflow + dbt - Orquestación de pipelines
astronomer-cosmos, DbtDagParser, dbt run/test en Airflow, gestión de dependencias, monitoreo end-to-end
1¿Cuál es la principal ventaja de usar astronomer-cosmos para integrar dbt en Airflow?
¿Cuál es la principal ventaja de usar astronomer-cosmos para integrar dbt en Airflow?
Respuesta
Astronomer-cosmos convierte automáticamente los models dbt en tareas Airflow individuales, brindando visibilidad granular de cada model en la UI de Airflow. Esto permite aprovechar las funcionalidades de Airflow (retry, alerting, monitoring) a nivel de cada model en lugar de todo el proyecto dbt.
2¿Cómo gestiona cosmos las dependencias entre models dbt en un DAG Airflow?
¿Cómo gestiona cosmos las dependencias entre models dbt en un DAG Airflow?
Respuesta
Cosmos analiza el manifest.json de dbt para extraer el grafo de dependencias entre models. Luego crea automáticamente las relaciones de dependencia (upstream/downstream) entre las tareas Airflow correspondientes, respetando así el orden de ejecución definido por las refs en el proyecto dbt.
3¿Cuál es la diferencia entre los modos de ejecución 'local' y 'docker' en cosmos?
¿Cuál es la diferencia entre los modos de ejecución 'local' y 'docker' en cosmos?
Respuesta
En modo local, cosmos ejecuta dbt directamente en el entorno Python del worker Airflow, requiriendo que dbt esté instalado. En modo docker, cada tarea dbt se ejecuta en un contenedor Docker aislado con su propia imagen dbt, ofreciendo mejor aislamiento y reproducibilidad de dependencias.
¿Cómo configurar cosmos para ejecutar solo un subconjunto de models dbt basado en tags?
¿Cuál es el rol de DbtTaskGroup en la integración Airflow-dbt con cosmos?
+17 preguntas de entrevista
Otros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avanzado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD y calidad de código
Docker Compose
FastAPI - APIs de datos
SQL avanzado para Data Engineering
Data Lake - Arquitectura e ingesta
BigQuery para Data Engineering
PostgreSQL - Administración
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingesta de datos
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Funcionalidades avanzadas
Patrones ETL / ELT / ETLT
Apache Airflow - Avanzado
PySpark - Procesamiento a gran escala
Google Pub/Sub - Streaming de datos
Apache Beam & Dataflow
Kubernetes - Producción y escalado
Terraform - Infrastructure as Code
Bases de datos NoSQL
Arquitectura Data moderna
Monitoreo y observabilidad
IAM y seguridad de datos
Domina Data Engineering para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis