
Airflow + dbt - Orquestração de pipelines
astronomer-cosmos, DbtDagParser, dbt run/test no Airflow, gerenciamento de dependências, monitoramento end-to-end
1Qual é a principal vantagem de usar astronomer-cosmos para integrar dbt no Airflow?
Qual é a principal vantagem de usar astronomer-cosmos para integrar dbt no Airflow?
Resposta
O astronomer-cosmos converte automaticamente models dbt em tarefas Airflow individuais, oferecendo visibilidade granular de cada model na UI do Airflow. Isso permite aproveitar os recursos do Airflow (retry, alerting, monitoring) no nível de cada model em vez de todo o projeto dbt.
2Como o cosmos gerencia as dependências entre models dbt em um DAG Airflow?
Como o cosmos gerencia as dependências entre models dbt em um DAG Airflow?
Resposta
O cosmos analisa o manifest.json do dbt para extrair o grafo de dependências entre models. Em seguida, cria automaticamente as relações de dependência (upstream/downstream) entre as tarefas Airflow correspondentes, respeitando assim a ordem de execução definida pelas refs no projeto dbt.
3Qual é a diferença entre os modos de execução 'local' e 'docker' no cosmos?
Qual é a diferença entre os modos de execução 'local' e 'docker' no cosmos?
Resposta
No modo local, o cosmos executa dbt diretamente no ambiente Python do worker Airflow, exigindo que dbt esteja instalado. No modo docker, cada tarefa dbt é executada em um contêiner Docker isolado com sua própria imagem dbt, oferecendo melhor isolamento e reprodutibilidade de dependências.
Como configurar o cosmos para executar apenas um subconjunto de models dbt baseado em tags?
Qual é o papel do DbtTaskGroup na integração Airflow-dbt com cosmos?
+17 perguntas de entrevista
Outros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avançado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD e qualidade de código
Docker Compose
FastAPI - APIs de dados
SQL avançado para Data Engineering
Data Lake - Arquitetura e ingestão
BigQuery para Data Engineering
PostgreSQL - Administração
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingestão de dados
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Recursos avançados
Padrões ETL / ELT / ETLT
Apache Airflow - Avançado
PySpark - Processamento em grande escala
Google Pub/Sub - Streaming de dados
Apache Beam & Dataflow
Kubernetes - Produção e escalabilidade
Terraform - Infrastructure as Code
Bancos de dados NoSQL
Arquitetura Data moderna
Monitoramento e observabilidade
IAM e segurança de dados
Domine Data Engineering para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis