
Apache Airflow - Fundamentos
DAGs, operators (Bash, Python, SQL), scheduling, dependências de tarefas, Airflow UI, connections, variables, trigger rules
1O que é um DAG no Apache Airflow?
O que é um DAG no Apache Airflow?
Resposta
Um DAG (Directed Acyclic Graph) é uma coleção de tarefas organizadas com dependências e relações, representando um workflow completo. A natureza acíclica significa que não pode haver loops no grafo de dependências, o que garante que cada tarefa seja executada exatamente uma vez por run. O DAG define quando e como as tarefas devem ser executadas, mas não o que elas fazem concretamente.
2Qual parâmetro do DAG define a data a partir da qual o scheduler começa a agendar as execuções?
Qual parâmetro do DAG define a data a partir da qual o scheduler começa a agendar as execuções?
Resposta
O parâmetro start_date define a data a partir da qual o Airflow começa a agendar as execuções do DAG. Esta data é usada em combinação com schedule_interval para determinar os data intervals. Um ponto importante: se start_date estiver no passado, o Airflow pode acionar backfills para recuperar execuções perdidas, a menos que catchup=False seja configurado.
3Qual operator deve ser usado para executar uma função Python em um DAG do Airflow?
Qual operator deve ser usado para executar uma função Python em um DAG do Airflow?
Resposta
O PythonOperator permite executar uma função Python callable em um DAG do Airflow. A função é passada via parâmetro python_callable e pode receber argumentos via op_args (lista) ou op_kwargs (dicionário). O PythonOperator é um dos operators mais usados porque oferece grande flexibilidade para executar código Python personalizado.
Como definir uma dependência entre duas tarefas task_a e task_b para que task_b execute após task_a?
Qual expressão cron representa uma execução diária à meia-noite?
+17 perguntas de entrevista
Outros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avançado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD e qualidade de código
Docker Compose
FastAPI - APIs de dados
SQL avançado para Data Engineering
Data Lake - Arquitetura e ingestão
BigQuery para Data Engineering
PostgreSQL - Administração
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingestão de dados
dbt - Fundamentos
Kubernetes - Fundamentos
dbt - Recursos avançados
Padrões ETL / ELT / ETLT
Apache Airflow - Avançado
Airflow + dbt - Orquestração de pipelines
PySpark - Processamento em grande escala
Google Pub/Sub - Streaming de dados
Apache Beam & Dataflow
Kubernetes - Produção e escalabilidade
Terraform - Infrastructure as Code
Bancos de dados NoSQL
Arquitetura Data moderna
Monitoramento e observabilidade
IAM e segurança de dados
Domine Data Engineering para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis