Data Engineering

Apache Airflow - Fundamentos

DAGs, operators (Bash, Python, SQL), scheduling, dependências de tarefas, Airflow UI, connections, variables, trigger rules

20 perguntas de entrevista·
Mid-Level
1

O que é um DAG no Apache Airflow?

Resposta

Um DAG (Directed Acyclic Graph) é uma coleção de tarefas organizadas com dependências e relações, representando um workflow completo. A natureza acíclica significa que não pode haver loops no grafo de dependências, o que garante que cada tarefa seja executada exatamente uma vez por run. O DAG define quando e como as tarefas devem ser executadas, mas não o que elas fazem concretamente.

2

Qual parâmetro do DAG define a data a partir da qual o scheduler começa a agendar as execuções?

Resposta

O parâmetro start_date define a data a partir da qual o Airflow começa a agendar as execuções do DAG. Esta data é usada em combinação com schedule_interval para determinar os data intervals. Um ponto importante: se start_date estiver no passado, o Airflow pode acionar backfills para recuperar execuções perdidas, a menos que catchup=False seja configurado.

3

Qual operator deve ser usado para executar uma função Python em um DAG do Airflow?

Resposta

O PythonOperator permite executar uma função Python callable em um DAG do Airflow. A função é passada via parâmetro python_callable e pode receber argumentos via op_args (lista) ou op_kwargs (dicionário). O PythonOperator é um dos operators mais usados porque oferece grande flexibilidade para executar código Python personalizado.

4

Como definir uma dependência entre duas tarefas task_a e task_b para que task_b execute após task_a?

5

Qual expressão cron representa uma execução diária à meia-noite?

+17 perguntas de entrevista

Domine Data Engineering para sua proxima entrevista

Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.

Comece gratis