Data Engineering

Apache Airflow - Avançado

Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring

20 perguntas de entrevista·
Senior
1

Qual é o papel principal de um Sensor no Apache Airflow?

Resposta

Um Sensor é um operador especial que aguarda o cumprimento de uma condição antes de continuar a execução do DAG. Ele verifica periodicamente (poke) se a condição está satisfeita, como a chegada de um arquivo, a disponibilidade de uma partição ou o estado de outra tarefa. Os Sensors são essenciais para orquestrar workflows que dependem de eventos externos.

2

Qual é a diferença entre os modos 'poke' e 'reschedule' para um Sensor?

Resposta

No modo poke, o Sensor ocupa um worker slot continuamente e verifica a condição em intervalos regulares (poke_interval). No modo reschedule, o Sensor libera o worker slot entre cada verificação e se reprograma. O modo reschedule é recomendado para condições longas pois libera recursos para outras tarefas.

3

Qual Sensor usar para aguardar uma partição Hive estar disponível?

Resposta

HivePartitionSensor verifica a existência de uma partição específica em uma tabela Hive. É comumente usado em pipelines de dados para garantir que os dados de origem estejam disponíveis antes de executar transformações. Aceita parâmetros como schema, table e partition para verificar.

4

Como passar dados entre duas tarefas Airflow?

5

Qual é o tamanho máximo recomendado para dados armazenados no XCom?

+17 perguntas de entrevista

Domine Data Engineering para sua proxima entrevista

Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.

Comece gratis