
Apache Airflow - Avançado
Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring
1Qual é o papel principal de um Sensor no Apache Airflow?
Qual é o papel principal de um Sensor no Apache Airflow?
Resposta
Um Sensor é um operador especial que aguarda o cumprimento de uma condição antes de continuar a execução do DAG. Ele verifica periodicamente (poke) se a condição está satisfeita, como a chegada de um arquivo, a disponibilidade de uma partição ou o estado de outra tarefa. Os Sensors são essenciais para orquestrar workflows que dependem de eventos externos.
2Qual é a diferença entre os modos 'poke' e 'reschedule' para um Sensor?
Qual é a diferença entre os modos 'poke' e 'reschedule' para um Sensor?
Resposta
No modo poke, o Sensor ocupa um worker slot continuamente e verifica a condição em intervalos regulares (poke_interval). No modo reschedule, o Sensor libera o worker slot entre cada verificação e se reprograma. O modo reschedule é recomendado para condições longas pois libera recursos para outras tarefas.
3Qual Sensor usar para aguardar uma partição Hive estar disponível?
Qual Sensor usar para aguardar uma partição Hive estar disponível?
Resposta
HivePartitionSensor verifica a existência de uma partição específica em uma tabela Hive. É comumente usado em pipelines de dados para garantir que os dados de origem estejam disponíveis antes de executar transformações. Aceita parâmetros como schema, table e partition para verificar.
Como passar dados entre duas tarefas Airflow?
Qual é o tamanho máximo recomendado para dados armazenados no XCom?
+17 perguntas de entrevista
Outros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avançado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD e qualidade de código
Docker Compose
FastAPI - APIs de dados
SQL avançado para Data Engineering
Data Lake - Arquitetura e ingestão
BigQuery para Data Engineering
PostgreSQL - Administração
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingestão de dados
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Recursos avançados
Padrões ETL / ELT / ETLT
Airflow + dbt - Orquestração de pipelines
PySpark - Processamento em grande escala
Google Pub/Sub - Streaming de dados
Apache Beam & Dataflow
Kubernetes - Produção e escalabilidade
Terraform - Infrastructure as Code
Bancos de dados NoSQL
Arquitetura Data moderna
Monitoramento e observabilidade
IAM e segurança de dados
Domine Data Engineering para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis