Data Engineering

Apache Airflow - Avanzado

Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring

20 preguntas de entrevista·
Senior
1

¿Cuál es el rol principal de un Sensor en Apache Airflow?

Respuesta

Un Sensor es un operador especial que espera a que se cumpla una condición antes de continuar con la ejecución del DAG. Verifica periódicamente (poke) si la condición se satisface, como la llegada de un archivo, la disponibilidad de una partición o el estado de otra tarea. Los Sensors son esenciales para orquestar workflows que dependen de eventos externos.

2

¿Cuál es la diferencia entre los modos 'poke' y 'reschedule' para un Sensor?

Respuesta

En modo poke, el Sensor ocupa un worker slot de forma continua y verifica la condición a intervalos regulares (poke_interval). En modo reschedule, el Sensor libera el worker slot entre cada verificación y se reprograma. El modo reschedule es recomendado para condiciones largas porque libera recursos para otras tareas.

3

¿Qué Sensor usar para esperar a que una partición Hive esté disponible?

Respuesta

HivePartitionSensor verifica la existencia de una partición específica en una tabla Hive. Se utiliza comúnmente en pipelines de datos para asegurar que los datos fuente estén disponibles antes de ejecutar transformaciones. Acepta parámetros como schema, table y partition para verificar.

4

¿Cómo transmitir datos entre dos tareas Airflow?

5

¿Cuál es el tamaño máximo recomendado para los datos almacenados en XCom?

+17 preguntas de entrevista

Domina Data Engineering para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis