
Apache Airflow - Avanzado
Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring
1¿Cuál es el rol principal de un Sensor en Apache Airflow?
¿Cuál es el rol principal de un Sensor en Apache Airflow?
Respuesta
Un Sensor es un operador especial que espera a que se cumpla una condición antes de continuar con la ejecución del DAG. Verifica periódicamente (poke) si la condición se satisface, como la llegada de un archivo, la disponibilidad de una partición o el estado de otra tarea. Los Sensors son esenciales para orquestar workflows que dependen de eventos externos.
2¿Cuál es la diferencia entre los modos 'poke' y 'reschedule' para un Sensor?
¿Cuál es la diferencia entre los modos 'poke' y 'reschedule' para un Sensor?
Respuesta
En modo poke, el Sensor ocupa un worker slot de forma continua y verifica la condición a intervalos regulares (poke_interval). En modo reschedule, el Sensor libera el worker slot entre cada verificación y se reprograma. El modo reschedule es recomendado para condiciones largas porque libera recursos para otras tareas.
3¿Qué Sensor usar para esperar a que una partición Hive esté disponible?
¿Qué Sensor usar para esperar a que una partición Hive esté disponible?
Respuesta
HivePartitionSensor verifica la existencia de una partición específica en una tabla Hive. Se utiliza comúnmente en pipelines de datos para asegurar que los datos fuente estén disponibles antes de ejecutar transformaciones. Acepta parámetros como schema, table y partition para verificar.
¿Cómo transmitir datos entre dos tareas Airflow?
¿Cuál es el tamaño máximo recomendado para los datos almacenados en XCom?
+17 preguntas de entrevista
Otros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avanzado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD y calidad de código
Docker Compose
FastAPI - APIs de datos
SQL avanzado para Data Engineering
Data Lake - Arquitectura e ingesta
BigQuery para Data Engineering
PostgreSQL - Administración
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingesta de datos
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Funcionalidades avanzadas
Patrones ETL / ELT / ETLT
Airflow + dbt - Orquestación de pipelines
PySpark - Procesamiento a gran escala
Google Pub/Sub - Streaming de datos
Apache Beam & Dataflow
Kubernetes - Producción y escalado
Terraform - Infrastructure as Code
Bases de datos NoSQL
Arquitectura Data moderna
Monitoreo y observabilidad
IAM y seguridad de datos
Domina Data Engineering para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis