Data Engineering

Apache Airflow - Fundamentos

DAGs, operators (Bash, Python, SQL), scheduling, dependencias de tareas, Airflow UI, connections, variables, trigger rules

20 preguntas de entrevista·
Mid-Level
1

¿Qué es un DAG en Apache Airflow?

Respuesta

Un DAG (Directed Acyclic Graph) es una colección de tareas organizadas con dependencias y relaciones, que representa un workflow completo. La naturaleza acíclica significa que no puede haber bucles en el grafo de dependencias, lo que garantiza que cada tarea se ejecute exactamente una vez por run. El DAG define cuándo y cómo deben ejecutarse las tareas, pero no lo que hacen concretamente.

2

¿Qué parámetro del DAG define la fecha a partir de la cual el scheduler comienza a programar las ejecuciones?

Respuesta

El parámetro start_date define la fecha a partir de la cual Airflow comienza a programar las ejecuciones del DAG. Esta fecha se utiliza en combinación con schedule_interval para determinar los data intervals. Un punto importante: si start_date está en el pasado, Airflow puede activar backfills para recuperar las ejecuciones perdidas, a menos que se configure catchup=False.

3

¿Qué operator se debe utilizar para ejecutar una función Python en un DAG de Airflow?

Respuesta

El PythonOperator permite ejecutar una función Python callable en un DAG de Airflow. La función se pasa a través del parámetro python_callable y puede recibir argumentos a través de op_args (lista) u op_kwargs (diccionario). El PythonOperator es uno de los operators más utilizados porque ofrece gran flexibilidad para ejecutar código Python personalizado.

4

¿Cómo definir una dependencia entre dos tareas task_a y task_b para que task_b se ejecute después de task_a?

5

¿Qué expresión cron representa una ejecución diaria a medianoche?

+17 preguntas de entrevista

Domina Data Engineering para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis