
Apache Airflow - Fundamentos
DAGs, operators (Bash, Python, SQL), scheduling, dependencias de tareas, Airflow UI, connections, variables, trigger rules
1¿Qué es un DAG en Apache Airflow?
¿Qué es un DAG en Apache Airflow?
Respuesta
Un DAG (Directed Acyclic Graph) es una colección de tareas organizadas con dependencias y relaciones, que representa un workflow completo. La naturaleza acíclica significa que no puede haber bucles en el grafo de dependencias, lo que garantiza que cada tarea se ejecute exactamente una vez por run. El DAG define cuándo y cómo deben ejecutarse las tareas, pero no lo que hacen concretamente.
2¿Qué parámetro del DAG define la fecha a partir de la cual el scheduler comienza a programar las ejecuciones?
¿Qué parámetro del DAG define la fecha a partir de la cual el scheduler comienza a programar las ejecuciones?
Respuesta
El parámetro start_date define la fecha a partir de la cual Airflow comienza a programar las ejecuciones del DAG. Esta fecha se utiliza en combinación con schedule_interval para determinar los data intervals. Un punto importante: si start_date está en el pasado, Airflow puede activar backfills para recuperar las ejecuciones perdidas, a menos que se configure catchup=False.
3¿Qué operator se debe utilizar para ejecutar una función Python en un DAG de Airflow?
¿Qué operator se debe utilizar para ejecutar una función Python en un DAG de Airflow?
Respuesta
El PythonOperator permite ejecutar una función Python callable en un DAG de Airflow. La función se pasa a través del parámetro python_callable y puede recibir argumentos a través de op_args (lista) u op_kwargs (diccionario). El PythonOperator es uno de los operators más utilizados porque ofrece gran flexibilidad para ejecutar código Python personalizado.
¿Cómo definir una dependencia entre dos tareas task_a y task_b para que task_b se ejecute después de task_a?
¿Qué expresión cron representa una ejecución diaria a medianoche?
+17 preguntas de entrevista
Otros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avanzado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD y calidad de código
Docker Compose
FastAPI - APIs de datos
SQL avanzado para Data Engineering
Data Lake - Arquitectura e ingesta
BigQuery para Data Engineering
PostgreSQL - Administración
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingesta de datos
dbt - Fundamentos
Kubernetes - Fundamentos
dbt - Funcionalidades avanzadas
Patrones ETL / ELT / ETLT
Apache Airflow - Avanzado
Airflow + dbt - Orquestación de pipelines
PySpark - Procesamiento a gran escala
Google Pub/Sub - Streaming de datos
Apache Beam & Dataflow
Kubernetes - Producción y escalado
Terraform - Infrastructure as Code
Bases de datos NoSQL
Arquitectura Data moderna
Monitoreo y observabilidad
IAM y seguridad de datos
Domina Data Engineering para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis