Data Engineering

Apache Airflow - Grondbeginselen

DAG's, operators (Bash, Python, SQL), scheduling, taakafhankelijkheden, Airflow UI, connections, variables, trigger rules

20 gespreksvragen·
Mid-Level
1

Wat is een DAG in Apache Airflow?

Antwoord

Een DAG (Directed Acyclic Graph) is een verzameling taken georganiseerd met afhankelijkheden en relaties, die een complete workflow vertegenwoordigt. De acyclische aard betekent dat er geen lussen kunnen zijn in de afhankelijkhedengrafiek, wat garandeert dat elke taak precies één keer per run wordt uitgevoerd. De DAG definieert wanneer en hoe taken moeten worden uitgevoerd, maar niet wat ze concreet doen.

2

Welke DAG-parameter definieert de datum waarop de scheduler begint met het plannen van runs?

Antwoord

De parameter start_date definieert de datum waarop Airflow begint met het plannen van DAG-runs. Deze datum wordt gebruikt in combinatie met schedule_interval om data-intervallen te bepalen. Een belangrijk punt: als start_date in het verleden ligt, kan Airflow backfills triggeren om gemiste runs in te halen, tenzij catchup=False is geconfigureerd.

3

Welke operator moet worden gebruikt om een Python-functie uit te voeren in een Airflow-DAG?

Antwoord

De PythonOperator maakt het mogelijk om een Python callable-functie uit te voeren in een Airflow-DAG. De functie wordt doorgegeven via de parameter python_callable en kan argumenten ontvangen via op_args (lijst) of op_kwargs (dictionary). De PythonOperator is een van de meest gebruikte operators omdat het grote flexibiliteit biedt voor het uitvoeren van aangepaste Python-code.

4

Hoe definieer je een afhankelijkheid tussen twee taken task_a en task_b zodat task_b na task_a wordt uitgevoerd?

5

Welke cron-expressie vertegenwoordigt een dagelijkse uitvoering om middernacht?

+17 gespreksvragen

Beheers Data Engineering voor je volgende gesprek

Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.

Begin gratis