
Apache Airflow - Grondbeginselen
DAG's, operators (Bash, Python, SQL), scheduling, taakafhankelijkheden, Airflow UI, connections, variables, trigger rules
1Wat is een DAG in Apache Airflow?
Wat is een DAG in Apache Airflow?
Antwoord
Een DAG (Directed Acyclic Graph) is een verzameling taken georganiseerd met afhankelijkheden en relaties, die een complete workflow vertegenwoordigt. De acyclische aard betekent dat er geen lussen kunnen zijn in de afhankelijkhedengrafiek, wat garandeert dat elke taak precies één keer per run wordt uitgevoerd. De DAG definieert wanneer en hoe taken moeten worden uitgevoerd, maar niet wat ze concreet doen.
2Welke DAG-parameter definieert de datum waarop de scheduler begint met het plannen van runs?
Welke DAG-parameter definieert de datum waarop de scheduler begint met het plannen van runs?
Antwoord
De parameter start_date definieert de datum waarop Airflow begint met het plannen van DAG-runs. Deze datum wordt gebruikt in combinatie met schedule_interval om data-intervallen te bepalen. Een belangrijk punt: als start_date in het verleden ligt, kan Airflow backfills triggeren om gemiste runs in te halen, tenzij catchup=False is geconfigureerd.
3Welke operator moet worden gebruikt om een Python-functie uit te voeren in een Airflow-DAG?
Welke operator moet worden gebruikt om een Python-functie uit te voeren in een Airflow-DAG?
Antwoord
De PythonOperator maakt het mogelijk om een Python callable-functie uit te voeren in een Airflow-DAG. De functie wordt doorgegeven via de parameter python_callable en kan argumenten ontvangen via op_args (lijst) of op_kwargs (dictionary). De PythonOperator is een van de meest gebruikte operators omdat het grote flexibiliteit biedt voor het uitvoeren van aangepaste Python-code.
Hoe definieer je een afhankelijkheid tussen twee taken task_a en task_b zodat task_b na task_a wordt uitgevoerd?
Welke cron-expressie vertegenwoordigt een dagelijkse uitvoering om middernacht?
+17 gespreksvragen
Andere Data Engineering-sollicitatieonderwerpen
Linux & Shell - Grondbeginselen
Git & GitHub - Grondbeginselen
Geavanceerde Python voor Data Engineering
Docker - Basisbeginselen
Google Cloud Platform - Fundamenten
CI/CD en codekwaliteit
Docker Compose
FastAPI - Data-API's
Geavanceerde SQL voor Data Engineering
Data Lake - Architectuur en ingestie
BigQuery voor Data Engineering
PostgreSQL - Administratie
Data Modeling voor Data Engineering
Fivetran & Airbyte - Data-ingestie
dbt - Grondbeginselen
Kubernetes - Fundamenten
dbt - Geavanceerde functies
ETL- / ELT- / ETLT-patronen
Apache Airflow - Gevorderd
Airflow + dbt - Pipeline-orkestratie
PySpark - Grootschalige verwerking
Google Pub/Sub - Datastreaming
Apache Beam & Dataflow
Kubernetes - Productie en scaling
Terraform - Infrastructure as Code
NoSQL-databases
Moderne Data Architecture
Monitoring en observability
IAM en gegevensbeveiliging
Beheers Data Engineering voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis