
Apache Airflow - Gevorderd
Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring
1Wat is de hoofdrol van een Sensor in Apache Airflow?
Wat is de hoofdrol van een Sensor in Apache Airflow?
Antwoord
Een Sensor is een speciale operator die wacht tot een voorwaarde is vervuld voordat de DAG-uitvoering wordt voortgezet. Hij controleert periodiek (poke) of aan de voorwaarde is voldaan, zoals de aankomst van een bestand, de beschikbaarheid van een partitie of de status van een andere taak. Sensors zijn essentieel voor het orkestreren van workflows die afhankelijk zijn van externe gebeurtenissen.
2Wat is het verschil tussen de modi 'poke' en 'reschedule' voor een Sensor?
Wat is het verschil tussen de modi 'poke' en 'reschedule' voor een Sensor?
Antwoord
In poke-modus bezet de Sensor continu een worker slot en controleert de voorwaarde op regelmatige intervallen (poke_interval). In reschedule-modus geeft de Sensor het worker slot vrij tussen controles en hertaplant zichzelf. De reschedule-modus wordt aanbevolen voor langdurige voorwaarden omdat het resources vrijmaakt voor andere taken.
3Welke Sensor moet worden gebruikt om te wachten tot een Hive-partitie beschikbaar is?
Welke Sensor moet worden gebruikt om te wachten tot een Hive-partitie beschikbaar is?
Antwoord
HivePartitionSensor controleert het bestaan van een specifieke partitie in een Hive-tabel. Het wordt vaak gebruikt in datapipelines om ervoor te zorgen dat brondata beschikbaar is voordat transformaties worden uitgevoerd. Het accepteert parameters zoals schema, table en partition om te controleren.
Hoe geef je data door tussen twee Airflow-taken?
Wat is de aanbevolen maximale grootte voor data opgeslagen in XCom?
+17 gespreksvragen
Andere Data Engineering-sollicitatieonderwerpen
Linux & Shell - Grondbeginselen
Git & GitHub - Grondbeginselen
Geavanceerde Python voor Data Engineering
Docker - Basisbeginselen
Google Cloud Platform - Fundamenten
CI/CD en codekwaliteit
Docker Compose
FastAPI - Data-API's
Geavanceerde SQL voor Data Engineering
Data Lake - Architectuur en ingestie
BigQuery voor Data Engineering
PostgreSQL - Administratie
Data Modeling voor Data Engineering
Fivetran & Airbyte - Data-ingestie
dbt - Grondbeginselen
Apache Airflow - Grondbeginselen
Kubernetes - Fundamenten
dbt - Geavanceerde functies
ETL- / ELT- / ETLT-patronen
Airflow + dbt - Pipeline-orkestratie
PySpark - Grootschalige verwerking
Google Pub/Sub - Datastreaming
Apache Beam & Dataflow
Kubernetes - Productie en scaling
Terraform - Infrastructure as Code
NoSQL-databases
Moderne Data Architecture
Monitoring en observability
IAM en gegevensbeveiliging
Beheers Data Engineering voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis