Data Engineering

Apache Airflow - Gevorderd

Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring

20 gespreksvragen·
Senior
1

Wat is de hoofdrol van een Sensor in Apache Airflow?

Antwoord

Een Sensor is een speciale operator die wacht tot een voorwaarde is vervuld voordat de DAG-uitvoering wordt voortgezet. Hij controleert periodiek (poke) of aan de voorwaarde is voldaan, zoals de aankomst van een bestand, de beschikbaarheid van een partitie of de status van een andere taak. Sensors zijn essentieel voor het orkestreren van workflows die afhankelijk zijn van externe gebeurtenissen.

2

Wat is het verschil tussen de modi 'poke' en 'reschedule' voor een Sensor?

Antwoord

In poke-modus bezet de Sensor continu een worker slot en controleert de voorwaarde op regelmatige intervallen (poke_interval). In reschedule-modus geeft de Sensor het worker slot vrij tussen controles en hertaplant zichzelf. De reschedule-modus wordt aanbevolen voor langdurige voorwaarden omdat het resources vrijmaakt voor andere taken.

3

Welke Sensor moet worden gebruikt om te wachten tot een Hive-partitie beschikbaar is?

Antwoord

HivePartitionSensor controleert het bestaan van een specifieke partitie in een Hive-tabel. Het wordt vaak gebruikt in datapipelines om ervoor te zorgen dat brondata beschikbaar is voordat transformaties worden uitgevoerd. Het accepteert parameters zoals schema, table en partition om te controleren.

4

Hoe geef je data door tussen twee Airflow-taken?

5

Wat is de aanbevolen maximale grootte voor data opgeslagen in XCom?

+17 gespreksvragen

Beheers Data Engineering voor je volgende gesprek

Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.

Begin gratis