Data Engineering

Apache Airflow - Fortgeschritten

Sensors, XCom, TaskFlow API, Pools, Priority, dynamische DAGs, KubernetesPodOperator, Monitoring

20 Interview-Fragen·
Senior
1

Was ist die Hauptaufgabe eines Sensors in Apache Airflow?

Antwort

Ein Sensor ist ein spezieller Operator, der auf eine Bedingung wartet, bevor die DAG-Ausführung fortgesetzt wird. Er prüft periodisch (poke), ob die Bedingung erfüllt ist, wie etwa Dateiankunft, Partitionsverfügbarkeit oder der Zustand einer anderen Aufgabe. Sensors sind unverzichtbar für die Orchestrierung von Workflows, die von externen Ereignissen abhängen.

2

Was ist der Unterschied zwischen den Modi 'poke' und 'reschedule' für einen Sensor?

Antwort

Im poke-Modus belegt der Sensor kontinuierlich einen Worker-Slot und prüft die Bedingung in regelmäßigen Abständen (poke_interval). Im reschedule-Modus gibt der Sensor den Worker-Slot zwischen den Prüfungen frei und plant sich selbst neu. Der reschedule-Modus wird für lange laufende Bedingungen empfohlen, da er Ressourcen für andere Aufgaben freigibt.

3

Welcher Sensor sollte verwendet werden, um auf die Verfügbarkeit einer Hive-Partition zu warten?

Antwort

HivePartitionSensor prüft die Existenz einer bestimmten Partition in einer Hive-Tabelle. Er wird häufig in Datenpipelines verwendet, um sicherzustellen, dass Quelldaten vor dem Ausführen von Transformationen verfügbar sind. Er akzeptiert Parameter wie schema, table und partition zur Überprüfung.

4

Wie überträgt man Daten zwischen zwei Airflow-Aufgaben?

5

Was ist die empfohlene maximale Größe für in XCom gespeicherte Daten?

+17 Interview-Fragen

Meistere Data Engineering für dein nächstes Interview

Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.

Kostenlos starten