Data Engineering

Apache Airflow - Zaawansowany

Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring

20 pytań z rozmów·
Senior
1

Jaka jest główna rola Sensora w Apache Airflow?

Odpowiedź

Sensor to specjalny operator, który czeka na spełnienie warunku przed kontynuowaniem wykonania DAG. Okresowo sprawdza (poke), czy warunek jest spełniony, taki jak przybycie pliku, dostępność partycji lub stan innego zadania. Sensors są niezbędne do orkiestracji workflow zależnych od zdarzeń zewnętrznych.

2

Jaka jest różnica między trybami 'poke' i 'reschedule' dla Sensora?

Odpowiedź

W trybie poke Sensor ciągle zajmuje slot workera i sprawdza warunek w regularnych odstępach (poke_interval). W trybie reschedule Sensor zwalnia slot workera między sprawdzeniami i przekłada się na później. Tryb reschedule jest zalecany dla długo trwających warunków, ponieważ uwalnia zasoby dla innych zadań.

3

Którego Sensora należy użyć, aby poczekać na dostępność partycji Hive?

Odpowiedź

HivePartitionSensor sprawdza istnienie określonej partycji w tabeli Hive. Jest powszechnie używany w pipeline'ach danych, aby zapewnić dostępność danych źródłowych przed uruchomieniem transformacji. Akceptuje parametry takie jak schema, table i partition do weryfikacji.

4

Jak przekazywać dane między dwoma zadaniami Airflow?

5

Jaki jest zalecany maksymalny rozmiar danych przechowywanych w XCom?

+17 pytań z rozmów

Opanuj Data Engineering na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo