Data Engineering

Apache Airflow - 上級

Sensors、XCom、TaskFlow API、pools、priority、dynamic DAGs、KubernetesPodOperator、monitoring

20 面接問題·
Senior
1

Apache AirflowにおけるSensorの主な役割は何ですか?

回答

Sensorは、DAG実行を続行する前に条件が満たされるのを待つ特別なオペレーターです。ファイルの到着、パーティションの利用可能性、別のタスクの状態など、条件が満たされているかを定期的に確認(poke)します。Sensorsは外部イベントに依存するワークフローのオーケストレーションに不可欠です。

2

Sensorの'poke'モードと'reschedule'モードの違いは何ですか?

回答

pokeモードでは、Sensorはworker slotを継続的に占有し、定期的な間隔(poke_interval)で条件を確認します。rescheduleモードでは、Sensorは各確認の間にworker slotを解放し、自身を再スケジュールします。rescheduleモードは長時間かかる条件に推奨され、他のタスクのためにリソースを解放します。

3

Hiveパーティションが利用可能になるのを待つために、どのSensorを使用すべきですか?

回答

HivePartitionSensorは、Hiveテーブル内の特定のパーティションの存在を確認します。データパイプラインで変換を実行する前にソースデータが利用可能であることを確認するために一般的に使用されます。schema、table、partitionなどのパラメーターを受け入れます。

4

2つのAirflowタスク間でデータを渡す方法は?

5

XComに保存されるデータの推奨最大サイズはどれくらいですか?

+17 面接問題

次の面接に向けてData Engineeringをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める