Data Engineering

Apache Airflow - 基礎

DAG、operator(Bash、Python、SQL)、スケジューリング、タスクの依存関係、Airflow UI、connection、variable、trigger rule

20 面接問題·
Mid-Level
1

Apache AirflowにおけるDAGとは何ですか?

回答

DAG(Directed Acyclic Graph)は、依存関係とリレーションシップで構成されたタスクのコレクションで、完全なワークフローを表します。非循環的な性質とは、依存関係グラフにループがあってはならないことを意味し、各タスクが実行ごとに正確に1回実行されることを保証します。DAGはタスクをいつどのように実行するかを定義しますが、具体的に何をするかは定義しません。

2

Schedulerが実行のスケジューリングを開始する日付を定義するDAGパラメータはどれですか?

回答

start_dateパラメータは、AirflowがDAGの実行のスケジューリングを開始する日付を定義します。この日付はschedule_intervalと組み合わせて使用され、data intervalを決定します。重要な点:start_dateが過去の場合、catchup=Falseが設定されていない限り、Airflowは見逃した実行を取り戻すためにbackfillをトリガーする可能性があります。

3

Airflow DAGでPython関数を実行するにはどのoperatorを使用すべきですか?

回答

PythonOperatorを使用すると、Airflow DAGでPython callable関数を実行できます。関数はpython_callableパラメータを介して渡され、op_args(リスト)またはop_kwargs(辞書)を介して引数を受け取ることができます。PythonOperatorは、カスタムPythonコードを実行するための高い柔軟性を提供するため、最も一般的に使用されるoperatorの1つです。

4

task_bがtask_aの後に実行されるように、2つのタスクtask_aとtask_b間の依存関係を定義する方法は?

5

毎日深夜0時の実行を表すcron式はどれですか?

+17 面接問題

次の面接に向けてData Engineeringをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める