Data Engineering

Apache Airflow - Podstawy

DAG-i, operatory (Bash, Python, SQL), harmonogramowanie, zależności zadań, Airflow UI, connections, variables, trigger rules

20 pytań z rozmów·
Mid-Level
1

Czym jest DAG w Apache Airflow?

Odpowiedź

DAG (Directed Acyclic Graph) to kolekcja zadań zorganizowanych z zależnościami i relacjami, reprezentująca kompletny workflow. Charakter acykliczny oznacza, że nie może być pętli w grafie zależności, co zapewnia, że każde zadanie jest wykonywane dokładnie raz na uruchomienie. DAG definiuje kiedy i jak zadania powinny być wykonywane, ale nie co konkretnie robią.

2

Który parametr DAG definiuje datę, od której scheduler zaczyna planować uruchomienia?

Odpowiedź

Parametr start_date definiuje datę, od której Airflow zaczyna planować uruchomienia DAG. Ta data jest używana w połączeniu z schedule_interval do określenia data intervals. Ważna kwestia: jeśli start_date jest w przeszłości, Airflow może wyzwalać backfille, aby nadrobić pominięte uruchomienia, chyba że skonfigurowano catchup=False.

3

Którego operatora należy użyć do wykonania funkcji Python w DAG-u Airflow?

Odpowiedź

PythonOperator pozwala na wykonanie funkcji Python callable w DAG-u Airflow. Funkcja jest przekazywana przez parametr python_callable i może otrzymywać argumenty przez op_args (lista) lub op_kwargs (słownik). PythonOperator jest jednym z najczęściej używanych operatorów, ponieważ oferuje dużą elastyczność w uruchamianiu niestandardowego kodu Python.

4

Jak zdefiniować zależność między dwoma zadaniami task_a i task_b, aby task_b uruchamiało się po task_a?

5

Które wyrażenie cron reprezentuje codzienne wykonanie o północy?

+17 pytań z rozmów

Opanuj Data Engineering na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo