
Apache Airflow - Podstawy
DAG-i, operatory (Bash, Python, SQL), harmonogramowanie, zależności zadań, Airflow UI, connections, variables, trigger rules
1Czym jest DAG w Apache Airflow?
Czym jest DAG w Apache Airflow?
Odpowiedź
DAG (Directed Acyclic Graph) to kolekcja zadań zorganizowanych z zależnościami i relacjami, reprezentująca kompletny workflow. Charakter acykliczny oznacza, że nie może być pętli w grafie zależności, co zapewnia, że każde zadanie jest wykonywane dokładnie raz na uruchomienie. DAG definiuje kiedy i jak zadania powinny być wykonywane, ale nie co konkretnie robią.
2Który parametr DAG definiuje datę, od której scheduler zaczyna planować uruchomienia?
Który parametr DAG definiuje datę, od której scheduler zaczyna planować uruchomienia?
Odpowiedź
Parametr start_date definiuje datę, od której Airflow zaczyna planować uruchomienia DAG. Ta data jest używana w połączeniu z schedule_interval do określenia data intervals. Ważna kwestia: jeśli start_date jest w przeszłości, Airflow może wyzwalać backfille, aby nadrobić pominięte uruchomienia, chyba że skonfigurowano catchup=False.
3Którego operatora należy użyć do wykonania funkcji Python w DAG-u Airflow?
Którego operatora należy użyć do wykonania funkcji Python w DAG-u Airflow?
Odpowiedź
PythonOperator pozwala na wykonanie funkcji Python callable w DAG-u Airflow. Funkcja jest przekazywana przez parametr python_callable i może otrzymywać argumenty przez op_args (lista) lub op_kwargs (słownik). PythonOperator jest jednym z najczęściej używanych operatorów, ponieważ oferuje dużą elastyczność w uruchamianiu niestandardowego kodu Python.
Jak zdefiniować zależność między dwoma zadaniami task_a i task_b, aby task_b uruchamiało się po task_a?
Które wyrażenie cron reprezentuje codzienne wykonanie o północy?
+17 pytań z rozmów
Inne tematy rekrutacyjne Data Engineering
Linux & Shell - Podstawy
Git & GitHub - Podstawy
Zaawansowany Python dla Data Engineering
Docker - Podstawy
Google Cloud Platform - Podstawy
CI/CD i jakość kodu
Docker Compose
FastAPI - API danych
Zaawansowany SQL dla Data Engineering
Data Lake - Architektura i wprowadzanie danych
BigQuery dla Data Engineering
PostgreSQL - Administracja
Data Modeling dla Data Engineering
Fivetran & Airbyte - Pozyskiwanie danych
dbt - Podstawy
Kubernetes - Podstawy
dbt - Zaawansowane funkcje
Wzorce ETL / ELT / ETLT
Apache Airflow - Zaawansowany
Airflow + dbt - Orkiestracja pipeline'ów
PySpark - Przetwarzanie na dużą skalę
Google Pub/Sub - Streaming danych
Apache Beam & Dataflow
Kubernetes - Produkcja i skalowanie
Terraform - Infrastructure as Code
Bazy danych NoSQL
Nowoczesna Data Architecture
Monitorowanie i obserwowalność
IAM i bezpieczeństwo danych
Opanuj Data Engineering na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo