
Apache Airflow - Zaawansowany
Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring
1Jaka jest główna rola Sensora w Apache Airflow?
Jaka jest główna rola Sensora w Apache Airflow?
Odpowiedź
Sensor to specjalny operator, który czeka na spełnienie warunku przed kontynuowaniem wykonania DAG. Okresowo sprawdza (poke), czy warunek jest spełniony, taki jak przybycie pliku, dostępność partycji lub stan innego zadania. Sensors są niezbędne do orkiestracji workflow zależnych od zdarzeń zewnętrznych.
2Jaka jest różnica między trybami 'poke' i 'reschedule' dla Sensora?
Jaka jest różnica między trybami 'poke' i 'reschedule' dla Sensora?
Odpowiedź
W trybie poke Sensor ciągle zajmuje slot workera i sprawdza warunek w regularnych odstępach (poke_interval). W trybie reschedule Sensor zwalnia slot workera między sprawdzeniami i przekłada się na później. Tryb reschedule jest zalecany dla długo trwających warunków, ponieważ uwalnia zasoby dla innych zadań.
3Którego Sensora należy użyć, aby poczekać na dostępność partycji Hive?
Którego Sensora należy użyć, aby poczekać na dostępność partycji Hive?
Odpowiedź
HivePartitionSensor sprawdza istnienie określonej partycji w tabeli Hive. Jest powszechnie używany w pipeline'ach danych, aby zapewnić dostępność danych źródłowych przed uruchomieniem transformacji. Akceptuje parametry takie jak schema, table i partition do weryfikacji.
Jak przekazywać dane między dwoma zadaniami Airflow?
Jaki jest zalecany maksymalny rozmiar danych przechowywanych w XCom?
+17 pytań z rozmów
Inne tematy rekrutacyjne Data Engineering
Linux & Shell - Podstawy
Git & GitHub - Podstawy
Zaawansowany Python dla Data Engineering
Docker - Podstawy
Google Cloud Platform - Podstawy
CI/CD i jakość kodu
Docker Compose
FastAPI - API danych
Zaawansowany SQL dla Data Engineering
Data Lake - Architektura i wprowadzanie danych
BigQuery dla Data Engineering
PostgreSQL - Administracja
Data Modeling dla Data Engineering
Fivetran & Airbyte - Pozyskiwanie danych
dbt - Podstawy
Apache Airflow - Podstawy
Kubernetes - Podstawy
dbt - Zaawansowane funkcje
Wzorce ETL / ELT / ETLT
Airflow + dbt - Orkiestracja pipeline'ów
PySpark - Przetwarzanie na dużą skalę
Google Pub/Sub - Streaming danych
Apache Beam & Dataflow
Kubernetes - Produkcja i skalowanie
Terraform - Infrastructure as Code
Bazy danych NoSQL
Nowoczesna Data Architecture
Monitorowanie i obserwowalność
IAM i bezpieczeństwo danych
Opanuj Data Engineering na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo