Question 1

Jaka jest główna rola Sensora w Apache Airflow?

Accepted Answer

Sensor to specjalny operator, który czeka na spełnienie warunku przed kontynuowaniem wykonania DAG. Okresowo sprawdza (poke), czy warunek jest spełniony, taki jak przybycie pliku, dostępność partycji lub stan innego zadania. Sensors są niezbędne do orkiestracji workflow zależnych od zdarzeń zewnętrznych.

Question 2

Jaka jest różnica między trybami 'poke' i 'reschedule' dla Sensora?

Accepted Answer

W trybie poke Sensor ciągle zajmuje slot workera i sprawdza warunek w regularnych odstępach (poke_interval). W trybie reschedule Sensor zwalnia slot workera między sprawdzeniami i przekłada się na później. Tryb reschedule jest zalecany dla długo trwających warunków, ponieważ uwalnia zasoby dla innych zadań.

Question 3

Którego Sensora należy użyć, aby poczekać na dostępność partycji Hive?

Accepted Answer

HivePartitionSensor sprawdza istnienie określonej partycji w tabeli Hive. Jest powszechnie używany w pipeline'ach danych, aby zapewnić dostępność danych źródłowych przed uruchomieniem transformacji. Akceptuje parametry takie jak schema, table i partition do weryfikacji.

Apache Airflow - Zaawansowany

Jaka jest główna rola Sensora w Apache Airflow?

Odpowiedź

Jaka jest różnica między trybami 'poke' i 'reschedule' dla Sensora?

Odpowiedź

Którego Sensora należy użyć, aby poczekać na dostępność partycji Hive?

Odpowiedź

Jak przekazywać dane między dwoma zadaniami Airflow?

Jaki jest zalecany maksymalny rozmiar danych przechowywanych w XCom?

Inne tematy rekrutacyjne Data Engineering

Linux & Shell - Podstawy

Git & GitHub - Podstawy

Zaawansowany Python dla Data Engineering

Docker - Podstawy

Google Cloud Platform - Podstawy

CI/CD i jakość kodu

Docker Compose

FastAPI - API danych

Zaawansowany SQL dla Data Engineering

Data Lake - Architektura i wprowadzanie danych

BigQuery dla Data Engineering

PostgreSQL - Administracja

Data Modeling dla Data Engineering

Fivetran & Airbyte - Pozyskiwanie danych

dbt - Podstawy

Apache Airflow - Podstawy

Kubernetes - Podstawy

dbt - Zaawansowane funkcje

Wzorce ETL / ELT / ETLT

Airflow + dbt - Orkiestracja pipeline'ów

PySpark - Przetwarzanie na dużą skalę

Google Pub/Sub - Streaming danych

Apache Beam & Dataflow

Kubernetes - Produkcja i skalowanie

Terraform - Infrastructure as Code

Bazy danych NoSQL

Nowoczesna Data Architecture

Monitorowanie i obserwowalność

IAM i bezpieczeństwo danych

Opanuj Data Engineering na następną rozmowę