Question 1

Was ist die Hauptaufgabe eines Sensors in Apache Airflow?

Accepted Answer

Ein Sensor ist ein spezieller Operator, der auf eine Bedingung wartet, bevor die DAG-Ausführung fortgesetzt wird. Er prüft periodisch (poke), ob die Bedingung erfüllt ist, wie etwa Dateiankunft, Partitionsverfügbarkeit oder der Zustand einer anderen Aufgabe. Sensors sind unverzichtbar für die Orchestrierung von Workflows, die von externen Ereignissen abhängen.

Question 2

Was ist der Unterschied zwischen den Modi 'poke' und 'reschedule' für einen Sensor?

Accepted Answer

Im poke-Modus belegt der Sensor kontinuierlich einen Worker-Slot und prüft die Bedingung in regelmäßigen Abständen (poke_interval). Im reschedule-Modus gibt der Sensor den Worker-Slot zwischen den Prüfungen frei und plant sich selbst neu. Der reschedule-Modus wird für lange laufende Bedingungen empfohlen, da er Ressourcen für andere Aufgaben freigibt.

Question 3

Welcher Sensor sollte verwendet werden, um auf die Verfügbarkeit einer Hive-Partition zu warten?

Accepted Answer

HivePartitionSensor prüft die Existenz einer bestimmten Partition in einer Hive-Tabelle. Er wird häufig in Datenpipelines verwendet, um sicherzustellen, dass Quelldaten vor dem Ausführen von Transformationen verfügbar sind. Er akzeptiert Parameter wie schema, table und partition zur Überprüfung.

Apache Airflow - Fortgeschritten

Was ist die Hauptaufgabe eines Sensors in Apache Airflow?

Antwort

Was ist der Unterschied zwischen den Modi 'poke' und 'reschedule' für einen Sensor?

Antwort

Welcher Sensor sollte verwendet werden, um auf die Verfügbarkeit einer Hive-Partition zu warten?

Antwort

Wie überträgt man Daten zwischen zwei Airflow-Aufgaben?

Was ist die empfohlene maximale Größe für in XCom gespeicherte Daten?

Weitere Data Engineering-Interviewthemen

Linux & Shell - Grundlagen

Git & GitHub - Grundlagen

Fortgeschrittenes Python für Data Engineering

Docker - Grundlagen

Google Cloud Platform - Grundlagen

CI/CD und Codequalität

Docker Compose

FastAPI - Daten-APIs

Fortgeschrittenes SQL für Data Engineering

Data Lake - Architektur und Ingestion

BigQuery für Data Engineering

PostgreSQL - Administration

Data Modeling für Data Engineering

Fivetran & Airbyte - Daten-Ingestion

dbt - Grundlagen

Apache Airflow - Grundlagen

Kubernetes - Grundlagen

dbt - Erweiterte Funktionen

ETL- / ELT- / ETLT-Patterns

Airflow + dbt - Pipeline-Orchestrierung

PySpark - Verarbeitung im großen Maßstab

Google Pub/Sub - Daten-Streaming

Apache Beam & Dataflow

Kubernetes - Produktion und Skalierung

Terraform - Infrastructure as Code

NoSQL-Datenbanken

Moderne Data Architecture

Monitoring und Observability

IAM und Datensicherheit

Meistere Data Engineering für dein nächstes Interview