
Apache Airflow - Fortgeschritten
Sensors, XCom, TaskFlow API, Pools, Priority, dynamische DAGs, KubernetesPodOperator, Monitoring
1Was ist die Hauptaufgabe eines Sensors in Apache Airflow?
Was ist die Hauptaufgabe eines Sensors in Apache Airflow?
Antwort
Ein Sensor ist ein spezieller Operator, der auf eine Bedingung wartet, bevor die DAG-Ausführung fortgesetzt wird. Er prüft periodisch (poke), ob die Bedingung erfüllt ist, wie etwa Dateiankunft, Partitionsverfügbarkeit oder der Zustand einer anderen Aufgabe. Sensors sind unverzichtbar für die Orchestrierung von Workflows, die von externen Ereignissen abhängen.
2Was ist der Unterschied zwischen den Modi 'poke' und 'reschedule' für einen Sensor?
Was ist der Unterschied zwischen den Modi 'poke' und 'reschedule' für einen Sensor?
Antwort
Im poke-Modus belegt der Sensor kontinuierlich einen Worker-Slot und prüft die Bedingung in regelmäßigen Abständen (poke_interval). Im reschedule-Modus gibt der Sensor den Worker-Slot zwischen den Prüfungen frei und plant sich selbst neu. Der reschedule-Modus wird für lange laufende Bedingungen empfohlen, da er Ressourcen für andere Aufgaben freigibt.
3Welcher Sensor sollte verwendet werden, um auf die Verfügbarkeit einer Hive-Partition zu warten?
Welcher Sensor sollte verwendet werden, um auf die Verfügbarkeit einer Hive-Partition zu warten?
Antwort
HivePartitionSensor prüft die Existenz einer bestimmten Partition in einer Hive-Tabelle. Er wird häufig in Datenpipelines verwendet, um sicherzustellen, dass Quelldaten vor dem Ausführen von Transformationen verfügbar sind. Er akzeptiert Parameter wie schema, table und partition zur Überprüfung.
Wie überträgt man Daten zwischen zwei Airflow-Aufgaben?
Was ist die empfohlene maximale Größe für in XCom gespeicherte Daten?
+17 Interview-Fragen
Weitere Data Engineering-Interviewthemen
Linux & Shell - Grundlagen
Git & GitHub - Grundlagen
Fortgeschrittenes Python für Data Engineering
Docker - Grundlagen
Google Cloud Platform - Grundlagen
CI/CD und Codequalität
Docker Compose
FastAPI - Daten-APIs
Fortgeschrittenes SQL für Data Engineering
Data Lake - Architektur und Ingestion
BigQuery für Data Engineering
PostgreSQL - Administration
Data Modeling für Data Engineering
Fivetran & Airbyte - Daten-Ingestion
dbt - Grundlagen
Apache Airflow - Grundlagen
Kubernetes - Grundlagen
dbt - Erweiterte Funktionen
ETL- / ELT- / ETLT-Patterns
Airflow + dbt - Pipeline-Orchestrierung
PySpark - Verarbeitung im großen Maßstab
Google Pub/Sub - Daten-Streaming
Apache Beam & Dataflow
Kubernetes - Produktion und Skalierung
Terraform - Infrastructure as Code
NoSQL-Datenbanken
Moderne Data Architecture
Monitoring und Observability
IAM und Datensicherheit
Meistere Data Engineering für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten