
Airflow + dbt - Pipeline-Orchestrierung
astronomer-cosmos, DbtDagParser, dbt run/test in Airflow, Abhängigkeitsverwaltung, End-to-End-Monitoring
1Was ist der Hauptvorteil der Verwendung von astronomer-cosmos zur Integration von dbt in Airflow?
Was ist der Hauptvorteil der Verwendung von astronomer-cosmos zur Integration von dbt in Airflow?
Antwort
Astronomer-cosmos wandelt dbt-Models automatisch in einzelne Airflow-Tasks um und bietet damit granulare Sichtbarkeit jedes Models in der Airflow-UI. Dies ermöglicht die Nutzung von Airflow-Funktionen (Retry, Alerting, Monitoring) auf Model-Ebene statt für das gesamte dbt-Projekt.
2Wie verwaltet cosmos Abhängigkeiten zwischen dbt-Models in einem Airflow-DAG?
Wie verwaltet cosmos Abhängigkeiten zwischen dbt-Models in einem Airflow-DAG?
Antwort
Cosmos analysiert die manifest.json von dbt, um den Abhängigkeitsgraphen zwischen Models zu extrahieren. Anschließend werden automatisch Abhängigkeitsbeziehungen (Upstream/Downstream) zwischen den entsprechenden Airflow-Tasks erstellt und damit die durch Refs im dbt-Projekt definierte Ausführungsreihenfolge eingehalten.
3Was ist der Unterschied zwischen den Ausführungsmodi 'local' und 'docker' in cosmos?
Was ist der Unterschied zwischen den Ausführungsmodi 'local' und 'docker' in cosmos?
Antwort
Im Local-Modus führt cosmos dbt direkt in der Python-Umgebung des Airflow-Workers aus, wofür dbt installiert sein muss. Im Docker-Modus läuft jede dbt-Task in einem isolierten Docker-Container mit eigenem dbt-Image, was bessere Isolation und Reproduzierbarkeit der Abhängigkeiten bietet.
Wie konfiguriert man cosmos, um nur eine Teilmenge der dbt-Models basierend auf Tags auszuführen?
Welche Rolle spielt DbtTaskGroup bei der Airflow-dbt-Integration mit cosmos?
+17 Interview-Fragen
Weitere Data Engineering-Interviewthemen
Linux & Shell - Grundlagen
Git & GitHub - Grundlagen
Fortgeschrittenes Python für Data Engineering
Docker - Grundlagen
Google Cloud Platform - Grundlagen
CI/CD und Codequalität
Docker Compose
FastAPI - Daten-APIs
Fortgeschrittenes SQL für Data Engineering
Data Lake - Architektur und Ingestion
BigQuery für Data Engineering
PostgreSQL - Administration
Data Modeling für Data Engineering
Fivetran & Airbyte - Daten-Ingestion
dbt - Grundlagen
Apache Airflow - Grundlagen
Kubernetes - Grundlagen
dbt - Erweiterte Funktionen
ETL- / ELT- / ETLT-Patterns
Apache Airflow - Fortgeschritten
PySpark - Verarbeitung im großen Maßstab
Google Pub/Sub - Daten-Streaming
Apache Beam & Dataflow
Kubernetes - Produktion und Skalierung
Terraform - Infrastructure as Code
NoSQL-Datenbanken
Moderne Data Architecture
Monitoring und Observability
IAM und Datensicherheit
Meistere Data Engineering für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten