Question 1

Was ist der Hauptvorteil der Verwendung von astronomer-cosmos zur Integration von dbt in Airflow?

Accepted Answer

Astronomer-cosmos wandelt dbt-Models automatisch in einzelne Airflow-Tasks um und bietet damit granulare Sichtbarkeit jedes Models in der Airflow-UI. Dies ermöglicht die Nutzung von Airflow-Funktionen (Retry, Alerting, Monitoring) auf Model-Ebene statt für das gesamte dbt-Projekt.

Question 2

Wie verwaltet cosmos Abhängigkeiten zwischen dbt-Models in einem Airflow-DAG?

Accepted Answer

Cosmos analysiert die manifest.json von dbt, um den Abhängigkeitsgraphen zwischen Models zu extrahieren. Anschließend werden automatisch Abhängigkeitsbeziehungen (Upstream/Downstream) zwischen den entsprechenden Airflow-Tasks erstellt und damit die durch Refs im dbt-Projekt definierte Ausführungsreihenfolge eingehalten.

Question 3

Was ist der Unterschied zwischen den Ausführungsmodi 'local' und 'docker' in cosmos?

Accepted Answer

Im Local-Modus führt cosmos dbt direkt in der Python-Umgebung des Airflow-Workers aus, wofür dbt installiert sein muss. Im Docker-Modus läuft jede dbt-Task in einem isolierten Docker-Container mit eigenem dbt-Image, was bessere Isolation und Reproduzierbarkeit der Abhängigkeiten bietet.

Airflow + dbt - Pipeline-Orchestrierung

Was ist der Hauptvorteil der Verwendung von astronomer-cosmos zur Integration von dbt in Airflow?

Antwort

Wie verwaltet cosmos Abhängigkeiten zwischen dbt-Models in einem Airflow-DAG?

Antwort

Was ist der Unterschied zwischen den Ausführungsmodi 'local' und 'docker' in cosmos?

Antwort

Wie konfiguriert man cosmos, um nur eine Teilmenge der dbt-Models basierend auf Tags auszuführen?

Welche Rolle spielt DbtTaskGroup bei der Airflow-dbt-Integration mit cosmos?

Weitere Data Engineering-Interviewthemen

Linux & Shell - Grundlagen

Git & GitHub - Grundlagen

Fortgeschrittenes Python für Data Engineering

Docker - Grundlagen

Google Cloud Platform - Grundlagen

CI/CD und Codequalität

Docker Compose

FastAPI - Daten-APIs

Fortgeschrittenes SQL für Data Engineering

Data Lake - Architektur und Ingestion

BigQuery für Data Engineering

PostgreSQL - Administration

Data Modeling für Data Engineering

Fivetran & Airbyte - Daten-Ingestion

dbt - Grundlagen

Apache Airflow - Grundlagen

Kubernetes - Grundlagen

dbt - Erweiterte Funktionen

ETL- / ELT- / ETLT-Patterns

Apache Airflow - Fortgeschritten

PySpark - Verarbeitung im großen Maßstab

Google Pub/Sub - Daten-Streaming

Apache Beam & Dataflow

Kubernetes - Produktion und Skalierung

Terraform - Infrastructure as Code

NoSQL-Datenbanken

Moderne Data Architecture

Monitoring und Observability

IAM und Datensicherheit

Meistere Data Engineering für dein nächstes Interview