
Airflow + dbt - Orkiestracja pipeline'ów
astronomer-cosmos, DbtDagParser, dbt run/test w Airflow, zarządzanie zależnościami, monitoring end-to-end
1Jaka jest główna zaleta używania astronomer-cosmos do integracji dbt z Airflow?
Jaka jest główna zaleta używania astronomer-cosmos do integracji dbt z Airflow?
Odpowiedź
Astronomer-cosmos automatycznie konwertuje modele dbt na pojedyncze zadania Airflow, zapewniając szczegółową widoczność każdego modelu w interfejsie Airflow. Umożliwia to wykorzystanie funkcji Airflow (retry, alerting, monitoring) na poziomie modelu, a nie całego projektu dbt.
2Jak cosmos obsługuje zależności między modelami dbt w DAG Airflow?
Jak cosmos obsługuje zależności między modelami dbt w DAG Airflow?
Odpowiedź
Cosmos analizuje plik manifest.json dbt, aby wyodrębnić graf zależności między modelami. Następnie automatycznie tworzy relacje zależności (upstream/downstream) między odpowiednimi zadaniami Airflow, respektując kolejność wykonywania zdefiniowaną przez refs w projekcie dbt.
3Jaka jest różnica między trybami wykonywania 'local' i 'docker' w cosmos?
Jaka jest różnica między trybami wykonywania 'local' i 'docker' w cosmos?
Odpowiedź
W trybie local cosmos uruchamia dbt bezpośrednio w środowisku Python workera Airflow, co wymaga zainstalowania dbt. W trybie docker każde zadanie dbt działa w izolowanym kontenerze Docker z własnym obrazem dbt, zapewniając lepszą izolację i powtarzalność zależności.
Jak skonfigurować cosmos, aby uruchamiał tylko podzbiór modeli dbt na podstawie tagów?
Jaka jest rola DbtTaskGroup w integracji Airflow-dbt z cosmos?
+17 pytań z rozmów
Inne tematy rekrutacyjne Data Engineering
Linux & Shell - Podstawy
Git & GitHub - Podstawy
Zaawansowany Python dla Data Engineering
Docker - Podstawy
Google Cloud Platform - Podstawy
CI/CD i jakość kodu
Docker Compose
FastAPI - API danych
Zaawansowany SQL dla Data Engineering
Data Lake - Architektura i wprowadzanie danych
BigQuery dla Data Engineering
PostgreSQL - Administracja
Data Modeling dla Data Engineering
Fivetran & Airbyte - Pozyskiwanie danych
dbt - Podstawy
Apache Airflow - Podstawy
Kubernetes - Podstawy
dbt - Zaawansowane funkcje
Wzorce ETL / ELT / ETLT
Apache Airflow - Zaawansowany
PySpark - Przetwarzanie na dużą skalę
Google Pub/Sub - Streaming danych
Apache Beam & Dataflow
Kubernetes - Produkcja i skalowanie
Terraform - Infrastructure as Code
Bazy danych NoSQL
Nowoczesna Data Architecture
Monitorowanie i obserwowalność
IAM i bezpieczeństwo danych
Opanuj Data Engineering na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo