
Airflow + dbt - Оркестрація пайплайнів
astronomer-cosmos, DbtDagParser, dbt run/test в Airflow, керування залежностями, наскрізний моніторинг
1У чому головна перевага використання astronomer-cosmos для інтеграції dbt в Airflow?
У чому головна перевага використання astronomer-cosmos для інтеграції dbt в Airflow?
Відповідь
Astronomer-cosmos автоматично перетворює моделі dbt на окремі задачі Airflow, забезпечуючи детальну видимість кожної моделі в UI Airflow. Це дозволяє використовувати функції Airflow (retry, alerting, monitoring) на рівні моделі, а не всього проєкту dbt.
2Як cosmos обробляє залежності між моделями dbt у DAG Airflow?
Як cosmos обробляє залежності між моделями dbt у DAG Airflow?
Відповідь
Cosmos аналізує manifest.json dbt, щоб витягти граф залежностей між моделями. Потім автоматично створює зв'язки залежностей (upstream/downstream) між відповідними задачами Airflow, дотримуючись порядку виконання, визначеного refs у проєкті dbt.
3У чому різниця між режимами виконання 'local' і 'docker' у cosmos?
У чому різниця між режимами виконання 'local' і 'docker' у cosmos?
Відповідь
У режимі local cosmos виконує dbt безпосередньо в середовищі Python воркера Airflow, що вимагає встановлення dbt. У режимі docker кожна задача dbt виконується в ізольованому контейнері Docker із власним образом dbt, що забезпечує кращу ізоляцію та відтворюваність залежностей.
Як налаштувати cosmos для виконання лише підмножини моделей dbt на основі тегів?
Яка роль DbtTaskGroup в інтеграції Airflow-dbt з cosmos?
+17 питань зі співбесід
Інші теми співбесід Data Engineering
Linux & Shell - Основи
Git & GitHub - Основи
Просунутий Python для Data Engineering
Docker - Основи
Google Cloud Platform - Основи
CI/CD та якість коду
Docker Compose
FastAPI - API даних
Просунутий SQL для Data Engineering
Data Lake - Архітектура та завантаження даних
BigQuery для Data Engineering
PostgreSQL - Адміністрування
Data Modeling для Data Engineering
Fivetran & Airbyte - Завантаження даних
dbt - Основи
Apache Airflow - Основи
Kubernetes - Основи
dbt - Розширені можливості
Патерни ETL / ELT / ETLT
Apache Airflow - Просунутий
PySpark - Великомасштабна обробка
Google Pub/Sub - Стрімінг даних
Apache Beam & Dataflow
Kubernetes - Продакшн та масштабування
Terraform - Infrastructure as Code
Бази даних NoSQL
Сучасна Data Architecture
Моніторинг та спостережуваність
IAM та безпека даних
Опануй Data Engineering для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно