
dbt - Основи
Проєкт dbt, models, sources, refs, tests, документація, materializations (table, view, incremental), seeds
1Що таке dbt (data build tool)?
Що таке dbt (data build tool)?
Відповідь
dbt — це інструмент трансформації даних, який дозволяє писати трансформації на SQL і виконувати їх у data warehouse. Він застосовує принципи інженерії програмного забезпечення (версіонування, tests, документація) до роботи з трансформацією даних. dbt не виконує вилучення або завантаження (E і L з ELT), лише трансформацію.
2Яка базова структура проєкту dbt?
Яка базова структура проєкту dbt?
Відповідь
Проєкт dbt містить файл dbt_project.yml у корені, який визначає конфігурацію проєкту. Основні папки — це models (з SQL-файлами), tests для користувацьких tests, macros для Jinja-макросів, seeds для CSV-файлів, і snapshots для захоплення історичних даних. Файл profiles.yml (зазвичай поза проєктом) визначає підключення до warehouse.
3Яка роль файлу profiles.yml у dbt?
Яка роль файлу profiles.yml у dbt?
Відповідь
Файл profiles.yml містить інформацію про підключення до data warehouse (BigQuery, Snowflake, Redshift, PostgreSQL тощо). Він зазвичай зберігається в папці ~/.dbt/, а не в проєкті, щоб уникнути версіонування чутливих credentials. Кожен профіль може мати кілька targets (dev, prod), що дозволяє легко перемикатися між середовищами.
Що таке model у dbt?
Яка роль функції ref() у dbt?
+17 питань зі співбесід
Інші теми співбесід Data Engineering
Linux & Shell - Основи
Git & GitHub - Основи
Просунутий Python для Data Engineering
Docker - Основи
Google Cloud Platform - Основи
CI/CD та якість коду
Docker Compose
FastAPI - API даних
Просунутий SQL для Data Engineering
Data Lake - Архітектура та завантаження даних
BigQuery для Data Engineering
PostgreSQL - Адміністрування
Data Modeling для Data Engineering
Fivetran & Airbyte - Завантаження даних
Apache Airflow - Основи
Kubernetes - Основи
dbt - Розширені можливості
Патерни ETL / ELT / ETLT
Apache Airflow - Просунутий
Airflow + dbt - Оркестрація пайплайнів
PySpark - Великомасштабна обробка
Google Pub/Sub - Стрімінг даних
Apache Beam & Dataflow
Kubernetes - Продакшн та масштабування
Terraform - Infrastructure as Code
Бази даних NoSQL
Сучасна Data Architecture
Моніторинг та спостережуваність
IAM та безпека даних
Опануй Data Engineering для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно