
Data Modeling для Data Engineering
Star schema, snowflake, Data Vault, нормалізація, типи SCD, grain, адитивні метрики
1Що таке star schema?
Що таке star schema?
Відповідь
Star schema — це вимірна модель даних, де центральна fact table оточена dimension table. Fact table містить метрики та foreign key до вимірів, які містять описові атрибути. Ця проста, денормалізована структура оптимізує продуктивність аналітичних запитів, мінімізуючи join.
2У чому різниця між fact table та dimension table?
У чому різниця між fact table та dimension table?
Відповідь
Fact table містить кількісні показники (метрики) та foreign key до вимірів. Вона записує події або транзакції. Dimension table містить описові атрибути (хто, що, де, коли), що дозволяють фільтрувати та групувати факти. Факти числові та агрегуються, виміри текстові та описові.
3Що таке grain fact table?
Що таке grain fact table?
Відповідь
Grain визначає рівень деталізації одного рядка у fact table. Він відповідає на питання: що саме представляє один рядок? Наприклад, один продаж на рядок, один продаж на день на продукт або один продаж на годину. Визначення grain є першим кроком вимірного моделювання, оскільки воно визначає, які виміри потрібні та який рівень агрегації зберігається.
У чому різниця між star schema та snowflake schema?
Що таке conformed dimension?
+17 питань зі співбесід
Інші теми співбесід Data Engineering
Linux & Shell - Основи
Git & GitHub - Основи
Просунутий Python для Data Engineering
Docker - Основи
Google Cloud Platform - Основи
CI/CD та якість коду
Docker Compose
FastAPI - API даних
Просунутий SQL для Data Engineering
Data Lake - Архітектура та завантаження даних
BigQuery для Data Engineering
PostgreSQL - Адміністрування
Fivetran & Airbyte - Завантаження даних
dbt - Основи
Apache Airflow - Основи
Kubernetes - Основи
dbt - Розширені можливості
Патерни ETL / ELT / ETLT
Apache Airflow - Просунутий
Airflow + dbt - Оркестрація пайплайнів
PySpark - Великомасштабна обробка
Google Pub/Sub - Стрімінг даних
Apache Beam & Dataflow
Kubernetes - Продакшн та масштабування
Terraform - Infrastructure as Code
Бази даних NoSQL
Сучасна Data Architecture
Моніторинг та спостережуваність
IAM та безпека даних
Опануй Data Engineering для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно