Question 1

Яку архітектуру зберігання використовує BigQuery?

Accepted Answer

BigQuery використовує serverless архітектуру з колонковим сховищем під назвою Capacitor. Ця архітектура розділяє storage та compute, що дозволяє незалежне масштабування та окреме виставлення рахунків. Колонкове сховище оптимізоване для аналітичних запитів, оскільки дозволяє читати лише необхідні колонки, значно зменшуючи I/O.

Question 2

Яка основна перевага partitioning таблиць у BigQuery?

Accepted Answer

Partitioning розділяє велику таблицю на менші сегменти на основі колонки (зазвичай дати). Під час запитів BigQuery може пропускати нерелевантні partition (partition pruning), зменшуючи обсяг сканованих даних. Це покращує продуктивність і зменшує витрати, оскільки BigQuery тарифікує за обсягом оброблених даних.

Question 3

Які типи partitioning доступні в BigQuery?

Accepted Answer

BigQuery підтримує три типи partitioning: за колонкою DATE або TIMESTAMP (найпоширеніший), за діапазоном цілих чисел (INTEGER RANGE) і за часом завантаження (_PARTITIONTIME). Partitioning за датою рекомендується для часових рядів даних, оскільки забезпечує ефективний partition pruning на фільтрах дати.

BigQuery для Data Engineering

Яку архітектуру зберігання використовує BigQuery?

Відповідь

Яка основна перевага partitioning таблиць у BigQuery?

Відповідь

Які типи partitioning доступні в BigQuery?

Відповідь

Яка різниця між partitioning і clustering у BigQuery?

Як оптимізувати витрати на запити в BigQuery?

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Git & GitHub - Основи

Просунутий Python для Data Engineering

Docker - Основи

Google Cloud Platform - Основи

CI/CD та якість коду

Docker Compose

FastAPI - API даних

Просунутий SQL для Data Engineering

Data Lake - Архітектура та завантаження даних

PostgreSQL - Адміністрування

Data Modeling для Data Engineering

Fivetran & Airbyte - Завантаження даних

dbt - Основи

Apache Airflow - Основи

Kubernetes - Основи

dbt - Розширені можливості

Патерни ETL / ELT / ETLT

Apache Airflow - Просунутий

Airflow + dbt - Оркестрація пайплайнів

PySpark - Великомасштабна обробка

Google Pub/Sub - Стрімінг даних

Apache Beam & Dataflow

Kubernetes - Продакшн та масштабування

Terraform - Infrastructure as Code

Бази даних NoSQL

Сучасна Data Architecture

Моніторинг та спостережуваність

IAM та безпека даних

Опануй Data Engineering для наступної співбесіди