
BigQuery для Data Engineering
Serverless архітектура, partitioning, clustering, витрати, UDF, federated queries, scheduled queries, materialized views
1Яку архітектуру зберігання використовує BigQuery?
Яку архітектуру зберігання використовує BigQuery?
Відповідь
BigQuery використовує serverless архітектуру з колонковим сховищем під назвою Capacitor. Ця архітектура розділяє storage та compute, що дозволяє незалежне масштабування та окреме виставлення рахунків. Колонкове сховище оптимізоване для аналітичних запитів, оскільки дозволяє читати лише необхідні колонки, значно зменшуючи I/O.
2Яка основна перевага partitioning таблиць у BigQuery?
Яка основна перевага partitioning таблиць у BigQuery?
Відповідь
Partitioning розділяє велику таблицю на менші сегменти на основі колонки (зазвичай дати). Під час запитів BigQuery може пропускати нерелевантні partition (partition pruning), зменшуючи обсяг сканованих даних. Це покращує продуктивність і зменшує витрати, оскільки BigQuery тарифікує за обсягом оброблених даних.
3Які типи partitioning доступні в BigQuery?
Які типи partitioning доступні в BigQuery?
Відповідь
BigQuery підтримує три типи partitioning: за колонкою DATE або TIMESTAMP (найпоширеніший), за діапазоном цілих чисел (INTEGER RANGE) і за часом завантаження (_PARTITIONTIME). Partitioning за датою рекомендується для часових рядів даних, оскільки забезпечує ефективний partition pruning на фільтрах дати.
Яка різниця між partitioning і clustering у BigQuery?
Як оптимізувати витрати на запити в BigQuery?
+17 питань зі співбесід
Інші теми співбесід Data Engineering
Linux & Shell - Основи
Git & GitHub - Основи
Просунутий Python для Data Engineering
Docker - Основи
Google Cloud Platform - Основи
CI/CD та якість коду
Docker Compose
FastAPI - API даних
Просунутий SQL для Data Engineering
Data Lake - Архітектура та завантаження даних
PostgreSQL - Адміністрування
Data Modeling для Data Engineering
Fivetran & Airbyte - Завантаження даних
dbt - Основи
Apache Airflow - Основи
Kubernetes - Основи
dbt - Розширені можливості
Патерни ETL / ELT / ETLT
Apache Airflow - Просунутий
Airflow + dbt - Оркестрація пайплайнів
PySpark - Великомасштабна обробка
Google Pub/Sub - Стрімінг даних
Apache Beam & Dataflow
Kubernetes - Продакшн та масштабування
Terraform - Infrastructure as Code
Бази даних NoSQL
Сучасна Data Architecture
Моніторинг та спостережуваність
IAM та безпека даних
Опануй Data Engineering для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно