Question 1

BigQuery sử dụng kiến trúc lưu trữ nào?

Accepted Answer

BigQuery sử dụng kiến trúc serverless với lưu trữ dạng cột gọi là Capacitor. Kiến trúc này tách biệt storage và compute, cho phép mở rộng độc lập và tính phí riêng biệt. Lưu trữ dạng cột được tối ưu hóa cho các truy vấn phân tích vì nó cho phép chỉ đọc các cột cần thiết, giảm đáng kể I/O.

Question 2

Lợi ích chính của partitioning bảng trong BigQuery là gì?

Accepted Answer

Partitioning chia một bảng lớn thành các phân đoạn nhỏ hơn dựa trên một cột (thường là ngày). Trong quá trình truy vấn, BigQuery có thể bỏ qua các phân vùng không liên quan (partition pruning), giảm lượng dữ liệu được quét. Điều này cải thiện hiệu suất và giảm chi phí vì BigQuery tính phí dựa trên khối lượng dữ liệu được xử lý.

Question 3

Các loại partitioning nào có sẵn trong BigQuery?

Accepted Answer

BigQuery hỗ trợ ba loại partitioning: theo cột DATE hoặc TIMESTAMP (phổ biến nhất), theo phạm vi số nguyên (INTEGER RANGE), và theo thời gian nhập liệu (_PARTITIONTIME). Partitioning theo ngày được khuyến nghị cho dữ liệu chuỗi thời gian vì nó cho phép partition pruning hiệu quả trên các bộ lọc ngày.

BigQuery cho Data Engineering

BigQuery sử dụng kiến trúc lưu trữ nào?

Câu trả lời

Lợi ích chính của partitioning bảng trong BigQuery là gì?

Câu trả lời

Các loại partitioning nào có sẵn trong BigQuery?

Câu trả lời

Sự khác biệt giữa partitioning và clustering trong BigQuery là gì?

Làm thế nào để tối ưu hóa chi phí truy vấn trong BigQuery?

Các chủ đề phỏng vấn Data Engineering khác

Linux & Shell - Cơ bản

Git & GitHub - Kiến thức cơ bản

Python nâng cao cho Data Engineering

Docker - Cơ bản

Google Cloud Platform - Cơ bản

CI/CD và chất lượng mã

Docker Compose

FastAPI - API dữ liệu

SQL nâng cao cho Data Engineering

Data Lake - Kiến trúc và nạp dữ liệu

PostgreSQL - Quản trị

Data Modeling cho Data Engineering

Fivetran & Airbyte - Nạp dữ liệu

dbt - Kiến thức cơ bản

Apache Airflow - Cơ bản

Kubernetes - Cơ Bản

dbt - Tính năng nâng cao

Mẫu ETL / ELT / ETLT

Apache Airflow - Nâng cao

Airflow + dbt - Điều phối pipeline

PySpark - Xử lý quy mô lớn

Google Pub/Sub - Streaming dữ liệu

Apache Beam & Dataflow

Kubernetes - Production và Scaling

Terraform - Infrastructure as Code

Cơ sở dữ liệu NoSQL

Data Architecture hiện đại

Giám sát và Khả năng quan sát

IAM và Bảo mật Dữ liệu

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo