
BigQuery cho Data Engineering
Kiến trúc serverless, partitioning, clustering, chi phí, UDFs, federated queries, scheduled queries, materialized views
1BigQuery sử dụng kiến trúc lưu trữ nào?
BigQuery sử dụng kiến trúc lưu trữ nào?
Câu trả lời
BigQuery sử dụng kiến trúc serverless với lưu trữ dạng cột gọi là Capacitor. Kiến trúc này tách biệt storage và compute, cho phép mở rộng độc lập và tính phí riêng biệt. Lưu trữ dạng cột được tối ưu hóa cho các truy vấn phân tích vì nó cho phép chỉ đọc các cột cần thiết, giảm đáng kể I/O.
2Lợi ích chính của partitioning bảng trong BigQuery là gì?
Lợi ích chính của partitioning bảng trong BigQuery là gì?
Câu trả lời
Partitioning chia một bảng lớn thành các phân đoạn nhỏ hơn dựa trên một cột (thường là ngày). Trong quá trình truy vấn, BigQuery có thể bỏ qua các phân vùng không liên quan (partition pruning), giảm lượng dữ liệu được quét. Điều này cải thiện hiệu suất và giảm chi phí vì BigQuery tính phí dựa trên khối lượng dữ liệu được xử lý.
3Các loại partitioning nào có sẵn trong BigQuery?
Các loại partitioning nào có sẵn trong BigQuery?
Câu trả lời
BigQuery hỗ trợ ba loại partitioning: theo cột DATE hoặc TIMESTAMP (phổ biến nhất), theo phạm vi số nguyên (INTEGER RANGE), và theo thời gian nhập liệu (_PARTITIONTIME). Partitioning theo ngày được khuyến nghị cho dữ liệu chuỗi thời gian vì nó cho phép partition pruning hiệu quả trên các bộ lọc ngày.
Sự khác biệt giữa partitioning và clustering trong BigQuery là gì?
Làm thế nào để tối ưu hóa chi phí truy vấn trong BigQuery?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Engineering khác
Linux & Shell - Cơ bản
Git & GitHub - Kiến thức cơ bản
Python nâng cao cho Data Engineering
Docker - Cơ bản
Google Cloud Platform - Cơ bản
CI/CD và chất lượng mã
Docker Compose
FastAPI - API dữ liệu
SQL nâng cao cho Data Engineering
Data Lake - Kiến trúc và nạp dữ liệu
PostgreSQL - Quản trị
Data Modeling cho Data Engineering
Fivetran & Airbyte - Nạp dữ liệu
dbt - Kiến thức cơ bản
Apache Airflow - Cơ bản
Kubernetes - Cơ Bản
dbt - Tính năng nâng cao
Mẫu ETL / ELT / ETLT
Apache Airflow - Nâng cao
Airflow + dbt - Điều phối pipeline
PySpark - Xử lý quy mô lớn
Google Pub/Sub - Streaming dữ liệu
Apache Beam & Dataflow
Kubernetes - Production và Scaling
Terraform - Infrastructure as Code
Cơ sở dữ liệu NoSQL
Data Architecture hiện đại
Giám sát và Khả năng quan sát
IAM và Bảo mật Dữ liệu
Nắm vững Data Engineering cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí