
Data Modeling cho Data Engineering
Star schema, snowflake, Data Vault, chuẩn hóa, các loại SCD, grain, metric cộng được
1Star schema là gì?
Star schema là gì?
Câu trả lời
Star schema là một mô hình dữ liệu chiều, trong đó một fact table trung tâm được bao quanh bởi các dimension table. Fact table chứa các metric và foreign key đến các dimension, các dimension chứa các thuộc tính mô tả. Cấu trúc đơn giản, đã denormalize này tối ưu hóa hiệu suất truy vấn phân tích bằng cách giảm thiểu các join.
2Sự khác biệt giữa fact table và dimension table là gì?
Sự khác biệt giữa fact table và dimension table là gì?
Câu trả lời
Fact table chứa các phép đo định lượng (metric) và foreign key đến các dimension. Nó ghi lại các sự kiện hoặc giao dịch. Dimension table chứa các thuộc tính mô tả (ai, cái gì, ở đâu, khi nào) cho phép lọc và nhóm các fact. Fact là số và có thể tổng hợp, dimension là văn bản và mô tả.
3Grain của fact table là gì?
Grain của fact table là gì?
Câu trả lời
Grain định nghĩa mức độ chi tiết của một dòng trong fact table. Nó trả lời câu hỏi: một dòng thực sự đại diện cho điều gì? Ví dụ, một giao dịch bán hàng mỗi dòng, một giao dịch bán hàng mỗi ngày mỗi sản phẩm, hoặc một giao dịch bán hàng mỗi giờ. Định nghĩa grain là bước đầu tiên trong dimensional modeling vì nó xác định dimension nào cần thiết và mức độ tổng hợp nào được lưu trữ.
Sự khác biệt giữa star schema và snowflake schema là gì?
Conformed dimension là gì?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Engineering khác
Linux & Shell - Cơ bản
Git & GitHub - Kiến thức cơ bản
Python nâng cao cho Data Engineering
Docker - Cơ bản
Google Cloud Platform - Cơ bản
CI/CD và chất lượng mã
Docker Compose
FastAPI - API dữ liệu
SQL nâng cao cho Data Engineering
Data Lake - Kiến trúc và nạp dữ liệu
BigQuery cho Data Engineering
PostgreSQL - Quản trị
Fivetran & Airbyte - Nạp dữ liệu
dbt - Kiến thức cơ bản
Apache Airflow - Cơ bản
Kubernetes - Cơ Bản
dbt - Tính năng nâng cao
Mẫu ETL / ELT / ETLT
Apache Airflow - Nâng cao
Airflow + dbt - Điều phối pipeline
PySpark - Xử lý quy mô lớn
Google Pub/Sub - Streaming dữ liệu
Apache Beam & Dataflow
Kubernetes - Production và Scaling
Terraform - Infrastructure as Code
Cơ sở dữ liệu NoSQL
Data Architecture hiện đại
Giám sát và Khả năng quan sát
IAM và Bảo mật Dữ liệu
Nắm vững Data Engineering cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí