
Data Architecture hiện đại
Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, quản trị, data catalog, lineage
1Sự khác biệt cơ bản giữa Data Lake và Data Warehouse là gì?
Sự khác biệt cơ bản giữa Data Lake và Data Warehouse là gì?
Câu trả lời
Data Lake lưu trữ dữ liệu ở định dạng gốc (raw) với schema được áp dụng khi đọc (schema-on-read), cho phép tính linh hoạt cao trong khám phá. Data Warehouse áp đặt schema có cấu trúc khi ghi (schema-on-write) với dữ liệu đã được biến đổi và tối ưu hóa cho analytics. Data Lake ưu tiên tính linh hoạt và lưu trữ quy mô lớn với chi phí thấp, trong khi Data Warehouse ưu tiên hiệu suất truy vấn và chất lượng dữ liệu.
2Lợi thế chính của kiến trúc Lakehouse so với các kiến trúc Data Lake và Data Warehouse riêng biệt là gì?
Lợi thế chính của kiến trúc Lakehouse so với các kiến trúc Data Lake và Data Warehouse riêng biệt là gì?
Câu trả lời
Kiến trúc Lakehouse kết hợp những điểm tốt nhất của cả hai thế giới: lưu trữ linh hoạt và tiết kiệm chi phí của Data Lake với khả năng ACID, hiệu suất truy vấn và quản trị của Data Warehouse. Điều này loại bỏ trùng lặp dữ liệu giữa các hệ thống, giảm chi phí và độ phức tạp đồng bộ hóa, đồng thời cho phép workload BI và ML trên cùng một nền tảng bằng cách sử dụng các định dạng mở như Delta Lake, Iceberg hoặc Hudi.
3Định dạng bảng mở nào cho phép các giao dịch ACID trên Data Lake?
Định dạng bảng mở nào cho phép các giao dịch ACID trên Data Lake?
Câu trả lời
Delta Lake, Apache Iceberg và Apache Hudi là ba định dạng bảng mở chính cho phép các giao dịch ACID trên Data Lake. Delta Lake, được phát triển bởi Databricks, sử dụng transaction log để đảm bảo tính nguyên tử và nhất quán. Iceberg, do Netflix tạo ra, cung cấp quản lý phân vùng nâng cao và schema evolution. Hudi, được phát triển bởi Uber, vượt trội trong các kịch bản upsert và CDC. Các định dạng này biến đổi lưu trữ đối tượng đơn giản thành Lakehouse với các đảm bảo giao dịch.
Nguyên tắc cơ bản của Data Mesh là gì?
Data Contract trong bối cảnh Data Mesh là gì?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Engineering khác
Linux & Shell - Cơ bản
Git & GitHub - Kiến thức cơ bản
Python nâng cao cho Data Engineering
Docker - Cơ bản
Google Cloud Platform - Cơ bản
CI/CD và chất lượng mã
Docker Compose
FastAPI - API dữ liệu
SQL nâng cao cho Data Engineering
Data Lake - Kiến trúc và nạp dữ liệu
BigQuery cho Data Engineering
PostgreSQL - Quản trị
Data Modeling cho Data Engineering
Fivetran & Airbyte - Nạp dữ liệu
dbt - Kiến thức cơ bản
Apache Airflow - Cơ bản
Kubernetes - Cơ Bản
dbt - Tính năng nâng cao
Mẫu ETL / ELT / ETLT
Apache Airflow - Nâng cao
Airflow + dbt - Điều phối pipeline
PySpark - Xử lý quy mô lớn
Google Pub/Sub - Streaming dữ liệu
Apache Beam & Dataflow
Kubernetes - Production và Scaling
Terraform - Infrastructure as Code
Cơ sở dữ liệu NoSQL
Giám sát và Khả năng quan sát
IAM và Bảo mật Dữ liệu
Nắm vững Data Engineering cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí