Data Engineering

Data Architecture hiện đại

Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, quản trị, data catalog, lineage

20 câu hỏi phỏng vấn·
Senior
1

Sự khác biệt cơ bản giữa Data Lake và Data Warehouse là gì?

Câu trả lời

Data Lake lưu trữ dữ liệu ở định dạng gốc (raw) với schema được áp dụng khi đọc (schema-on-read), cho phép tính linh hoạt cao trong khám phá. Data Warehouse áp đặt schema có cấu trúc khi ghi (schema-on-write) với dữ liệu đã được biến đổi và tối ưu hóa cho analytics. Data Lake ưu tiên tính linh hoạt và lưu trữ quy mô lớn với chi phí thấp, trong khi Data Warehouse ưu tiên hiệu suất truy vấn và chất lượng dữ liệu.

2

Lợi thế chính của kiến trúc Lakehouse so với các kiến trúc Data Lake và Data Warehouse riêng biệt là gì?

Câu trả lời

Kiến trúc Lakehouse kết hợp những điểm tốt nhất của cả hai thế giới: lưu trữ linh hoạt và tiết kiệm chi phí của Data Lake với khả năng ACID, hiệu suất truy vấn và quản trị của Data Warehouse. Điều này loại bỏ trùng lặp dữ liệu giữa các hệ thống, giảm chi phí và độ phức tạp đồng bộ hóa, đồng thời cho phép workload BI và ML trên cùng một nền tảng bằng cách sử dụng các định dạng mở như Delta Lake, Iceberg hoặc Hudi.

3

Định dạng bảng mở nào cho phép các giao dịch ACID trên Data Lake?

Câu trả lời

Delta Lake, Apache Iceberg và Apache Hudi là ba định dạng bảng mở chính cho phép các giao dịch ACID trên Data Lake. Delta Lake, được phát triển bởi Databricks, sử dụng transaction log để đảm bảo tính nguyên tử và nhất quán. Iceberg, do Netflix tạo ra, cung cấp quản lý phân vùng nâng cao và schema evolution. Hudi, được phát triển bởi Uber, vượt trội trong các kịch bản upsert và CDC. Các định dạng này biến đổi lưu trữ đối tượng đơn giản thành Lakehouse với các đảm bảo giao dịch.

4

Nguyên tắc cơ bản của Data Mesh là gì?

5

Data Contract trong bối cảnh Data Mesh là gì?

+17 câu hỏi phỏng vấn

Các chủ đề phỏng vấn Data Engineering khác

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí