Data Engineering

Data Lake - Kiến trúc và nạp dữ liệu

Kiến trúc Data Lake, vùng (raw/refined/curated), định dạng (Parquet, Avro, JSON), nạp dữ liệu, phân vùng

20 câu hỏi phỏng vấn·
Mid-Level
1

Data Lake là gì?

Câu trả lời

Data Lake là một hệ thống lưu trữ tập trung có khả năng lưu trữ dữ liệu thô ở định dạng gốc, dù là có cấu trúc, bán cấu trúc hay phi cấu trúc. Không giống Data Warehouse áp đặt schema khi ghi (schema-on-write), Data Lake áp dụng schema khi đọc (schema-on-read), mang lại tính linh hoạt tối đa cho việc khám phá và phân tích dữ liệu.

2

Sự khác biệt chính giữa schema-on-write và schema-on-read là gì?

Câu trả lời

Schema-on-write áp đặt việc xác thực và biến đổi dữ liệu trước khi lưu trữ, đảm bảo cấu trúc nhất quán nhưng hạn chế tính linh hoạt. Schema-on-read lưu trữ dữ liệu ở định dạng thô và chỉ áp dụng schema khi đọc, mang lại tính linh hoạt nạp dữ liệu tối đa nhưng yêu cầu xử lý khi truy cập dữ liệu.

3

Ba vùng cổ điển của một Data Lake là gì?

Câu trả lời

Kiến trúc Data Lake tiêu chuẩn bao gồm ba vùng: Raw (Bronze) cho dữ liệu thô chưa biến đổi, Refined (Silver) cho dữ liệu đã làm sạch và chuẩn hóa, và Curated (Gold) cho dữ liệu tổng hợp sẵn sàng để sử dụng. Tổ chức theo lớp này tạo điều kiện thuận lợi cho quản trị, khả năng truy xuất và chất lượng dữ liệu.

4

Vai trò của vùng Raw (Bronze) trong Data Lake là gì?

5

Định dạng tệp nào phù hợp nhất để lưu trữ dữ liệu phân tích lớn trong Data Lake?

+17 câu hỏi phỏng vấn

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí