
Data Lake - Kiến trúc và nạp dữ liệu
Kiến trúc Data Lake, vùng (raw/refined/curated), định dạng (Parquet, Avro, JSON), nạp dữ liệu, phân vùng
1Data Lake là gì?
Data Lake là gì?
Câu trả lời
Data Lake là một hệ thống lưu trữ tập trung có khả năng lưu trữ dữ liệu thô ở định dạng gốc, dù là có cấu trúc, bán cấu trúc hay phi cấu trúc. Không giống Data Warehouse áp đặt schema khi ghi (schema-on-write), Data Lake áp dụng schema khi đọc (schema-on-read), mang lại tính linh hoạt tối đa cho việc khám phá và phân tích dữ liệu.
2Sự khác biệt chính giữa schema-on-write và schema-on-read là gì?
Sự khác biệt chính giữa schema-on-write và schema-on-read là gì?
Câu trả lời
Schema-on-write áp đặt việc xác thực và biến đổi dữ liệu trước khi lưu trữ, đảm bảo cấu trúc nhất quán nhưng hạn chế tính linh hoạt. Schema-on-read lưu trữ dữ liệu ở định dạng thô và chỉ áp dụng schema khi đọc, mang lại tính linh hoạt nạp dữ liệu tối đa nhưng yêu cầu xử lý khi truy cập dữ liệu.
3Ba vùng cổ điển của một Data Lake là gì?
Ba vùng cổ điển của một Data Lake là gì?
Câu trả lời
Kiến trúc Data Lake tiêu chuẩn bao gồm ba vùng: Raw (Bronze) cho dữ liệu thô chưa biến đổi, Refined (Silver) cho dữ liệu đã làm sạch và chuẩn hóa, và Curated (Gold) cho dữ liệu tổng hợp sẵn sàng để sử dụng. Tổ chức theo lớp này tạo điều kiện thuận lợi cho quản trị, khả năng truy xuất và chất lượng dữ liệu.
Vai trò của vùng Raw (Bronze) trong Data Lake là gì?
Định dạng tệp nào phù hợp nhất để lưu trữ dữ liệu phân tích lớn trong Data Lake?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Engineering khác
Linux & Shell - Cơ bản
Git & GitHub - Kiến thức cơ bản
Python nâng cao cho Data Engineering
Docker - Cơ bản
Google Cloud Platform - Cơ bản
CI/CD và chất lượng mã
Docker Compose
FastAPI - API dữ liệu
SQL nâng cao cho Data Engineering
BigQuery cho Data Engineering
PostgreSQL - Quản trị
Data Modeling cho Data Engineering
Fivetran & Airbyte - Nạp dữ liệu
dbt - Kiến thức cơ bản
Apache Airflow - Cơ bản
Kubernetes - Cơ Bản
dbt - Tính năng nâng cao
Mẫu ETL / ELT / ETLT
Apache Airflow - Nâng cao
Airflow + dbt - Điều phối pipeline
PySpark - Xử lý quy mô lớn
Google Pub/Sub - Streaming dữ liệu
Apache Beam & Dataflow
Kubernetes - Production và Scaling
Terraform - Infrastructure as Code
Cơ sở dữ liệu NoSQL
Data Architecture hiện đại
Giám sát và Khả năng quan sát
IAM và Bảo mật Dữ liệu
Nắm vững Data Engineering cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí