Question 1

Data Lake là gì?

Accepted Answer

Data Lake là một hệ thống lưu trữ tập trung có khả năng lưu trữ dữ liệu thô ở định dạng gốc, dù là có cấu trúc, bán cấu trúc hay phi cấu trúc. Không giống Data Warehouse áp đặt schema khi ghi (schema-on-write), Data Lake áp dụng schema khi đọc (schema-on-read), mang lại tính linh hoạt tối đa cho việc khám phá và phân tích dữ liệu.

Question 2

Sự khác biệt chính giữa schema-on-write và schema-on-read là gì?

Accepted Answer

Schema-on-write áp đặt việc xác thực và biến đổi dữ liệu trước khi lưu trữ, đảm bảo cấu trúc nhất quán nhưng hạn chế tính linh hoạt. Schema-on-read lưu trữ dữ liệu ở định dạng thô và chỉ áp dụng schema khi đọc, mang lại tính linh hoạt nạp dữ liệu tối đa nhưng yêu cầu xử lý khi truy cập dữ liệu.

Question 3

Ba vùng cổ điển của một Data Lake là gì?

Accepted Answer

Kiến trúc Data Lake tiêu chuẩn bao gồm ba vùng: Raw (Bronze) cho dữ liệu thô chưa biến đổi, Refined (Silver) cho dữ liệu đã làm sạch và chuẩn hóa, và Curated (Gold) cho dữ liệu tổng hợp sẵn sàng để sử dụng. Tổ chức theo lớp này tạo điều kiện thuận lợi cho quản trị, khả năng truy xuất và chất lượng dữ liệu.

Data Lake - Kiến trúc và nạp dữ liệu

Data Lake là gì?

Câu trả lời

Sự khác biệt chính giữa schema-on-write và schema-on-read là gì?

Câu trả lời

Ba vùng cổ điển của một Data Lake là gì?

Câu trả lời

Vai trò của vùng Raw (Bronze) trong Data Lake là gì?

Định dạng tệp nào phù hợp nhất để lưu trữ dữ liệu phân tích lớn trong Data Lake?

Các chủ đề phỏng vấn Data Engineering khác

Linux & Shell - Cơ bản

Git & GitHub - Kiến thức cơ bản

Python nâng cao cho Data Engineering

Docker - Cơ bản

Google Cloud Platform - Cơ bản

CI/CD và chất lượng mã

Docker Compose

FastAPI - API dữ liệu

SQL nâng cao cho Data Engineering

BigQuery cho Data Engineering

PostgreSQL - Quản trị

Data Modeling cho Data Engineering

Fivetran & Airbyte - Nạp dữ liệu

dbt - Kiến thức cơ bản

Apache Airflow - Cơ bản

Kubernetes - Cơ Bản

dbt - Tính năng nâng cao

Mẫu ETL / ELT / ETLT

Apache Airflow - Nâng cao

Airflow + dbt - Điều phối pipeline

PySpark - Xử lý quy mô lớn

Google Pub/Sub - Streaming dữ liệu

Apache Beam & Dataflow

Kubernetes - Production và Scaling

Terraform - Infrastructure as Code

Cơ sở dữ liệu NoSQL

Data Architecture hiện đại

Giám sát và Khả năng quan sát

IAM và Bảo mật Dữ liệu

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo