Question 1

Sự khác biệt chính giữa ETL và ELT là gì?

Accepted Answer

Trong ETL (Extract-Transform-Load), dữ liệu được biến đổi trên một server trung gian trước khi được nạp vào đích. Trong ELT (Extract-Load-Transform), dữ liệu thô được nạp trực tiếp vào đích (thường là cloud data warehouse), sau đó được biến đổi trực tiếp trong đó bằng compute power của nó. ELT trở nên phổ biến với các cloud data warehouse như BigQuery, Snowflake hoặc Redshift cung cấp compute power đàn hồi.

Question 2

Lợi thế chính của phương pháp ELT so với ETL truyền thống là gì?

Accepted Answer

Phương pháp ELT tận dụng compute power đàn hồi của các cloud data warehouse hiện đại (BigQuery, Snowflake, Redshift). Thay vì duy trì cơ sở hạ tầng biến đổi riêng biệt có thể trở thành điểm nghẽn, các biến đổi sử dụng trực tiếp khả năng scaling của data warehouse. Điều này giảm độ phức tạp vận hành và cho phép xử lý khối lượng dữ liệu lớn hơn nhiều mà không cần cung cấp tài nguyên thủ công.

Question 3

Mẫu ETLT là gì và khi nào nó phù hợp?

Accepted Answer

ETLT kết hợp cả hai phương pháp: một biến đổi nhẹ đầu tiên được thực hiện trong quá trình trích xuất (làm sạch, lọc, ẩn danh), sau đó dữ liệu được nạp và các biến đổi phức tạp hơn được áp dụng trong data warehouse. Mẫu này hữu ích khi một số biến đổi phải được thực hiện ở thượng nguồn vì lý do compliance (che giấu dữ liệu nhạy cảm trước khi nạp), giảm khối lượng (lọc sớm) hoặc chuẩn hóa các định dạng nguồn không đồng nhất.

Mẫu ETL / ELT / ETLT

Sự khác biệt chính giữa ETL và ELT là gì?

Câu trả lời

Lợi thế chính của phương pháp ELT so với ETL truyền thống là gì?

Câu trả lời

Mẫu ETLT là gì và khi nào nó phù hợp?

Câu trả lời

Tính idempotent trong bối cảnh data pipeline là gì?

Làm thế nào để triển khai tính idempotent khi nạp dữ liệu vào một bảng?

Các chủ đề phỏng vấn Data Engineering khác

Linux & Shell - Cơ bản

Git & GitHub - Kiến thức cơ bản

Python nâng cao cho Data Engineering

Docker - Cơ bản

Google Cloud Platform - Cơ bản

CI/CD và chất lượng mã

Docker Compose

FastAPI - API dữ liệu

SQL nâng cao cho Data Engineering

Data Lake - Kiến trúc và nạp dữ liệu

BigQuery cho Data Engineering

PostgreSQL - Quản trị

Data Modeling cho Data Engineering

Fivetran & Airbyte - Nạp dữ liệu

dbt - Kiến thức cơ bản

Apache Airflow - Cơ bản

Kubernetes - Cơ Bản

dbt - Tính năng nâng cao

Apache Airflow - Nâng cao

Airflow + dbt - Điều phối pipeline

PySpark - Xử lý quy mô lớn

Google Pub/Sub - Streaming dữ liệu

Apache Beam & Dataflow

Kubernetes - Production và Scaling

Terraform - Infrastructure as Code

Cơ sở dữ liệu NoSQL

Data Architecture hiện đại

Giám sát và Khả năng quan sát

IAM và Bảo mật Dữ liệu

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo