Data Engineering

Mẫu ETL / ELT / ETLT

ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, tính idempotent, xử lý lỗi, dead letter queue, chất lượng dữ liệu, lineage

20 câu hỏi phỏng vấn·
Senior
1

Sự khác biệt chính giữa ETL và ELT là gì?

Câu trả lời

Trong ETL (Extract-Transform-Load), dữ liệu được biến đổi trên một server trung gian trước khi được nạp vào đích. Trong ELT (Extract-Load-Transform), dữ liệu thô được nạp trực tiếp vào đích (thường là cloud data warehouse), sau đó được biến đổi trực tiếp trong đó bằng compute power của nó. ELT trở nên phổ biến với các cloud data warehouse như BigQuery, Snowflake hoặc Redshift cung cấp compute power đàn hồi.

2

Lợi thế chính của phương pháp ELT so với ETL truyền thống là gì?

Câu trả lời

Phương pháp ELT tận dụng compute power đàn hồi của các cloud data warehouse hiện đại (BigQuery, Snowflake, Redshift). Thay vì duy trì cơ sở hạ tầng biến đổi riêng biệt có thể trở thành điểm nghẽn, các biến đổi sử dụng trực tiếp khả năng scaling của data warehouse. Điều này giảm độ phức tạp vận hành và cho phép xử lý khối lượng dữ liệu lớn hơn nhiều mà không cần cung cấp tài nguyên thủ công.

3

Mẫu ETLT là gì và khi nào nó phù hợp?

Câu trả lời

ETLT kết hợp cả hai phương pháp: một biến đổi nhẹ đầu tiên được thực hiện trong quá trình trích xuất (làm sạch, lọc, ẩn danh), sau đó dữ liệu được nạp và các biến đổi phức tạp hơn được áp dụng trong data warehouse. Mẫu này hữu ích khi một số biến đổi phải được thực hiện ở thượng nguồn vì lý do compliance (che giấu dữ liệu nhạy cảm trước khi nạp), giảm khối lượng (lọc sớm) hoặc chuẩn hóa các định dạng nguồn không đồng nhất.

4

Tính idempotent trong bối cảnh data pipeline là gì?

5

Làm thế nào để triển khai tính idempotent khi nạp dữ liệu vào một bảng?

+17 câu hỏi phỏng vấn

Các chủ đề phỏng vấn Data Engineering khác

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí