
Mẫu ETL / ELT / ETLT
ETL vs ELT vs ETLT, batch vs micro-batch vs streaming, tính idempotent, xử lý lỗi, dead letter queue, chất lượng dữ liệu, lineage
1Sự khác biệt chính giữa ETL và ELT là gì?
Sự khác biệt chính giữa ETL và ELT là gì?
Câu trả lời
Trong ETL (Extract-Transform-Load), dữ liệu được biến đổi trên một server trung gian trước khi được nạp vào đích. Trong ELT (Extract-Load-Transform), dữ liệu thô được nạp trực tiếp vào đích (thường là cloud data warehouse), sau đó được biến đổi trực tiếp trong đó bằng compute power của nó. ELT trở nên phổ biến với các cloud data warehouse như BigQuery, Snowflake hoặc Redshift cung cấp compute power đàn hồi.
2Lợi thế chính của phương pháp ELT so với ETL truyền thống là gì?
Lợi thế chính của phương pháp ELT so với ETL truyền thống là gì?
Câu trả lời
Phương pháp ELT tận dụng compute power đàn hồi của các cloud data warehouse hiện đại (BigQuery, Snowflake, Redshift). Thay vì duy trì cơ sở hạ tầng biến đổi riêng biệt có thể trở thành điểm nghẽn, các biến đổi sử dụng trực tiếp khả năng scaling của data warehouse. Điều này giảm độ phức tạp vận hành và cho phép xử lý khối lượng dữ liệu lớn hơn nhiều mà không cần cung cấp tài nguyên thủ công.
3Mẫu ETLT là gì và khi nào nó phù hợp?
Mẫu ETLT là gì và khi nào nó phù hợp?
Câu trả lời
ETLT kết hợp cả hai phương pháp: một biến đổi nhẹ đầu tiên được thực hiện trong quá trình trích xuất (làm sạch, lọc, ẩn danh), sau đó dữ liệu được nạp và các biến đổi phức tạp hơn được áp dụng trong data warehouse. Mẫu này hữu ích khi một số biến đổi phải được thực hiện ở thượng nguồn vì lý do compliance (che giấu dữ liệu nhạy cảm trước khi nạp), giảm khối lượng (lọc sớm) hoặc chuẩn hóa các định dạng nguồn không đồng nhất.
Tính idempotent trong bối cảnh data pipeline là gì?
Làm thế nào để triển khai tính idempotent khi nạp dữ liệu vào một bảng?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Engineering khác
Linux & Shell - Cơ bản
Git & GitHub - Kiến thức cơ bản
Python nâng cao cho Data Engineering
Docker - Cơ bản
Google Cloud Platform - Cơ bản
CI/CD và chất lượng mã
Docker Compose
FastAPI - API dữ liệu
SQL nâng cao cho Data Engineering
Data Lake - Kiến trúc và nạp dữ liệu
BigQuery cho Data Engineering
PostgreSQL - Quản trị
Data Modeling cho Data Engineering
Fivetran & Airbyte - Nạp dữ liệu
dbt - Kiến thức cơ bản
Apache Airflow - Cơ bản
Kubernetes - Cơ Bản
dbt - Tính năng nâng cao
Apache Airflow - Nâng cao
Airflow + dbt - Điều phối pipeline
PySpark - Xử lý quy mô lớn
Google Pub/Sub - Streaming dữ liệu
Apache Beam & Dataflow
Kubernetes - Production và Scaling
Terraform - Infrastructure as Code
Cơ sở dữ liệu NoSQL
Data Architecture hiện đại
Giám sát và Khả năng quan sát
IAM và Bảo mật Dữ liệu
Nắm vững Data Engineering cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí