Data Engineering

Fivetran & Airbyte - Nạp dữ liệu

Connector, sync modes (full, incremental), CDC, schema evolution, biến đổi, giám sát

20 câu hỏi phỏng vấn·
Mid-Level
1

Sự khác biệt chính giữa Fivetran và Airbyte về mô hình triển khai là gì?

Câu trả lời

Fivetran là giải pháp SaaS được quản lý hoàn toàn, nơi hạ tầng được Fivetran quản lý, trong khi Airbyte cung cấp mô hình open-source self-hosted bên cạnh dịch vụ cloud. Airbyte cho phép triển khai giải pháp trên hạ tầng của riêng bạn (Docker, Kubernetes), cung cấp khả năng kiểm soát tốt hơn về dữ liệu và chi phí, trong khi Fivetran đơn giản hóa vận hành bằng cách quản lý toàn bộ bảo trì.

2

Connector trong bối cảnh của Fivetran hoặc Airbyte là gì?

Câu trả lời

Connector là một thành phần được cấu hình sẵn để trích xuất dữ liệu từ một nguồn cụ thể (cơ sở dữ liệu, API, SaaS) đến một điểm đích (data warehouse, data lake). Mỗi connector xử lý xác thực, phân trang, xử lý lỗi và ánh xạ schema cho một nguồn nhất định, tránh phải viết mã tích hợp tùy chỉnh.

3

Sự khác biệt giữa đồng bộ Full Refresh và Incremental là gì?

Câu trả lời

Full Refresh trích xuất toàn bộ dữ liệu từ nguồn tại mỗi lần đồng bộ và thay thế dữ liệu hiện có ở đích. Incremental chỉ chuyển dữ liệu mới hoặc các thay đổi kể từ lần đồng bộ cuối, sử dụng cursor (timestamp, ID tự tăng). Incremental hiệu quả hơn về thời gian, chi phí và tải trên nguồn.

4

CDC (Change Data Capture) là gì và tại sao nó được sử dụng trong các công cụ ingestion?

5

Ưu điểm chính nào CDC mang lại so với đồng bộ tăng dần dựa trên timestamp?

+17 câu hỏi phỏng vấn

Nắm vững Data Engineering cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí