
Fivetran & Airbyte - Nạp dữ liệu
Connector, sync modes (full, incremental), CDC, schema evolution, biến đổi, giám sát
1Sự khác biệt chính giữa Fivetran và Airbyte về mô hình triển khai là gì?
Sự khác biệt chính giữa Fivetran và Airbyte về mô hình triển khai là gì?
Câu trả lời
Fivetran là giải pháp SaaS được quản lý hoàn toàn, nơi hạ tầng được Fivetran quản lý, trong khi Airbyte cung cấp mô hình open-source self-hosted bên cạnh dịch vụ cloud. Airbyte cho phép triển khai giải pháp trên hạ tầng của riêng bạn (Docker, Kubernetes), cung cấp khả năng kiểm soát tốt hơn về dữ liệu và chi phí, trong khi Fivetran đơn giản hóa vận hành bằng cách quản lý toàn bộ bảo trì.
2Connector trong bối cảnh của Fivetran hoặc Airbyte là gì?
Connector trong bối cảnh của Fivetran hoặc Airbyte là gì?
Câu trả lời
Connector là một thành phần được cấu hình sẵn để trích xuất dữ liệu từ một nguồn cụ thể (cơ sở dữ liệu, API, SaaS) đến một điểm đích (data warehouse, data lake). Mỗi connector xử lý xác thực, phân trang, xử lý lỗi và ánh xạ schema cho một nguồn nhất định, tránh phải viết mã tích hợp tùy chỉnh.
3Sự khác biệt giữa đồng bộ Full Refresh và Incremental là gì?
Sự khác biệt giữa đồng bộ Full Refresh và Incremental là gì?
Câu trả lời
Full Refresh trích xuất toàn bộ dữ liệu từ nguồn tại mỗi lần đồng bộ và thay thế dữ liệu hiện có ở đích. Incremental chỉ chuyển dữ liệu mới hoặc các thay đổi kể từ lần đồng bộ cuối, sử dụng cursor (timestamp, ID tự tăng). Incremental hiệu quả hơn về thời gian, chi phí và tải trên nguồn.
CDC (Change Data Capture) là gì và tại sao nó được sử dụng trong các công cụ ingestion?
Ưu điểm chính nào CDC mang lại so với đồng bộ tăng dần dựa trên timestamp?
+17 câu hỏi phỏng vấn
Các chủ đề phỏng vấn Data Engineering khác
Linux & Shell - Cơ bản
Git & GitHub - Kiến thức cơ bản
Python nâng cao cho Data Engineering
Docker - Cơ bản
Google Cloud Platform - Cơ bản
CI/CD và chất lượng mã
Docker Compose
FastAPI - API dữ liệu
SQL nâng cao cho Data Engineering
Data Lake - Kiến trúc và nạp dữ liệu
BigQuery cho Data Engineering
PostgreSQL - Quản trị
Data Modeling cho Data Engineering
dbt - Kiến thức cơ bản
Apache Airflow - Cơ bản
Kubernetes - Cơ Bản
dbt - Tính năng nâng cao
Mẫu ETL / ELT / ETLT
Apache Airflow - Nâng cao
Airflow + dbt - Điều phối pipeline
PySpark - Xử lý quy mô lớn
Google Pub/Sub - Streaming dữ liệu
Apache Beam & Dataflow
Kubernetes - Production và Scaling
Terraform - Infrastructure as Code
Cơ sở dữ liệu NoSQL
Data Architecture hiện đại
Giám sát và Khả năng quan sát
IAM và Bảo mật Dữ liệu
Nắm vững Data Engineering cho lần phỏng vấn tiếp theo
Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.
Bắt đầu miễn phí