Question 1

อะไรคือความแตกต่างหลักระหว่าง Fivetran และ Airbyte ในแง่ของรูปแบบการ deploy?

Accepted Answer

Fivetran เป็นโซลูชัน SaaS แบบ fully managed โดยโครงสร้างพื้นฐานจัดการโดย Fivetran ในขณะที่ Airbyte นำเสนอโมเดล open-source self-hosted นอกเหนือจากบริการ cloud Airbyte ช่วยให้สามารถ deploy โซลูชันบนโครงสร้างพื้นฐานของคุณเอง (Docker, Kubernetes) ให้การควบคุมข้อมูลและต้นทุนได้มากขึ้น ในขณะที่ Fivetran ทำให้การดำเนินงานง่ายขึ้นโดยจัดการการบำรุงรักษาทั้งหมด

Question 2

Connector ในบริบทของ Fivetran หรือ Airbyte คืออะไร?

Accepted Answer

Connector คือ component ที่กำหนดค่าไว้ล่วงหน้าซึ่งดึงข้อมูลจาก source เฉพาะ (database, API, SaaS) ไปยัง destination (data warehouse, data lake) แต่ละ connector จัดการการตรวจสอบสิทธิ์ การแบ่งหน้า การจัดการข้อผิดพลาด และการ map schema สำหรับ source ที่กำหนด หลีกเลี่ยงความจำเป็นในการเขียน custom integration code

Question 3

ความแตกต่างระหว่างการ sync แบบ Full Refresh และ Incremental คืออะไร?

Accepted Answer

Full Refresh ดึงข้อมูลทั้งหมดจาก source ในการ sync แต่ละครั้งและแทนที่ข้อมูลที่มีอยู่ใน destination Incremental ถ่ายโอนเฉพาะข้อมูลใหม่หรือการเปลี่ยนแปลงตั้งแต่การ sync ครั้งล่าสุดโดยใช้ cursor (timestamp, ID auto-increment) Incremental มีประสิทธิภาพมากกว่าในแง่ของเวลา ต้นทุน และโหลดบน source

Fivetran & Airbyte - การนำเข้าข้อมูล

อะไรคือความแตกต่างหลักระหว่าง Fivetran และ Airbyte ในแง่ของรูปแบบการ deploy?

คำตอบ

Connector ในบริบทของ Fivetran หรือ Airbyte คืออะไร?

คำตอบ

ความแตกต่างระหว่างการ sync แบบ Full Refresh และ Incremental คืออะไร?

คำตอบ

CDC (Change Data Capture) คืออะไร และทำไมจึงถูกใช้ในเครื่องมือ ingestion?

CDC ให้ข้อได้เปรียบหลักอะไรเมื่อเทียบกับการ sync แบบ incremental ที่อิงตาม timestamp?

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Git & GitHub - พื้นฐาน

Python ขั้นสูงสำหรับ Data Engineering

Docker - พื้นฐาน

Google Cloud Platform - พื้นฐาน

CI/CD และคุณภาพโค้ด

Docker Compose

FastAPI - Data API

SQL ขั้นสูงสำหรับ Data Engineering

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

BigQuery สำหรับ Data Engineering

PostgreSQL - การดูแลระบบ

Data Modeling สำหรับ Data Engineering

dbt - พื้นฐาน

Apache Airflow - พื้นฐาน

Kubernetes - พื้นฐาน

dbt - ฟีเจอร์ขั้นสูง

รูปแบบ ETL / ELT / ETLT

Apache Airflow - ขั้นสูง

Airflow + dbt - การจัดการ Pipeline

PySpark - การประมวลผลขนาดใหญ่

Google Pub/Sub - การสตรีมข้อมูล

Apache Beam & Dataflow

Kubernetes - Production และ Scaling

Terraform - Infrastructure as Code

ฐานข้อมูล NoSQL

Data Architecture สมัยใหม่

การมอนิเตอร์และการสังเกตการณ์

IAM และความปลอดภัยของข้อมูล

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป