
Fivetran & Airbyte - การนำเข้าข้อมูล
Connector, sync modes (full, incremental), CDC, schema evolution, การแปลงข้อมูล, การมอนิเตอร์
1อะไรคือความแตกต่างหลักระหว่าง Fivetran และ Airbyte ในแง่ของรูปแบบการ deploy?
อะไรคือความแตกต่างหลักระหว่าง Fivetran และ Airbyte ในแง่ของรูปแบบการ deploy?
คำตอบ
Fivetran เป็นโซลูชัน SaaS แบบ fully managed โดยโครงสร้างพื้นฐานจัดการโดย Fivetran ในขณะที่ Airbyte นำเสนอโมเดล open-source self-hosted นอกเหนือจากบริการ cloud Airbyte ช่วยให้สามารถ deploy โซลูชันบนโครงสร้างพื้นฐานของคุณเอง (Docker, Kubernetes) ให้การควบคุมข้อมูลและต้นทุนได้มากขึ้น ในขณะที่ Fivetran ทำให้การดำเนินงานง่ายขึ้นโดยจัดการการบำรุงรักษาทั้งหมด
2Connector ในบริบทของ Fivetran หรือ Airbyte คืออะไร?
Connector ในบริบทของ Fivetran หรือ Airbyte คืออะไร?
คำตอบ
Connector คือ component ที่กำหนดค่าไว้ล่วงหน้าซึ่งดึงข้อมูลจาก source เฉพาะ (database, API, SaaS) ไปยัง destination (data warehouse, data lake) แต่ละ connector จัดการการตรวจสอบสิทธิ์ การแบ่งหน้า การจัดการข้อผิดพลาด และการ map schema สำหรับ source ที่กำหนด หลีกเลี่ยงความจำเป็นในการเขียน custom integration code
3ความแตกต่างระหว่างการ sync แบบ Full Refresh และ Incremental คืออะไร?
ความแตกต่างระหว่างการ sync แบบ Full Refresh และ Incremental คืออะไร?
คำตอบ
Full Refresh ดึงข้อมูลทั้งหมดจาก source ในการ sync แต่ละครั้งและแทนที่ข้อมูลที่มีอยู่ใน destination Incremental ถ่ายโอนเฉพาะข้อมูลใหม่หรือการเปลี่ยนแปลงตั้งแต่การ sync ครั้งล่าสุดโดยใช้ cursor (timestamp, ID auto-increment) Incremental มีประสิทธิภาพมากกว่าในแง่ของเวลา ต้นทุน และโหลดบน source
CDC (Change Data Capture) คืออะไร และทำไมจึงถูกใช้ในเครื่องมือ ingestion?
CDC ให้ข้อได้เปรียบหลักอะไรเมื่อเทียบกับการ sync แบบ incremental ที่อิงตาม timestamp?
+17 คำถามสัมภาษณ์
หัวข้อสัมภาษณ์ Data Engineering อื่นๆ
Linux & Shell - พื้นฐาน
Git & GitHub - พื้นฐาน
Python ขั้นสูงสำหรับ Data Engineering
Docker - พื้นฐาน
Google Cloud Platform - พื้นฐาน
CI/CD และคุณภาพโค้ด
Docker Compose
FastAPI - Data API
SQL ขั้นสูงสำหรับ Data Engineering
Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล
BigQuery สำหรับ Data Engineering
PostgreSQL - การดูแลระบบ
Data Modeling สำหรับ Data Engineering
dbt - พื้นฐาน
Apache Airflow - พื้นฐาน
Kubernetes - พื้นฐาน
dbt - ฟีเจอร์ขั้นสูง
รูปแบบ ETL / ELT / ETLT
Apache Airflow - ขั้นสูง
Airflow + dbt - การจัดการ Pipeline
PySpark - การประมวลผลขนาดใหญ่
Google Pub/Sub - การสตรีมข้อมูล
Apache Beam & Dataflow
Kubernetes - Production และ Scaling
Terraform - Infrastructure as Code
ฐานข้อมูล NoSQL
Data Architecture สมัยใหม่
การมอนิเตอร์และการสังเกตการณ์
IAM และความปลอดภัยของข้อมูล
เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป
เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์
เริ่มใช้ฟรี