Data Engineering

Fivetran & Airbyte - การนำเข้าข้อมูล

Connector, sync modes (full, incremental), CDC, schema evolution, การแปลงข้อมูล, การมอนิเตอร์

20 คำถามสัมภาษณ์·
Mid-Level
1

อะไรคือความแตกต่างหลักระหว่าง Fivetran และ Airbyte ในแง่ของรูปแบบการ deploy?

คำตอบ

Fivetran เป็นโซลูชัน SaaS แบบ fully managed โดยโครงสร้างพื้นฐานจัดการโดย Fivetran ในขณะที่ Airbyte นำเสนอโมเดล open-source self-hosted นอกเหนือจากบริการ cloud Airbyte ช่วยให้สามารถ deploy โซลูชันบนโครงสร้างพื้นฐานของคุณเอง (Docker, Kubernetes) ให้การควบคุมข้อมูลและต้นทุนได้มากขึ้น ในขณะที่ Fivetran ทำให้การดำเนินงานง่ายขึ้นโดยจัดการการบำรุงรักษาทั้งหมด

2

Connector ในบริบทของ Fivetran หรือ Airbyte คืออะไร?

คำตอบ

Connector คือ component ที่กำหนดค่าไว้ล่วงหน้าซึ่งดึงข้อมูลจาก source เฉพาะ (database, API, SaaS) ไปยัง destination (data warehouse, data lake) แต่ละ connector จัดการการตรวจสอบสิทธิ์ การแบ่งหน้า การจัดการข้อผิดพลาด และการ map schema สำหรับ source ที่กำหนด หลีกเลี่ยงความจำเป็นในการเขียน custom integration code

3

ความแตกต่างระหว่างการ sync แบบ Full Refresh และ Incremental คืออะไร?

คำตอบ

Full Refresh ดึงข้อมูลทั้งหมดจาก source ในการ sync แต่ละครั้งและแทนที่ข้อมูลที่มีอยู่ใน destination Incremental ถ่ายโอนเฉพาะข้อมูลใหม่หรือการเปลี่ยนแปลงตั้งแต่การ sync ครั้งล่าสุดโดยใช้ cursor (timestamp, ID auto-increment) Incremental มีประสิทธิภาพมากกว่าในแง่ของเวลา ต้นทุน และโหลดบน source

4

CDC (Change Data Capture) คืออะไร และทำไมจึงถูกใช้ในเครื่องมือ ingestion?

5

CDC ให้ข้อได้เปรียบหลักอะไรเมื่อเทียบกับการ sync แบบ incremental ที่อิงตาม timestamp?

+17 คำถามสัมภาษณ์

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Junior
20 คำถาม

Git & GitHub - พื้นฐาน

Junior
20 คำถาม

Python ขั้นสูงสำหรับ Data Engineering

Junior
25 คำถาม

Docker - พื้นฐาน

Junior
25 คำถาม

Google Cloud Platform - พื้นฐาน

Junior
20 คำถาม

CI/CD และคุณภาพโค้ด

Mid-Level
20 คำถาม

Docker Compose

Mid-Level
20 คำถาม

FastAPI - Data API

Mid-Level
20 คำถาม

SQL ขั้นสูงสำหรับ Data Engineering

Mid-Level
20 คำถาม

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

Mid-Level
20 คำถาม

BigQuery สำหรับ Data Engineering

Mid-Level
20 คำถาม

PostgreSQL - การดูแลระบบ

Mid-Level
20 คำถาม

Data Modeling สำหรับ Data Engineering

Mid-Level
20 คำถาม

dbt - พื้นฐาน

Mid-Level
20 คำถาม

Apache Airflow - พื้นฐาน

Mid-Level
20 คำถาม

Kubernetes - พื้นฐาน

Mid-Level
20 คำถาม

dbt - ฟีเจอร์ขั้นสูง

Senior
20 คำถาม

รูปแบบ ETL / ELT / ETLT

Senior
20 คำถาม

Apache Airflow - ขั้นสูง

Senior
20 คำถาม

Airflow + dbt - การจัดการ Pipeline

Senior
20 คำถาม

PySpark - การประมวลผลขนาดใหญ่

Senior
20 คำถาม

Google Pub/Sub - การสตรีมข้อมูล

Senior
20 คำถาม

Apache Beam & Dataflow

Senior
20 คำถาม

Kubernetes - Production และ Scaling

Senior
20 คำถาม

Terraform - Infrastructure as Code

Senior
20 คำถาม

ฐานข้อมูล NoSQL

Senior
20 คำถาม

Data Architecture สมัยใหม่

Senior
20 คำถาม

การมอนิเตอร์และการสังเกตการณ์

Senior
20 คำถาม

IAM และความปลอดภัยของข้อมูล

Senior
20 คำถาม

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป

เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์

เริ่มใช้ฟรี