Question 1

ความแตกต่างพื้นฐานระหว่าง Data Lake และ Data Warehouse คืออะไร?

Accepted Answer

Data Lake เก็บข้อมูลในรูปแบบดั้งเดิม (raw) โดยใช้ schema เมื่ออ่าน (schema-on-read) ทำให้มีความยืดหยุ่นสูงในการสำรวจข้อมูล Data Warehouse บังคับใช้ schema ที่มีโครงสร้างเมื่อเขียน (schema-on-write) พร้อมข้อมูลที่ถูกแปลงและเพิ่มประสิทธิภาพสำหรับการวิเคราะห์ Data Lake เน้นความยืดหยุ่นและการจัดเก็บขนาดใหญ่ต้นทุนต่ำ ในขณะที่ Data Warehouse เน้นประสิทธิภาพการ query และคุณภาพข้อมูล

Question 2

ข้อได้เปรียบหลักของสถาปัตยกรรม Lakehouse เมื่อเทียบกับสถาปัตยกรรม Data Lake และ Data Warehouse แยกกันคืออะไร?

Accepted Answer

สถาปัตยกรรม Lakehouse รวมจุดเด่นของทั้งสองโลก: การจัดเก็บที่ยืดหยุ่นและคุ้มค่าของ Data Lake พร้อมกับความสามารถ ACID ประสิทธิภาพ query และการกำกับดูแลของ Data Warehouse ซึ่งช่วยขจัดการซ้ำซ้อนข้อมูลระหว่างระบบ ลดต้นทุนและความซับซ้อนในการ sync ในขณะที่เปิดใช้งาน workload BI และ ML บนแพลตฟอร์มเดียวกันโดยใช้รูปแบบเปิดเช่น Delta Lake, Iceberg หรือ Hudi

Question 3

รูปแบบตารางแบบเปิดใดที่เปิดใช้งานธุรกรรม ACID บน Data Lake?

Accepted Answer

Delta Lake, Apache Iceberg และ Apache Hudi เป็นสามรูปแบบตารางแบบเปิดหลักที่เปิดใช้งานธุรกรรม ACID บน Data Lake Delta Lake พัฒนาโดย Databricks ใช้ transaction log เพื่อรับประกัน atomicity และ consistency Iceberg ที่สร้างโดย Netflix นำเสนอการจัดการพาร์ติชันขั้นสูงและ schema evolution Hudi พัฒนาโดย Uber โดดเด่นในสถานการณ์ upsert และ CDC รูปแบบเหล่านี้แปลงการจัดเก็บ object แบบง่ายให้เป็น Lakehouse พร้อมการรับประกันธุรกรรม

Data Architecture สมัยใหม่

ความแตกต่างพื้นฐานระหว่าง Data Lake และ Data Warehouse คืออะไร?

คำตอบ

ข้อได้เปรียบหลักของสถาปัตยกรรม Lakehouse เมื่อเทียบกับสถาปัตยกรรม Data Lake และ Data Warehouse แยกกันคืออะไร?

คำตอบ

รูปแบบตารางแบบเปิดใดที่เปิดใช้งานธุรกรรม ACID บน Data Lake?

คำตอบ

หลักการพื้นฐานของ Data Mesh คืออะไร?

Data Contract ในบริบทของ Data Mesh คืออะไร?

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Git & GitHub - พื้นฐาน

Python ขั้นสูงสำหรับ Data Engineering

Docker - พื้นฐาน

Google Cloud Platform - พื้นฐาน

CI/CD และคุณภาพโค้ด

Docker Compose

FastAPI - Data API

SQL ขั้นสูงสำหรับ Data Engineering

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

BigQuery สำหรับ Data Engineering

PostgreSQL - การดูแลระบบ

Data Modeling สำหรับ Data Engineering

Fivetran & Airbyte - การนำเข้าข้อมูล

dbt - พื้นฐาน

Apache Airflow - พื้นฐาน

Kubernetes - พื้นฐาน

dbt - ฟีเจอร์ขั้นสูง

รูปแบบ ETL / ELT / ETLT

Apache Airflow - ขั้นสูง

Airflow + dbt - การจัดการ Pipeline

PySpark - การประมวลผลขนาดใหญ่

Google Pub/Sub - การสตรีมข้อมูล

Apache Beam & Dataflow

Kubernetes - Production และ Scaling

Terraform - Infrastructure as Code

ฐานข้อมูล NoSQL

การมอนิเตอร์และการสังเกตการณ์

IAM และความปลอดภัยของข้อมูล

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป