Data Engineering

Data Architecture สมัยใหม่

Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, การกำกับดูแล, data catalog, lineage

20 คำถามสัมภาษณ์·
Senior
1

ความแตกต่างพื้นฐานระหว่าง Data Lake และ Data Warehouse คืออะไร?

คำตอบ

Data Lake เก็บข้อมูลในรูปแบบดั้งเดิม (raw) โดยใช้ schema เมื่ออ่าน (schema-on-read) ทำให้มีความยืดหยุ่นสูงในการสำรวจข้อมูล Data Warehouse บังคับใช้ schema ที่มีโครงสร้างเมื่อเขียน (schema-on-write) พร้อมข้อมูลที่ถูกแปลงและเพิ่มประสิทธิภาพสำหรับการวิเคราะห์ Data Lake เน้นความยืดหยุ่นและการจัดเก็บขนาดใหญ่ต้นทุนต่ำ ในขณะที่ Data Warehouse เน้นประสิทธิภาพการ query และคุณภาพข้อมูล

2

ข้อได้เปรียบหลักของสถาปัตยกรรม Lakehouse เมื่อเทียบกับสถาปัตยกรรม Data Lake และ Data Warehouse แยกกันคืออะไร?

คำตอบ

สถาปัตยกรรม Lakehouse รวมจุดเด่นของทั้งสองโลก: การจัดเก็บที่ยืดหยุ่นและคุ้มค่าของ Data Lake พร้อมกับความสามารถ ACID ประสิทธิภาพ query และการกำกับดูแลของ Data Warehouse ซึ่งช่วยขจัดการซ้ำซ้อนข้อมูลระหว่างระบบ ลดต้นทุนและความซับซ้อนในการ sync ในขณะที่เปิดใช้งาน workload BI และ ML บนแพลตฟอร์มเดียวกันโดยใช้รูปแบบเปิดเช่น Delta Lake, Iceberg หรือ Hudi

3

รูปแบบตารางแบบเปิดใดที่เปิดใช้งานธุรกรรม ACID บน Data Lake?

คำตอบ

Delta Lake, Apache Iceberg และ Apache Hudi เป็นสามรูปแบบตารางแบบเปิดหลักที่เปิดใช้งานธุรกรรม ACID บน Data Lake Delta Lake พัฒนาโดย Databricks ใช้ transaction log เพื่อรับประกัน atomicity และ consistency Iceberg ที่สร้างโดย Netflix นำเสนอการจัดการพาร์ติชันขั้นสูงและ schema evolution Hudi พัฒนาโดย Uber โดดเด่นในสถานการณ์ upsert และ CDC รูปแบบเหล่านี้แปลงการจัดเก็บ object แบบง่ายให้เป็น Lakehouse พร้อมการรับประกันธุรกรรม

4

หลักการพื้นฐานของ Data Mesh คืออะไร?

5

Data Contract ในบริบทของ Data Mesh คืออะไร?

+17 คำถามสัมภาษณ์

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Junior
20 คำถาม

Git & GitHub - พื้นฐาน

Junior
20 คำถาม

Python ขั้นสูงสำหรับ Data Engineering

Junior
25 คำถาม

Docker - พื้นฐาน

Junior
25 คำถาม

Google Cloud Platform - พื้นฐาน

Junior
20 คำถาม

CI/CD และคุณภาพโค้ด

Mid-Level
20 คำถาม

Docker Compose

Mid-Level
20 คำถาม

FastAPI - Data API

Mid-Level
20 คำถาม

SQL ขั้นสูงสำหรับ Data Engineering

Mid-Level
20 คำถาม

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

Mid-Level
20 คำถาม

BigQuery สำหรับ Data Engineering

Mid-Level
20 คำถาม

PostgreSQL - การดูแลระบบ

Mid-Level
20 คำถาม

Data Modeling สำหรับ Data Engineering

Mid-Level
20 คำถาม

Fivetran & Airbyte - การนำเข้าข้อมูล

Mid-Level
20 คำถาม

dbt - พื้นฐาน

Mid-Level
20 คำถาม

Apache Airflow - พื้นฐาน

Mid-Level
20 คำถาม

Kubernetes - พื้นฐาน

Mid-Level
20 คำถาม

dbt - ฟีเจอร์ขั้นสูง

Senior
20 คำถาม

รูปแบบ ETL / ELT / ETLT

Senior
20 คำถาม

Apache Airflow - ขั้นสูง

Senior
20 คำถาม

Airflow + dbt - การจัดการ Pipeline

Senior
20 คำถาม

PySpark - การประมวลผลขนาดใหญ่

Senior
20 คำถาม

Google Pub/Sub - การสตรีมข้อมูล

Senior
20 คำถาม

Apache Beam & Dataflow

Senior
20 คำถาม

Kubernetes - Production และ Scaling

Senior
20 คำถาม

Terraform - Infrastructure as Code

Senior
20 คำถาม

ฐานข้อมูล NoSQL

Senior
20 คำถาม

การมอนิเตอร์และการสังเกตการณ์

Senior
20 คำถาม

IAM และความปลอดภัยของข้อมูล

Senior
20 คำถาม

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป

เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์

เริ่มใช้ฟรี