Question 1

Data Lake คืออะไร?

Accepted Answer

Data Lake คือระบบจัดเก็บข้อมูลแบบรวมศูนย์ที่สามารถเก็บข้อมูลดิบในรูปแบบดั้งเดิม ไม่ว่าจะเป็นข้อมูลที่มีโครงสร้าง กึ่งโครงสร้าง หรือไม่มีโครงสร้าง ต่างจาก Data Warehouse ที่บังคับใช้ schema ตอนเขียน (schema-on-write) Data Lake จะใช้ schema ตอนอ่าน (schema-on-read) ให้ความยืดหยุ่นสูงสุดสำหรับการสำรวจและวิเคราะห์ข้อมูล

Question 2

ความแตกต่างหลักระหว่าง schema-on-write และ schema-on-read คืออะไร?

Accepted Answer

Schema-on-write บังคับใช้การตรวจสอบและการแปลงข้อมูลก่อนการจัดเก็บ ทำให้มีโครงสร้างที่สม่ำเสมอแต่จำกัดความยืดหยุ่น Schema-on-read จัดเก็บข้อมูลในรูปแบบดิบและใช้ schema เฉพาะตอนอ่าน ให้ความยืดหยุ่นในการนำเข้าข้อมูลสูงสุดแต่ต้องประมวลผลเมื่อเข้าถึงข้อมูล

Question 3

สามโซนคลาสสิกของ Data Lake คืออะไร?

Accepted Answer

สถาปัตยกรรม Data Lake มาตรฐานประกอบด้วยสามโซน: Raw (Bronze) สำหรับข้อมูลดิบที่ยังไม่ได้แปลง Refined (Silver) สำหรับข้อมูลที่ทำความสะอาดและทำให้เป็นมาตรฐาน และ Curated (Gold) สำหรับข้อมูลรวมที่พร้อมใช้งาน การจัดระเบียบแบบหลายชั้นนี้ช่วยให้การกำกับดูแล การติดตาม และคุณภาพข้อมูลเป็นไปอย่างง่ายดาย

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

Data Lake คืออะไร?

คำตอบ

ความแตกต่างหลักระหว่าง schema-on-write และ schema-on-read คืออะไร?

คำตอบ

สามโซนคลาสสิกของ Data Lake คืออะไร?

คำตอบ

บทบาทของโซน Raw (Bronze) ใน Data Lake คืออะไร?

รูปแบบไฟล์ใดเหมาะสมที่สุดสำหรับการจัดเก็บข้อมูลวิเคราะห์ขนาดใหญ่ใน Data Lake?

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Git & GitHub - พื้นฐาน

Python ขั้นสูงสำหรับ Data Engineering

Docker - พื้นฐาน

Google Cloud Platform - พื้นฐาน

CI/CD และคุณภาพโค้ด

Docker Compose

FastAPI - Data API

SQL ขั้นสูงสำหรับ Data Engineering

BigQuery สำหรับ Data Engineering

PostgreSQL - การดูแลระบบ

Data Modeling สำหรับ Data Engineering

Fivetran & Airbyte - การนำเข้าข้อมูล

dbt - พื้นฐาน

Apache Airflow - พื้นฐาน

Kubernetes - พื้นฐาน

dbt - ฟีเจอร์ขั้นสูง

รูปแบบ ETL / ELT / ETLT

Apache Airflow - ขั้นสูง

Airflow + dbt - การจัดการ Pipeline

PySpark - การประมวลผลขนาดใหญ่

Google Pub/Sub - การสตรีมข้อมูล

Apache Beam & Dataflow

Kubernetes - Production และ Scaling

Terraform - Infrastructure as Code

ฐานข้อมูล NoSQL

Data Architecture สมัยใหม่

การมอนิเตอร์และการสังเกตการณ์

IAM และความปลอดภัยของข้อมูล

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป