
Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล
สถาปัตยกรรม Data Lake, โซน (raw/refined/curated), รูปแบบ (Parquet, Avro, JSON), การนำเข้าข้อมูล, การแบ่งพาร์ติชัน
1Data Lake คืออะไร?
Data Lake คืออะไร?
คำตอบ
Data Lake คือระบบจัดเก็บข้อมูลแบบรวมศูนย์ที่สามารถเก็บข้อมูลดิบในรูปแบบดั้งเดิม ไม่ว่าจะเป็นข้อมูลที่มีโครงสร้าง กึ่งโครงสร้าง หรือไม่มีโครงสร้าง ต่างจาก Data Warehouse ที่บังคับใช้ schema ตอนเขียน (schema-on-write) Data Lake จะใช้ schema ตอนอ่าน (schema-on-read) ให้ความยืดหยุ่นสูงสุดสำหรับการสำรวจและวิเคราะห์ข้อมูล
2ความแตกต่างหลักระหว่าง schema-on-write และ schema-on-read คืออะไร?
ความแตกต่างหลักระหว่าง schema-on-write และ schema-on-read คืออะไร?
คำตอบ
Schema-on-write บังคับใช้การตรวจสอบและการแปลงข้อมูลก่อนการจัดเก็บ ทำให้มีโครงสร้างที่สม่ำเสมอแต่จำกัดความยืดหยุ่น Schema-on-read จัดเก็บข้อมูลในรูปแบบดิบและใช้ schema เฉพาะตอนอ่าน ให้ความยืดหยุ่นในการนำเข้าข้อมูลสูงสุดแต่ต้องประมวลผลเมื่อเข้าถึงข้อมูล
3สามโซนคลาสสิกของ Data Lake คืออะไร?
สามโซนคลาสสิกของ Data Lake คืออะไร?
คำตอบ
สถาปัตยกรรม Data Lake มาตรฐานประกอบด้วยสามโซน: Raw (Bronze) สำหรับข้อมูลดิบที่ยังไม่ได้แปลง Refined (Silver) สำหรับข้อมูลที่ทำความสะอาดและทำให้เป็นมาตรฐาน และ Curated (Gold) สำหรับข้อมูลรวมที่พร้อมใช้งาน การจัดระเบียบแบบหลายชั้นนี้ช่วยให้การกำกับดูแล การติดตาม และคุณภาพข้อมูลเป็นไปอย่างง่ายดาย
บทบาทของโซน Raw (Bronze) ใน Data Lake คืออะไร?
รูปแบบไฟล์ใดเหมาะสมที่สุดสำหรับการจัดเก็บข้อมูลวิเคราะห์ขนาดใหญ่ใน Data Lake?
+17 คำถามสัมภาษณ์
หัวข้อสัมภาษณ์ Data Engineering อื่นๆ
Linux & Shell - พื้นฐาน
Git & GitHub - พื้นฐาน
Python ขั้นสูงสำหรับ Data Engineering
Docker - พื้นฐาน
Google Cloud Platform - พื้นฐาน
CI/CD และคุณภาพโค้ด
Docker Compose
FastAPI - Data API
SQL ขั้นสูงสำหรับ Data Engineering
BigQuery สำหรับ Data Engineering
PostgreSQL - การดูแลระบบ
Data Modeling สำหรับ Data Engineering
Fivetran & Airbyte - การนำเข้าข้อมูล
dbt - พื้นฐาน
Apache Airflow - พื้นฐาน
Kubernetes - พื้นฐาน
dbt - ฟีเจอร์ขั้นสูง
รูปแบบ ETL / ELT / ETLT
Apache Airflow - ขั้นสูง
Airflow + dbt - การจัดการ Pipeline
PySpark - การประมวลผลขนาดใหญ่
Google Pub/Sub - การสตรีมข้อมูล
Apache Beam & Dataflow
Kubernetes - Production และ Scaling
Terraform - Infrastructure as Code
ฐานข้อมูล NoSQL
Data Architecture สมัยใหม่
การมอนิเตอร์และการสังเกตการณ์
IAM และความปลอดภัยของข้อมูล
เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป
เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์
เริ่มใช้ฟรี