Question 1

BigQuery ใช้สถาปัตยกรรมการจัดเก็บข้อมูลแบบใด?

Accepted Answer

BigQuery ใช้สถาปัตยกรรม serverless พร้อม columnar storage ที่เรียกว่า Capacitor สถาปัตยกรรมนี้แยกการจัดเก็บข้อมูลและการประมวลผล ทำให้สามารถปรับขนาดและคิดค่าใช้จ่ายแยกกันได้ Columnar storage เหมาะสำหรับการคิวรีเชิงวิเคราะห์เพราะอ่านเฉพาะคอลัมน์ที่จำเป็น ลด I/O ได้อย่างมาก

Question 2

ข้อดีหลักของการ partitioning ตารางใน BigQuery คืออะไร?

Accepted Answer

Partitioning แบ่งตารางขนาดใหญ่เป็นส่วนย่อยตามคอลัมน์ (มักเป็นวันที่) ขณะคิวรี BigQuery สามารถข้าม partition ที่ไม่เกี่ยวข้องได้ (partition pruning) ลดปริมาณข้อมูลที่สแกน วิธีนี้ช่วยเพิ่มประสิทธิภาพและลดค่าใช้จ่ายเพราะ BigQuery คิดเงินตามปริมาณข้อมูลที่ประมวลผล

Question 3

ประเภทของ partitioning ที่มีใน BigQuery มีอะไรบ้าง?

Accepted Answer

BigQuery รองรับ partitioning สามประเภท: ตามคอลัมน์ DATE หรือ TIMESTAMP (พบบ่อยที่สุด) ตามช่วงตัวเลขจำนวนเต็ม (INTEGER RANGE) และตามเวลาการนำเข้าข้อมูล (_PARTITIONTIME) แนะนำให้ใช้ partitioning ตามวันที่สำหรับข้อมูล time-series เพราะช่วยให้ partition pruning ทำงานได้อย่างมีประสิทธิภาพกับตัวกรองวันที่

BigQuery สำหรับ Data Engineering

BigQuery ใช้สถาปัตยกรรมการจัดเก็บข้อมูลแบบใด?

คำตอบ

ข้อดีหลักของการ partitioning ตารางใน BigQuery คืออะไร?

คำตอบ

ประเภทของ partitioning ที่มีใน BigQuery มีอะไรบ้าง?

คำตอบ

ความแตกต่างระหว่าง partitioning และ clustering ใน BigQuery คืออะไร?

จะเพิ่มประสิทธิภาพค่าใช้จ่ายคิวรีใน BigQuery ได้อย่างไร?

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Git & GitHub - พื้นฐาน

Python ขั้นสูงสำหรับ Data Engineering

Docker - พื้นฐาน

Google Cloud Platform - พื้นฐาน

CI/CD และคุณภาพโค้ด

Docker Compose

FastAPI - Data API

SQL ขั้นสูงสำหรับ Data Engineering

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

PostgreSQL - การดูแลระบบ

Data Modeling สำหรับ Data Engineering

Fivetran & Airbyte - การนำเข้าข้อมูล

dbt - พื้นฐาน

Apache Airflow - พื้นฐาน

Kubernetes - พื้นฐาน

dbt - ฟีเจอร์ขั้นสูง

รูปแบบ ETL / ELT / ETLT

Apache Airflow - ขั้นสูง

Airflow + dbt - การจัดการ Pipeline

PySpark - การประมวลผลขนาดใหญ่

Google Pub/Sub - การสตรีมข้อมูล

Apache Beam & Dataflow

Kubernetes - Production และ Scaling

Terraform - Infrastructure as Code

ฐานข้อมูล NoSQL

Data Architecture สมัยใหม่

การมอนิเตอร์และการสังเกตการณ์

IAM และความปลอดภัยของข้อมูล

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป