
BigQuery สำหรับ Data Engineering
สถาปัตยกรรม serverless, partitioning, clustering, ค่าใช้จ่าย, UDFs, federated queries, scheduled queries, materialized views
1BigQuery ใช้สถาปัตยกรรมการจัดเก็บข้อมูลแบบใด?
BigQuery ใช้สถาปัตยกรรมการจัดเก็บข้อมูลแบบใด?
คำตอบ
BigQuery ใช้สถาปัตยกรรม serverless พร้อม columnar storage ที่เรียกว่า Capacitor สถาปัตยกรรมนี้แยกการจัดเก็บข้อมูลและการประมวลผล ทำให้สามารถปรับขนาดและคิดค่าใช้จ่ายแยกกันได้ Columnar storage เหมาะสำหรับการคิวรีเชิงวิเคราะห์เพราะอ่านเฉพาะคอลัมน์ที่จำเป็น ลด I/O ได้อย่างมาก
2ข้อดีหลักของการ partitioning ตารางใน BigQuery คืออะไร?
ข้อดีหลักของการ partitioning ตารางใน BigQuery คืออะไร?
คำตอบ
Partitioning แบ่งตารางขนาดใหญ่เป็นส่วนย่อยตามคอลัมน์ (มักเป็นวันที่) ขณะคิวรี BigQuery สามารถข้าม partition ที่ไม่เกี่ยวข้องได้ (partition pruning) ลดปริมาณข้อมูลที่สแกน วิธีนี้ช่วยเพิ่มประสิทธิภาพและลดค่าใช้จ่ายเพราะ BigQuery คิดเงินตามปริมาณข้อมูลที่ประมวลผล
3ประเภทของ partitioning ที่มีใน BigQuery มีอะไรบ้าง?
ประเภทของ partitioning ที่มีใน BigQuery มีอะไรบ้าง?
คำตอบ
BigQuery รองรับ partitioning สามประเภท: ตามคอลัมน์ DATE หรือ TIMESTAMP (พบบ่อยที่สุด) ตามช่วงตัวเลขจำนวนเต็ม (INTEGER RANGE) และตามเวลาการนำเข้าข้อมูล (_PARTITIONTIME) แนะนำให้ใช้ partitioning ตามวันที่สำหรับข้อมูล time-series เพราะช่วยให้ partition pruning ทำงานได้อย่างมีประสิทธิภาพกับตัวกรองวันที่
ความแตกต่างระหว่าง partitioning และ clustering ใน BigQuery คืออะไร?
จะเพิ่มประสิทธิภาพค่าใช้จ่ายคิวรีใน BigQuery ได้อย่างไร?
+17 คำถามสัมภาษณ์
หัวข้อสัมภาษณ์ Data Engineering อื่นๆ
Linux & Shell - พื้นฐาน
Git & GitHub - พื้นฐาน
Python ขั้นสูงสำหรับ Data Engineering
Docker - พื้นฐาน
Google Cloud Platform - พื้นฐาน
CI/CD และคุณภาพโค้ด
Docker Compose
FastAPI - Data API
SQL ขั้นสูงสำหรับ Data Engineering
Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล
PostgreSQL - การดูแลระบบ
Data Modeling สำหรับ Data Engineering
Fivetran & Airbyte - การนำเข้าข้อมูล
dbt - พื้นฐาน
Apache Airflow - พื้นฐาน
Kubernetes - พื้นฐาน
dbt - ฟีเจอร์ขั้นสูง
รูปแบบ ETL / ELT / ETLT
Apache Airflow - ขั้นสูง
Airflow + dbt - การจัดการ Pipeline
PySpark - การประมวลผลขนาดใหญ่
Google Pub/Sub - การสตรีมข้อมูล
Apache Beam & Dataflow
Kubernetes - Production และ Scaling
Terraform - Infrastructure as Code
ฐานข้อมูล NoSQL
Data Architecture สมัยใหม่
การมอนิเตอร์และการสังเกตการณ์
IAM และความปลอดภัยของข้อมูล
เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป
เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์
เริ่มใช้ฟรี