Question 1

Window function ใดที่กำหนดหมายเลขลำดับที่ไม่ซ้ำให้กับแต่ละแถวภายในพาร์ติชัน?

Accepted Answer

ROW_NUMBER() กำหนดหมายเลขลำดับที่ไม่ซ้ำให้กับแต่ละแถวภายในพาร์ติชัน โดยเริ่มจาก 1 ต่างจาก RANK() และ DENSE_RANK() ที่สามารถกำหนดหมายเลขเดียวกันให้กับค่าที่เท่ากัน ROW_NUMBER() รับประกันหมายเลขที่ไม่ซ้ำเสมอ แม้กระทั่งสำหรับค่าที่เหมือนกันในคำสั่ง ORDER BY

Question 2

ความแตกต่างหลักระหว่าง RANK() และ DENSE_RANK() คืออะไร?

Accepted Answer

RANK() เว้นช่องว่างในการนับหมายเลขหลังจากค่าที่เสมอกัน ตัวอย่างเช่น หากสองแถวได้อันดับ 1 แถวถัดไปจะได้อันดับ 3 DENSE_RANK() ไม่เว้นช่องว่าง: หลังจากสองแถวที่ได้อันดับ 1 แถวถัดไปจะได้อันดับ 2 ความแตกต่างนี้สำคัญสำหรับการวิเคราะห์การจัดอันดับที่ช่องว่างอาจทำให้สถิติผิดเพี้ยน

Question 3

วิธีคำนวณยอดรวมสะสม (running total) ด้วย window function อย่างไร?

Accepted Answer

SUM() OVER ที่มี ORDER BY และไม่มี frame ที่ชัดเจนจะใช้ ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW เป็นค่าเริ่มต้น ซึ่งคำนวณผลรวมของแถวก่อนหน้าทั้งหมดจนถึงและรวมแถวปัจจุบัน นี่เป็นพฤติกรรมมาตรฐานสำหรับการสร้างยอดรวมสะสมในการวิเคราะห์อนุกรมเวลาหรือตามลำดับ

SQL ขั้นสูงสำหรับ Data Engineering

Window function ใดที่กำหนดหมายเลขลำดับที่ไม่ซ้ำให้กับแต่ละแถวภายในพาร์ติชัน?

คำตอบ

ความแตกต่างหลักระหว่าง RANK() และ DENSE_RANK() คืออะไร?

คำตอบ

วิธีคำนวณยอดรวมสะสม (running total) ด้วย window function อย่างไร?

คำตอบ

บทบาทของคำสั่ง PARTITION BY ใน window function คืออะไร?

ฟังก์ชันใดที่อนุญาตให้เข้าถึงค่าของแถวก่อนหน้าใน window function?

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Git & GitHub - พื้นฐาน

Python ขั้นสูงสำหรับ Data Engineering

Docker - พื้นฐาน

Google Cloud Platform - พื้นฐาน

CI/CD และคุณภาพโค้ด

Docker Compose

FastAPI - Data API

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

BigQuery สำหรับ Data Engineering

PostgreSQL - การดูแลระบบ

Data Modeling สำหรับ Data Engineering

Fivetran & Airbyte - การนำเข้าข้อมูล

dbt - พื้นฐาน

Apache Airflow - พื้นฐาน

Kubernetes - พื้นฐาน

dbt - ฟีเจอร์ขั้นสูง

รูปแบบ ETL / ELT / ETLT

Apache Airflow - ขั้นสูง

Airflow + dbt - การจัดการ Pipeline

PySpark - การประมวลผลขนาดใหญ่

Google Pub/Sub - การสตรีมข้อมูล

Apache Beam & Dataflow

Kubernetes - Production และ Scaling

Terraform - Infrastructure as Code

ฐานข้อมูล NoSQL

Data Architecture สมัยใหม่

การมอนิเตอร์และการสังเกตการณ์

IAM และความปลอดภัยของข้อมูล

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป