Question 1

PCollection ใน Apache Beam คืออะไร?

Accepted Answer

PCollection คือนามธรรมข้อมูลหลักใน Apache Beam ซึ่งแสดงถึงชุดข้อมูลแบบกระจายที่อาจไม่มีขอบเขต และสามารถประมวลผลแบบขนานได้ ต่างจาก collection ทั่วไป PCollection เป็น immutable หมายความว่าแต่ละ transform จะสร้าง PCollection ใหม่แทนการแก้ไขต้นฉบับ

Question 2

ความแตกต่างหลักระหว่าง PCollection แบบ bounded และ unbounded คืออะไร?

Accepted Answer

PCollection แบบ bounded มีขนาดจำกัดและทราบล่วงหน้า (เช่น ไฟล์หรือตาราง) ในขณะที่ unbounded แสดงถึงสตรีมข้อมูลที่อาจไม่มีที่สิ้นสุด (เช่น event แบบ streaming) ความแตกต่างนี้ส่งผลต่อวิธีที่ Beam ประมวลผลข้อมูล: bounded ใช้การประมวลผลแบบ batch ทั่วไป ในขณะที่ unbounded ต้องใช้ windowing และ trigger เพื่อจัดการกับการไหลต่อเนื่อง

Question 3

บทบาทของการแปลง ParDo ใน Apache Beam คืออะไร?

Accepted Answer

ParDo (Parallel Do) คือการแปลงที่ยืดหยุ่นที่สุดใน Apache Beam โดยใช้ฟังก์ชันที่ผู้ใช้กำหนด (DoFn) กับแต่ละ element ของ PCollection แบบขนาน ParDo สามารถสร้าง element ผลลัพธ์เป็น 0, 1 หรือหลายตัวสำหรับแต่ละ element อินพุต ทำให้เหมาะกับการ filter, map และ flat-map

Apache Beam & Dataflow

PCollection ใน Apache Beam คืออะไร?

คำตอบ

ความแตกต่างหลักระหว่าง PCollection แบบ bounded และ unbounded คืออะไร?

คำตอบ

บทบาทของการแปลง ParDo ใน Apache Beam คืออะไร?

คำตอบ

จะใช้ side inputs ในการแปลง ParDo อย่างไร?

ความแตกต่างระหว่าง GroupByKey และ CoGroupByKey ใน Apache Beam คืออะไร?

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Git & GitHub - พื้นฐาน

Python ขั้นสูงสำหรับ Data Engineering

Docker - พื้นฐาน

Google Cloud Platform - พื้นฐาน

CI/CD และคุณภาพโค้ด

Docker Compose

FastAPI - Data API

SQL ขั้นสูงสำหรับ Data Engineering

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

BigQuery สำหรับ Data Engineering

PostgreSQL - การดูแลระบบ

Data Modeling สำหรับ Data Engineering

Fivetran & Airbyte - การนำเข้าข้อมูล

dbt - พื้นฐาน

Apache Airflow - พื้นฐาน

Kubernetes - พื้นฐาน

dbt - ฟีเจอร์ขั้นสูง

รูปแบบ ETL / ELT / ETLT

Apache Airflow - ขั้นสูง

Airflow + dbt - การจัดการ Pipeline

PySpark - การประมวลผลขนาดใหญ่

Google Pub/Sub - การสตรีมข้อมูล

Kubernetes - Production และ Scaling

Terraform - Infrastructure as Code

ฐานข้อมูล NoSQL

Data Architecture สมัยใหม่

การมอนิเตอร์และการสังเกตการณ์

IAM และความปลอดภัยของข้อมูล

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป