
Apache Beam & Dataflow
PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoscaling, templates
1PCollection ใน Apache Beam คืออะไร?
PCollection ใน Apache Beam คืออะไร?
คำตอบ
PCollection คือนามธรรมข้อมูลหลักใน Apache Beam ซึ่งแสดงถึงชุดข้อมูลแบบกระจายที่อาจไม่มีขอบเขต และสามารถประมวลผลแบบขนานได้ ต่างจาก collection ทั่วไป PCollection เป็น immutable หมายความว่าแต่ละ transform จะสร้าง PCollection ใหม่แทนการแก้ไขต้นฉบับ
2ความแตกต่างหลักระหว่าง PCollection แบบ bounded และ unbounded คืออะไร?
ความแตกต่างหลักระหว่าง PCollection แบบ bounded และ unbounded คืออะไร?
คำตอบ
PCollection แบบ bounded มีขนาดจำกัดและทราบล่วงหน้า (เช่น ไฟล์หรือตาราง) ในขณะที่ unbounded แสดงถึงสตรีมข้อมูลที่อาจไม่มีที่สิ้นสุด (เช่น event แบบ streaming) ความแตกต่างนี้ส่งผลต่อวิธีที่ Beam ประมวลผลข้อมูล: bounded ใช้การประมวลผลแบบ batch ทั่วไป ในขณะที่ unbounded ต้องใช้ windowing และ trigger เพื่อจัดการกับการไหลต่อเนื่อง
3บทบาทของการแปลง ParDo ใน Apache Beam คืออะไร?
บทบาทของการแปลง ParDo ใน Apache Beam คืออะไร?
คำตอบ
ParDo (Parallel Do) คือการแปลงที่ยืดหยุ่นที่สุดใน Apache Beam โดยใช้ฟังก์ชันที่ผู้ใช้กำหนด (DoFn) กับแต่ละ element ของ PCollection แบบขนาน ParDo สามารถสร้าง element ผลลัพธ์เป็น 0, 1 หรือหลายตัวสำหรับแต่ละ element อินพุต ทำให้เหมาะกับการ filter, map และ flat-map
จะใช้ side inputs ในการแปลง ParDo อย่างไร?
ความแตกต่างระหว่าง GroupByKey และ CoGroupByKey ใน Apache Beam คืออะไร?
+17 คำถามสัมภาษณ์
หัวข้อสัมภาษณ์ Data Engineering อื่นๆ
Linux & Shell - พื้นฐาน
Git & GitHub - พื้นฐาน
Python ขั้นสูงสำหรับ Data Engineering
Docker - พื้นฐาน
Google Cloud Platform - พื้นฐาน
CI/CD และคุณภาพโค้ด
Docker Compose
FastAPI - Data API
SQL ขั้นสูงสำหรับ Data Engineering
Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล
BigQuery สำหรับ Data Engineering
PostgreSQL - การดูแลระบบ
Data Modeling สำหรับ Data Engineering
Fivetran & Airbyte - การนำเข้าข้อมูล
dbt - พื้นฐาน
Apache Airflow - พื้นฐาน
Kubernetes - พื้นฐาน
dbt - ฟีเจอร์ขั้นสูง
รูปแบบ ETL / ELT / ETLT
Apache Airflow - ขั้นสูง
Airflow + dbt - การจัดการ Pipeline
PySpark - การประมวลผลขนาดใหญ่
Google Pub/Sub - การสตรีมข้อมูล
Kubernetes - Production และ Scaling
Terraform - Infrastructure as Code
ฐานข้อมูล NoSQL
Data Architecture สมัยใหม่
การมอนิเตอร์และการสังเกตการณ์
IAM และความปลอดภัยของข้อมูล
เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป
เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์
เริ่มใช้ฟรี