Question 1

จุดเข้าหลักสำหรับการสร้างแอปพลิเคชัน PySpark คืออะไร?

Accepted Answer

SparkSession เป็นจุดเข้าแบบรวมที่เปิดตัวใน Spark 2.0 โดยจะแทนที่ SparkContext, SQLContext และ HiveContext แบบเก่าด้วยอ็อบเจกต์เดียว SparkSession อนุญาตให้สร้าง DataFrame, รันคำสั่ง SQL และกำหนดค่าแอปพลิเคชัน Spark แบบรวมศูนย์

Question 2

ความแตกต่างพื้นฐานระหว่าง RDD และ DataFrame ใน PySpark คืออะไร?

Accepted Answer

DataFrame มี schema ที่มีโครงสร้างพร้อมคอลัมน์ที่มีชื่อและประเภทกำกับ ซึ่งช่วยให้ Spark สามารถปรับ optimize คำสั่งผ่าน Catalyst ได้ ในขณะที่ RDD เป็น collection แบบกระจายที่ไม่มีโครงสร้าง โดย Spark ไม่ทราบโครงสร้างภายในของข้อมูล จึงจำกัดการ optimize ที่ทำได้

Question 3

ความแตกต่างระหว่าง transformation และ action ใน PySpark คืออะไร?

Accepted Answer

Transformation จะถูกประเมินผลแบบ lazy และสร้างแผนการ execution โดยไม่กระตุ้นการคำนวณ ส่วน action จะกระตุ้นการ execution จริงของแผนบน cluster และส่งผลลัพธ์กลับไปยัง driver การแยกแยะนี้ช่วยให้ Spark สามารถ optimize แผนก่อนการ execution

PySpark - การประมวลผลขนาดใหญ่

จุดเข้าหลักสำหรับการสร้างแอปพลิเคชัน PySpark คืออะไร?

คำตอบ

ความแตกต่างพื้นฐานระหว่าง RDD และ DataFrame ใน PySpark คืออะไร?

คำตอบ

ความแตกต่างระหว่าง transformation และ action ใน PySpark คืออะไร?

คำตอบ

ในการดำเนินการต่อไปนี้ การดำเนินการใดเป็น action ของ PySpark?

วิธีสร้าง DataFrame จากไฟล์ Parquet ใน PySpark อย่างไร?

หัวข้อสัมภาษณ์ Data Engineering อื่นๆ

Linux & Shell - พื้นฐาน

Git & GitHub - พื้นฐาน

Python ขั้นสูงสำหรับ Data Engineering

Docker - พื้นฐาน

Google Cloud Platform - พื้นฐาน

CI/CD และคุณภาพโค้ด

Docker Compose

FastAPI - Data API

SQL ขั้นสูงสำหรับ Data Engineering

Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล

BigQuery สำหรับ Data Engineering

PostgreSQL - การดูแลระบบ

Data Modeling สำหรับ Data Engineering

Fivetran & Airbyte - การนำเข้าข้อมูล

dbt - พื้นฐาน

Apache Airflow - พื้นฐาน

Kubernetes - พื้นฐาน

dbt - ฟีเจอร์ขั้นสูง

รูปแบบ ETL / ELT / ETLT

Apache Airflow - ขั้นสูง

Airflow + dbt - การจัดการ Pipeline

Google Pub/Sub - การสตรีมข้อมูล

Apache Beam & Dataflow

Kubernetes - Production และ Scaling

Terraform - Infrastructure as Code

ฐานข้อมูล NoSQL

Data Architecture สมัยใหม่

การมอนิเตอร์และการสังเกตการณ์

IAM และความปลอดภัยของข้อมูล

เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป