
PySpark - การประมวลผลขนาดใหญ่
SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching
1จุดเข้าหลักสำหรับการสร้างแอปพลิเคชัน PySpark คืออะไร?
จุดเข้าหลักสำหรับการสร้างแอปพลิเคชัน PySpark คืออะไร?
คำตอบ
SparkSession เป็นจุดเข้าแบบรวมที่เปิดตัวใน Spark 2.0 โดยจะแทนที่ SparkContext, SQLContext และ HiveContext แบบเก่าด้วยอ็อบเจกต์เดียว SparkSession อนุญาตให้สร้าง DataFrame, รันคำสั่ง SQL และกำหนดค่าแอปพลิเคชัน Spark แบบรวมศูนย์
2ความแตกต่างพื้นฐานระหว่าง RDD และ DataFrame ใน PySpark คืออะไร?
ความแตกต่างพื้นฐานระหว่าง RDD และ DataFrame ใน PySpark คืออะไร?
คำตอบ
DataFrame มี schema ที่มีโครงสร้างพร้อมคอลัมน์ที่มีชื่อและประเภทกำกับ ซึ่งช่วยให้ Spark สามารถปรับ optimize คำสั่งผ่าน Catalyst ได้ ในขณะที่ RDD เป็น collection แบบกระจายที่ไม่มีโครงสร้าง โดย Spark ไม่ทราบโครงสร้างภายในของข้อมูล จึงจำกัดการ optimize ที่ทำได้
3ความแตกต่างระหว่าง transformation และ action ใน PySpark คืออะไร?
ความแตกต่างระหว่าง transformation และ action ใน PySpark คืออะไร?
คำตอบ
Transformation จะถูกประเมินผลแบบ lazy และสร้างแผนการ execution โดยไม่กระตุ้นการคำนวณ ส่วน action จะกระตุ้นการ execution จริงของแผนบน cluster และส่งผลลัพธ์กลับไปยัง driver การแยกแยะนี้ช่วยให้ Spark สามารถ optimize แผนก่อนการ execution
ในการดำเนินการต่อไปนี้ การดำเนินการใดเป็น action ของ PySpark?
วิธีสร้าง DataFrame จากไฟล์ Parquet ใน PySpark อย่างไร?
+17 คำถามสัมภาษณ์
หัวข้อสัมภาษณ์ Data Engineering อื่นๆ
Linux & Shell - พื้นฐาน
Git & GitHub - พื้นฐาน
Python ขั้นสูงสำหรับ Data Engineering
Docker - พื้นฐาน
Google Cloud Platform - พื้นฐาน
CI/CD และคุณภาพโค้ด
Docker Compose
FastAPI - Data API
SQL ขั้นสูงสำหรับ Data Engineering
Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล
BigQuery สำหรับ Data Engineering
PostgreSQL - การดูแลระบบ
Data Modeling สำหรับ Data Engineering
Fivetran & Airbyte - การนำเข้าข้อมูล
dbt - พื้นฐาน
Apache Airflow - พื้นฐาน
Kubernetes - พื้นฐาน
dbt - ฟีเจอร์ขั้นสูง
รูปแบบ ETL / ELT / ETLT
Apache Airflow - ขั้นสูง
Airflow + dbt - การจัดการ Pipeline
Google Pub/Sub - การสตรีมข้อมูล
Apache Beam & Dataflow
Kubernetes - Production และ Scaling
Terraform - Infrastructure as Code
ฐานข้อมูล NoSQL
Data Architecture สมัยใหม่
การมอนิเตอร์และการสังเกตการณ์
IAM และความปลอดภัยของข้อมูล
เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป
เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์
เริ่มใช้ฟรี