Data Engineering

PySpark - Pemrosesan Skala Besar

SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching

20 pertanyaan wawancara·
Senior
1

Apa entry point utama untuk membuat aplikasi PySpark?

Jawaban

SparkSession adalah entry point terpadu yang diperkenalkan di Spark 2.0. Ini menggantikan SparkContext, SQLContext, dan HiveContext lama menjadi satu objek tunggal. SparkSession memungkinkan pembuatan DataFrame, eksekusi query SQL, dan konfigurasi aplikasi Spark secara terpusat.

2

Apa perbedaan fundamental antara RDD dan DataFrame di PySpark?

Jawaban

DataFrame memiliki schema terstruktur dengan kolom yang diberi nama dan tipe, memungkinkan Spark mengoptimalkan query melalui Catalyst. RDD adalah koleksi terdistribusi tidak terstruktur di mana Spark tidak mengetahui struktur internal data, sehingga membatasi optimasi yang mungkin.

3

Apa perbedaan antara transformation dan action di PySpark?

Jawaban

Transformation dievaluasi secara lazy dan membangun rencana eksekusi tanpa memicu komputasi. Action memicu eksekusi sebenarnya dari rencana di cluster dan mengembalikan hasil ke driver. Pembedaan ini memungkinkan Spark mengoptimalkan rencana sebelum eksekusi.

4

Di antara operasi berikut, mana yang merupakan action PySpark?

5

Bagaimana cara membuat DataFrame dari file Parquet di PySpark?

+17 pertanyaan wawancara

Kuasai Data Engineering untuk wawancara berikutnya

Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.

Mulai gratis