
PySpark - Pemrosesan Skala Besar
SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching
1Apa entry point utama untuk membuat aplikasi PySpark?
Apa entry point utama untuk membuat aplikasi PySpark?
Jawaban
SparkSession adalah entry point terpadu yang diperkenalkan di Spark 2.0. Ini menggantikan SparkContext, SQLContext, dan HiveContext lama menjadi satu objek tunggal. SparkSession memungkinkan pembuatan DataFrame, eksekusi query SQL, dan konfigurasi aplikasi Spark secara terpusat.
2Apa perbedaan fundamental antara RDD dan DataFrame di PySpark?
Apa perbedaan fundamental antara RDD dan DataFrame di PySpark?
Jawaban
DataFrame memiliki schema terstruktur dengan kolom yang diberi nama dan tipe, memungkinkan Spark mengoptimalkan query melalui Catalyst. RDD adalah koleksi terdistribusi tidak terstruktur di mana Spark tidak mengetahui struktur internal data, sehingga membatasi optimasi yang mungkin.
3Apa perbedaan antara transformation dan action di PySpark?
Apa perbedaan antara transformation dan action di PySpark?
Jawaban
Transformation dievaluasi secara lazy dan membangun rencana eksekusi tanpa memicu komputasi. Action memicu eksekusi sebenarnya dari rencana di cluster dan mengembalikan hasil ke driver. Pembedaan ini memungkinkan Spark mengoptimalkan rencana sebelum eksekusi.
Di antara operasi berikut, mana yang merupakan action PySpark?
Bagaimana cara membuat DataFrame dari file Parquet di PySpark?
+17 pertanyaan wawancara
Topik wawancara Data Engineering lainnya
Linux & Shell - Dasar-dasar
Git & GitHub - Dasar-dasar
Python lanjutan untuk Data Engineering
Docker - Dasar-dasar
Google Cloud Platform - Dasar-Dasar
CI/CD dan Kualitas Kode
Docker Compose
FastAPI - API Data
SQL Lanjutan untuk Data Engineering
Data Lake - Arsitektur dan Ingesti
BigQuery untuk Data Engineering
PostgreSQL - Administrasi
Data Modeling untuk Data Engineering
Fivetran & Airbyte - Ingesti Data
dbt - Dasar
Apache Airflow - Dasar-Dasar
Kubernetes - Dasar-Dasar
dbt - Fitur lanjutan
Pola ETL / ELT / ETLT
Apache Airflow - Lanjutan
Airflow + dbt - Orkestrasi Pipeline
Google Pub/Sub - Streaming Data
Apache Beam & Dataflow
Kubernetes - Produksi dan Penskalaan
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture Modern
Monitoring dan Observability
IAM dan Keamanan Data
Kuasai Data Engineering untuk wawancara berikutnya
Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.
Mulai gratis