
Apache Beam & Dataflow
PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoscaling, templates
1Apa itu PCollection dalam Apache Beam?
Apa itu PCollection dalam Apache Beam?
Jawaban
PCollection adalah abstraksi data utama di Apache Beam. Ini merepresentasikan dataset terdistribusi yang berpotensi tidak terbatas dan dapat diproses secara paralel. Tidak seperti collection biasa, PCollection bersifat immutable, artinya setiap transform membuat PCollection baru daripada memodifikasi yang asli.
2Apa perbedaan utama antara PCollection bounded dan unbounded?
Apa perbedaan utama antara PCollection bounded dan unbounded?
Jawaban
PCollection bounded memiliki ukuran terbatas dan diketahui (seperti file atau tabel), sedangkan unbounded merepresentasikan aliran data yang berpotensi tak terbatas (seperti event streaming). Perbedaan ini memengaruhi cara Beam memproses data: bounded menggunakan pemrosesan batch klasik, sedangkan unbounded memerlukan windowing dan trigger untuk menangani aliran kontinu.
3Apa peran transformasi ParDo di Apache Beam?
Apa peran transformasi ParDo di Apache Beam?
Jawaban
ParDo (Parallel Do) adalah transformasi paling fleksibel di Apache Beam. Ini menerapkan fungsi yang didefinisikan pengguna (DoFn) ke setiap elemen PCollection secara paralel. ParDo dapat menghasilkan nol, satu, atau beberapa elemen output untuk setiap elemen input, sehingga cocok untuk filtering, mapping, dan flat-mapping.
Bagaimana cara menggunakan side input dalam transformasi ParDo?
Apa perbedaan antara GroupByKey dan CoGroupByKey di Apache Beam?
+17 pertanyaan wawancara
Topik wawancara Data Engineering lainnya
Linux & Shell - Dasar-dasar
Git & GitHub - Dasar-dasar
Python lanjutan untuk Data Engineering
Docker - Dasar-dasar
Google Cloud Platform - Dasar-Dasar
CI/CD dan Kualitas Kode
Docker Compose
FastAPI - API Data
SQL Lanjutan untuk Data Engineering
Data Lake - Arsitektur dan Ingesti
BigQuery untuk Data Engineering
PostgreSQL - Administrasi
Data Modeling untuk Data Engineering
Fivetran & Airbyte - Ingesti Data
dbt - Dasar
Apache Airflow - Dasar-Dasar
Kubernetes - Dasar-Dasar
dbt - Fitur lanjutan
Pola ETL / ELT / ETLT
Apache Airflow - Lanjutan
Airflow + dbt - Orkestrasi Pipeline
PySpark - Pemrosesan Skala Besar
Google Pub/Sub - Streaming Data
Kubernetes - Produksi dan Penskalaan
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture Modern
Monitoring dan Observability
IAM dan Keamanan Data
Kuasai Data Engineering untuk wawancara berikutnya
Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.
Mulai gratis