Data Engineering

Apache Beam & Dataflow

PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoscaling, templates

20 pertanyaan wawancaraยท
Senior
1

Apa itu PCollection dalam Apache Beam?

Jawaban

PCollection adalah abstraksi data utama di Apache Beam. Ini merepresentasikan dataset terdistribusi yang berpotensi tidak terbatas dan dapat diproses secara paralel. Tidak seperti collection biasa, PCollection bersifat immutable, artinya setiap transform membuat PCollection baru daripada memodifikasi yang asli.

2

Apa perbedaan utama antara PCollection bounded dan unbounded?

Jawaban

PCollection bounded memiliki ukuran terbatas dan diketahui (seperti file atau tabel), sedangkan unbounded merepresentasikan aliran data yang berpotensi tak terbatas (seperti event streaming). Perbedaan ini memengaruhi cara Beam memproses data: bounded menggunakan pemrosesan batch klasik, sedangkan unbounded memerlukan windowing dan trigger untuk menangani aliran kontinu.

3

Apa peran transformasi ParDo di Apache Beam?

Jawaban

ParDo (Parallel Do) adalah transformasi paling fleksibel di Apache Beam. Ini menerapkan fungsi yang didefinisikan pengguna (DoFn) ke setiap elemen PCollection secara paralel. ParDo dapat menghasilkan nol, satu, atau beberapa elemen output untuk setiap elemen input, sehingga cocok untuk filtering, mapping, dan flat-mapping.

4

Bagaimana cara menggunakan side input dalam transformasi ParDo?

5

Apa perbedaan antara GroupByKey dan CoGroupByKey di Apache Beam?

+17 pertanyaan wawancara

Kuasai Data Engineering untuk wawancara berikutnya

Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.

Mulai gratis