Data Engineering

Apache Beam & Dataflow

PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoscaling, templates

20 gespreksvragen·
Senior
1

Wat is een PCollection in Apache Beam?

Antwoord

Een PCollection is de primaire dataabstractie in Apache Beam. Het vertegenwoordigt een gedistribueerde, potentieel onbegrensde dataset die parallel kan worden verwerkt. In tegenstelling tot reguliere collecties is een PCollection immutable, wat betekent dat elke transform een nieuwe PCollection maakt in plaats van het origineel te wijzigen.

2

Wat is het belangrijkste verschil tussen een bounded en unbounded PCollection?

Antwoord

Een bounded PCollection heeft een eindige, bekende grootte (zoals een bestand of tabel), terwijl een unbounded een potentieel oneindige datastroom vertegenwoordigt (zoals streaming events). Dit onderscheid beïnvloedt hoe Beam data verwerkt: bounded gebruikt klassieke batchverwerking, terwijl unbounded windowing en triggers vereist om de continue stroom te beheren.

3

Wat is de rol van de ParDo-transformatie in Apache Beam?

Antwoord

ParDo (Parallel Do) is de meest flexibele transformatie in Apache Beam. Het past een door de gebruiker gedefinieerde functie (DoFn) parallel toe op elk element van een PCollection. ParDo kan nul, één of meerdere outputelementen produceren voor elk inputelement, waardoor het geschikt is voor filtering, mapping en flat-mapping.

4

Hoe gebruik je side inputs in een ParDo-transformatie?

5

Wat is het verschil tussen GroupByKey en CoGroupByKey in Apache Beam?

+17 gespreksvragen

Beheers Data Engineering voor je volgende gesprek

Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.

Begin gratis