Data Engineering

Apache Beam & Dataflow

PCollections, Transforms (ParDo, GroupByKey), Windowing, Triggers, Watermarks, Dataflow Runner, Autoscaling, Templates

20 Interview-Fragen·
Senior
1

Was ist eine PCollection in Apache Beam?

Antwort

Eine PCollection ist die primäre Datenabstraktion in Apache Beam. Sie repräsentiert einen verteilten, potenziell unbegrenzten Datensatz, der parallel verarbeitet werden kann. Im Gegensatz zu regulären Collections ist eine PCollection unveränderlich, was bedeutet, dass jeder Transform eine neue PCollection erstellt, anstatt das Original zu modifizieren.

2

Was ist der Hauptunterschied zwischen einer bounded und unbounded PCollection?

Antwort

Eine bounded PCollection hat eine endliche, bekannte Größe (wie eine Datei oder Tabelle), während eine unbounded einen potenziell unendlichen Datenstrom (wie Streaming-Events) repräsentiert. Diese Unterscheidung beeinflusst, wie Beam Daten verarbeitet: bounded verwendet klassische Batch-Verarbeitung, während unbounded Windowing und Triggers benötigt, um den kontinuierlichen Fluss zu handhaben.

3

Welche Rolle spielt die ParDo-Transformation in Apache Beam?

Antwort

ParDo (Parallel Do) ist die flexibelste Transformation in Apache Beam. Sie wendet eine benutzerdefinierte Funktion (DoFn) parallel auf jedes Element einer PCollection an. ParDo kann null, ein oder mehrere Ausgabeelemente für jedes Eingabeelement erzeugen, was sie für Filtering, Mapping und Flat-Mapping geeignet macht.

4

Wie verwendet man Side Inputs in einer ParDo-Transformation?

5

Was ist der Unterschied zwischen GroupByKey und CoGroupByKey in Apache Beam?

+17 Interview-Fragen

Meistere Data Engineering für dein nächstes Interview

Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.

Kostenlos starten