Data Engineering

Apache Beam & Dataflow

PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoskalowanie, templates

20 pytań z rozmów·
Senior
1

Czym jest PCollection w Apache Beam?

Odpowiedź

PCollection to główna abstrakcja danych w Apache Beam. Reprezentuje rozproszony, potencjalnie nieograniczony zbiór danych, który może być przetwarzany równolegle. W przeciwieństwie do zwykłych kolekcji, PCollection jest niezmienna, co oznacza, że każdy transform tworzy nową PCollection zamiast modyfikować oryginał.

2

Jaka jest główna różnica między PCollection bounded a unbounded?

Odpowiedź

PCollection bounded ma skończony, znany rozmiar (jak plik lub tabela), podczas gdy unbounded reprezentuje potencjalnie nieskończony strumień danych (jak zdarzenia streamingowe). To rozróżnienie wpływa na sposób przetwarzania danych przez Beam: bounded używa klasycznego przetwarzania batch, podczas gdy unbounded wymaga windowingu i triggerów do obsługi ciągłego przepływu.

3

Jaka jest rola transformacji ParDo w Apache Beam?

Odpowiedź

ParDo (Parallel Do) to najbardziej elastyczna transformacja w Apache Beam. Stosuje funkcję zdefiniowaną przez użytkownika (DoFn) do każdego elementu PCollection równolegle. ParDo może wytworzyć zero, jeden lub wiele elementów wyjściowych dla każdego elementu wejściowego, co czyni ją odpowiednią do filtrowania, mappingu i flat-mappingu.

4

Jak używać side inputs w transformacji ParDo?

5

Jaka jest różnica między GroupByKey a CoGroupByKey w Apache Beam?

+17 pytań z rozmów

Opanuj Data Engineering na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo