Data Engineering

Apache Beam & Dataflow

PCollections、transforms(ParDo、GroupByKey)、windowing、triggers、watermarks、Dataflow runner、オートスケーリング、templates

20 面接問題·
Senior
1

Apache BeamにおけるPCollectionとは何ですか?

回答

PCollectionはApache Beamにおける主要なデータ抽象化です。並列処理が可能な分散型で潜在的に無制限のデータセットを表します。通常のコレクションとは異なり、PCollectionはイミュータブルであり、各transformは元のものを変更するのではなく新しいPCollectionを作成します。

2

bounded PCollectionとunbounded PCollectionの主な違いは何ですか?

回答

bounded PCollectionは有限で既知のサイズ(ファイルやテーブルなど)を持ち、unboundedは潜在的に無限のデータストリーム(ストリーミングイベントなど)を表します。この区別はBeamがデータを処理する方法に影響します:boundedは従来のバッチ処理を使用し、unboundedは連続的なフローを処理するためにwindowingとtriggersが必要です。

3

Apache BeamにおけるParDo変換の役割は何ですか?

回答

ParDo(Parallel Do)はApache Beamで最も柔軟な変換です。PCollectionの各要素にユーザー定義関数(DoFn)を並列に適用します。ParDoは入力要素ごとに0個、1個、または複数の出力要素を生成できるため、フィルタリング、マッピング、フラットマッピングに適しています。

4

ParDo変換でside inputsをどのように使用しますか?

5

Apache BeamにおけるGroupByKeyとCoGroupByKeyの違いは何ですか?

+17 面接問題

次の面接に向けてData Engineeringをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める