
Apache Beam & Dataflow
PCollections、transforms(ParDo、GroupByKey)、windowing、triggers、watermarks、Dataflow runner、オートスケーリング、templates
20 面接問題·
Senior
1Apache BeamにおけるPCollectionとは何ですか?
1
Apache BeamにおけるPCollectionとは何ですか?
回答
PCollectionはApache Beamにおける主要なデータ抽象化です。並列処理が可能な分散型で潜在的に無制限のデータセットを表します。通常のコレクションとは異なり、PCollectionはイミュータブルであり、各transformは元のものを変更するのではなく新しいPCollectionを作成します。
2bounded PCollectionとunbounded PCollectionの主な違いは何ですか?
2
bounded PCollectionとunbounded PCollectionの主な違いは何ですか?
回答
bounded PCollectionは有限で既知のサイズ(ファイルやテーブルなど)を持ち、unboundedは潜在的に無限のデータストリーム(ストリーミングイベントなど)を表します。この区別はBeamがデータを処理する方法に影響します:boundedは従来のバッチ処理を使用し、unboundedは連続的なフローを処理するためにwindowingとtriggersが必要です。
3Apache BeamにおけるParDo変換の役割は何ですか?
3
Apache BeamにおけるParDo変換の役割は何ですか?
回答
ParDo(Parallel Do)はApache Beamで最も柔軟な変換です。PCollectionの各要素にユーザー定義関数(DoFn)を並列に適用します。ParDoは入力要素ごとに0個、1個、または複数の出力要素を生成できるため、フィルタリング、マッピング、フラットマッピングに適しています。
4
ParDo変換でside inputsをどのように使用しますか?
5
Apache BeamにおけるGroupByKeyとCoGroupByKeyの違いは何ですか?
+17 面接問題
その他のData Engineering面接トピック
Linux & Shell - 基礎
Junior
20問Git & GitHub - 基礎
Junior
20問データエンジニアリングのための高度なPython
Junior
25問Docker - 基礎
Junior
25問Google Cloud Platform - 基礎
Junior
20問CI/CDとコード品質
Mid-Level
20問Docker Compose
Mid-Level
20問FastAPI - データAPI
Mid-Level
20問Data Engineering向けの高度なSQL
Mid-Level
20問Data Lake - アーキテクチャと取り込み
Mid-Level
20問データエンジニアリングのためのBigQuery
Mid-Level
20問PostgreSQL - 管理
Mid-Level
20問Data EngineeringのためのData Modeling
Mid-Level
20問Fivetran & Airbyte - データ取り込み
Mid-Level
20問dbt - 基礎
Mid-Level
20問Apache Airflow - 基礎
Mid-Level
20問Kubernetes - 基礎
Mid-Level
20問dbt - 高度な機能
Senior
20問ETL / ELT / ETLT パターン
Senior
20問Apache Airflow - 上級
Senior
20問Airflow + dbt - パイプラインオーケストレーション
Senior
20問PySpark - 大規模処理
Senior
20問Google Pub/Sub - データストリーミング
Senior
20問Kubernetes - 本番環境とスケーリング
Senior
20問Terraform - Infrastructure as Code
Senior
20問NoSQLデータベース
Senior
20問モダンなData Architecture
Senior
20問モニタリングとオブザーバビリティ
Senior
20問IAMとデータセキュリティ
Senior
20問