Question 1

PySparkアプリケーションを作成するための主要なエントリーポイントは何ですか？

Accepted Answer

SparkSessionはSpark 2.0で導入された統一されたエントリーポイントです。古いSparkContext、SQLContext、HiveContextを単一のオブジェクトに置き換えます。SparkSessionを使用すると、DataFrameの作成、SQLクエリの実行、Sparkアプリケーションの集中管理が可能になります。

Question 2

PySparkにおけるRDDとDataFrameの基本的な違いは何ですか？

Accepted Answer

DataFrameは名前付きで型付けされた列を持つ構造化スキーマを持ち、SparkがCatalystを介してクエリを最適化できます。RDDは構造化されていない分散コレクションで、Sparkは内部のデータ構造を知らないため、可能な最適化が制限されます。

Question 3

PySparkにおけるtransformationとactionの違いは何ですか？

Accepted Answer

transformationは遅延評価され、計算をトリガーすることなく実行プランを構築します。actionはクラスター上でプランの実際の実行をトリガーし、結果をdriverに返します。この区別により、Sparkは実行前にプランを最適化できます。

PySpark - 大規模処理

PySparkアプリケーションを作成するための主要なエントリーポイントは何ですか？

回答

PySparkにおけるRDDとDataFrameの基本的な違いは何ですか？

回答

PySparkにおけるtransformationとactionの違いは何ですか？

回答

次の操作のうち、PySparkのactionはどれですか？

PySparkでParquetファイルからDataFrameを作成するにはどうすればよいですか？

その他のData Engineering面接トピック

Linux & Shell - 基礎

Git & GitHub - 基礎

データエンジニアリングのための高度なPython

Docker - 基礎

Google Cloud Platform - 基礎

CI/CDとコード品質

Docker Compose

FastAPI - データAPI

Data Engineering向けの高度なSQL

Data Lake - アーキテクチャと取り込み

データエンジニアリングのためのBigQuery

PostgreSQL - 管理

Data EngineeringのためのData Modeling

Fivetran & Airbyte - データ取り込み

dbt - 基礎

Apache Airflow - 基礎

Kubernetes - 基礎

dbt - 高度な機能

ETL / ELT / ETLT パターン

Apache Airflow - 上級

Airflow + dbt - パイプラインオーケストレーション

Google Pub/Sub - データストリーミング

Apache Beam & Dataflow

Kubernetes - 本番環境とスケーリング

Terraform - Infrastructure as Code

NoSQLデータベース

モダンなData Architecture

モニタリングとオブザーバビリティ

IAMとデータセキュリティ

次の面接に向けてData Engineeringをマスター