
PySpark - 大規模処理
SparkSession、RDD vs DataFrame、transformations、actions、partitioning、broadcast variables、UDFs、Spark SQL、caching
20 面接問題·
Senior
1PySparkアプリケーションを作成するための主要なエントリーポイントは何ですか?
1
PySparkアプリケーションを作成するための主要なエントリーポイントは何ですか?
回答
SparkSessionはSpark 2.0で導入された統一されたエントリーポイントです。古いSparkContext、SQLContext、HiveContextを単一のオブジェクトに置き換えます。SparkSessionを使用すると、DataFrameの作成、SQLクエリの実行、Sparkアプリケーションの集中管理が可能になります。
2PySparkにおけるRDDとDataFrameの基本的な違いは何ですか?
2
PySparkにおけるRDDとDataFrameの基本的な違いは何ですか?
回答
DataFrameは名前付きで型付けされた列を持つ構造化スキーマを持ち、SparkがCatalystを介してクエリを最適化できます。RDDは構造化されていない分散コレクションで、Sparkは内部のデータ構造を知らないため、可能な最適化が制限されます。
3PySparkにおけるtransformationとactionの違いは何ですか?
3
PySparkにおけるtransformationとactionの違いは何ですか?
回答
transformationは遅延評価され、計算をトリガーすることなく実行プランを構築します。actionはクラスター上でプランの実際の実行をトリガーし、結果をdriverに返します。この区別により、Sparkは実行前にプランを最適化できます。
4
次の操作のうち、PySparkのactionはどれですか?
5
PySparkでParquetファイルからDataFrameを作成するにはどうすればよいですか?
+17 面接問題
その他のData Engineering面接トピック
Linux & Shell - 基礎
Junior
20問Git & GitHub - 基礎
Junior
20問データエンジニアリングのための高度なPython
Junior
25問Docker - 基礎
Junior
25問Google Cloud Platform - 基礎
Junior
20問CI/CDとコード品質
Mid-Level
20問Docker Compose
Mid-Level
20問FastAPI - データAPI
Mid-Level
20問Data Engineering向けの高度なSQL
Mid-Level
20問Data Lake - アーキテクチャと取り込み
Mid-Level
20問データエンジニアリングのためのBigQuery
Mid-Level
20問PostgreSQL - 管理
Mid-Level
20問Data EngineeringのためのData Modeling
Mid-Level
20問Fivetran & Airbyte - データ取り込み
Mid-Level
20問dbt - 基礎
Mid-Level
20問Apache Airflow - 基礎
Mid-Level
20問Kubernetes - 基礎
Mid-Level
20問dbt - 高度な機能
Senior
20問ETL / ELT / ETLT パターン
Senior
20問Apache Airflow - 上級
Senior
20問Airflow + dbt - パイプラインオーケストレーション
Senior
20問Google Pub/Sub - データストリーミング
Senior
20問Apache Beam & Dataflow
Senior
20問Kubernetes - 本番環境とスケーリング
Senior
20問Terraform - Infrastructure as Code
Senior
20問NoSQLデータベース
Senior
20問モダンなData Architecture
Senior
20問モニタリングとオブザーバビリティ
Senior
20問IAMとデータセキュリティ
Senior
20問