Data Engineering

PySpark - 大規模処理

SparkSession、RDD vs DataFrame、transformations、actions、partitioning、broadcast variables、UDFs、Spark SQL、caching

20 面接問題·
Senior
1

PySparkアプリケーションを作成するための主要なエントリーポイントは何ですか?

回答

SparkSessionはSpark 2.0で導入された統一されたエントリーポイントです。古いSparkContext、SQLContext、HiveContextを単一のオブジェクトに置き換えます。SparkSessionを使用すると、DataFrameの作成、SQLクエリの実行、Sparkアプリケーションの集中管理が可能になります。

2

PySparkにおけるRDDとDataFrameの基本的な違いは何ですか?

回答

DataFrameは名前付きで型付けされた列を持つ構造化スキーマを持ち、SparkがCatalystを介してクエリを最適化できます。RDDは構造化されていない分散コレクションで、Sparkは内部のデータ構造を知らないため、可能な最適化が制限されます。

3

PySparkにおけるtransformationとactionの違いは何ですか?

回答

transformationは遅延評価され、計算をトリガーすることなく実行プランを構築します。actionはクラスター上でプランの実際の実行をトリガーし、結果をdriverに返します。この区別により、Sparkは実行前にプランを最適化できます。

4

次の操作のうち、PySparkのactionはどれですか?

5

PySparkでParquetファイルからDataFrameを作成するにはどうすればよいですか?

+17 面接問題

次の面接に向けてData Engineeringをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める