Data Engineering

PySpark - Verarbeitung im großen Maßstab

SparkSession, RDD vs DataFrame, Transformations, Actions, Partitioning, Broadcast Variables, UDFs, Spark SQL, Caching

20 Interview-Fragen·
Senior
1

Was ist der Haupteinstiegspunkt für die Erstellung einer PySpark-Anwendung?

Antwort

SparkSession ist der einheitliche Einstiegspunkt, der in Spark 2.0 eingeführt wurde. Er ersetzt die alten SparkContext, SQLContext und HiveContext durch ein einziges Objekt. SparkSession ermöglicht das Erstellen von DataFrames, das Ausführen von SQL-Abfragen und die zentralisierte Konfiguration der Spark-Anwendung.

2

Was ist der grundlegende Unterschied zwischen einem RDD und einem DataFrame in PySpark?

Antwort

Ein DataFrame hat ein strukturiertes Schema mit benannten und typisierten Spalten, wodurch Spark Abfragen über Catalyst optimieren kann. Ein RDD ist eine unstrukturierte verteilte Sammlung, bei der Spark die interne Datenstruktur nicht kennt, was mögliche Optimierungen einschränkt.

3

Was ist der Unterschied zwischen einer Transformation und einer Action in PySpark?

Antwort

Transformations werden lazy ausgewertet und erstellen einen Ausführungsplan, ohne eine Berechnung auszulösen. Actions lösen die tatsächliche Ausführung des Plans auf dem Cluster aus und liefern ein Ergebnis an den Driver zurück. Diese Unterscheidung ermöglicht es Spark, den Plan vor der Ausführung zu optimieren.

4

Welche der folgenden Operationen ist eine PySpark-Action?

5

Wie erstellt man ein DataFrame aus einer Parquet-Datei in PySpark?

+17 Interview-Fragen

Meistere Data Engineering für dein nächstes Interview

Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.

Kostenlos starten