Data Engineering

PySpark - Przetwarzanie na dużą skalę

SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDF, Spark SQL, caching

20 pytań z rozmów·
Senior
1

Jaki jest główny punkt wejścia do tworzenia aplikacji PySpark?

Odpowiedź

SparkSession to ujednolicony punkt wejścia wprowadzony w Spark 2.0. Zastępuje stare SparkContext, SQLContext i HiveContext jednym obiektem. SparkSession umożliwia tworzenie DataFrame'ów, wykonywanie zapytań SQL oraz scentralizowane konfigurowanie aplikacji Spark.

2

Jaka jest fundamentalna różnica między RDD a DataFrame w PySpark?

Odpowiedź

DataFrame ma ustrukturyzowany schemat z nazwanymi i typowanymi kolumnami, co pozwala Spark optymalizować zapytania poprzez Catalyst. RDD to nieustrukturyzowana rozproszona kolekcja, w której Spark nie zna wewnętrznej struktury danych, ograniczając możliwe optymalizacje.

3

Jaka jest różnica między transformation a action w PySpark?

Odpowiedź

Transformacje są oceniane leniwie (lazy) i budują plan wykonania bez wyzwalania obliczeń. Akcje wyzwalają faktyczne wykonanie planu na klastrze i zwracają wynik do drivera. To rozróżnienie pozwala Sparkowi optymalizować plan przed wykonaniem.

4

Która z poniższych operacji jest action w PySpark?

5

Jak utworzyć DataFrame z pliku Parquet w PySpark?

+17 pytań z rozmów

Opanuj Data Engineering na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo