Data Engineering

PySpark - Elaborazione su larga scala

SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDF, Spark SQL, caching

20 domande da colloquio·
Senior
1

Qual è il punto di ingresso principale per creare un'applicazione PySpark?

Risposta

SparkSession è il punto di ingresso unificato introdotto in Spark 2.0. Sostituisce i vecchi SparkContext, SQLContext e HiveContext con un singolo oggetto. SparkSession consente di creare DataFrame, eseguire query SQL e configurare l'applicazione Spark in modo centralizzato.

2

Qual è la differenza fondamentale tra un RDD e un DataFrame in PySpark?

Risposta

Un DataFrame ha uno schema strutturato con colonne tipizzate e con nome, permettendo a Spark di ottimizzare le query tramite Catalyst. Un RDD è una collezione distribuita non strutturata in cui Spark non conosce la struttura interna dei dati, limitando le possibili ottimizzazioni.

3

Qual è la differenza tra una transformation e un'action in PySpark?

Risposta

Le transformations sono valutate in modo lazy e costruiscono un piano di esecuzione senza scatenare il calcolo. Le actions scatenano l'effettiva esecuzione del piano sul cluster e restituiscono un risultato al driver. Questa distinzione permette a Spark di ottimizzare il piano prima dell'esecuzione.

4

Tra le seguenti operazioni, quale è un'action di PySpark?

5

Come creare un DataFrame da un file Parquet in PySpark?

+17 domande da colloquio

Padroneggia Data Engineering per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis