Data Engineering

PySpark - Traitement à grande échelle

SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching

20 questions d'entretien·
Senior
1

Quel est le point d'entrée principal pour créer une application PySpark ?

Réponse

SparkSession est le point d'entrée unifié introduit dans Spark 2.0. Il remplace les anciens SparkContext, SQLContext et HiveContext en un seul objet. SparkSession permet de créer des DataFrames, d'exécuter des requêtes SQL et de configurer l'application Spark de manière centralisée.

2

Quelle est la différence fondamentale entre un RDD et un DataFrame en PySpark ?

Réponse

Un DataFrame possède un schéma structuré avec des colonnes nommées et typées, ce qui permet à Spark d'optimiser les requêtes via Catalyst. Un RDD est une collection distribuée non structurée où Spark ne connaît pas la structure interne des données, limitant les optimisations possibles.

3

Quelle est la différence entre une transformation et une action en PySpark ?

Réponse

Les transformations sont évaluées paresseusement (lazy) et construisent un plan d'exécution sans déclencher de calcul. Les actions déclenchent l'exécution réelle du plan sur le cluster et retournent un résultat au driver. Cette distinction permet à Spark d'optimiser le plan avant exécution.

4

Parmi les opérations suivantes, laquelle est une action PySpark ?

5

Comment créer un DataFrame à partir d'un fichier Parquet en PySpark ?

+17 questions d'entretien

Maîtrise Data Engineering pour ton prochain entretien

Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.

Commencer gratuitement