Question 1

Quel est le point d'entrée principal pour créer une application PySpark ?

Accepted Answer

SparkSession est le point d'entrée unifié introduit dans Spark 2.0. Il remplace les anciens SparkContext, SQLContext et HiveContext en un seul objet. SparkSession permet de créer des DataFrames, d'exécuter des requêtes SQL et de configurer l'application Spark de manière centralisée.

Question 2

Quelle est la différence fondamentale entre un RDD et un DataFrame en PySpark ?

Accepted Answer

Un DataFrame possède un schéma structuré avec des colonnes nommées et typées, ce qui permet à Spark d'optimiser les requêtes via Catalyst. Un RDD est une collection distribuée non structurée où Spark ne connaît pas la structure interne des données, limitant les optimisations possibles.

Question 3

Quelle est la différence entre une transformation et une action en PySpark ?

Accepted Answer

Les transformations sont évaluées paresseusement (lazy) et construisent un plan d'exécution sans déclencher de calcul. Les actions déclenchent l'exécution réelle du plan sur le cluster et retournent un résultat au driver. Cette distinction permet à Spark d'optimiser le plan avant exécution.

PySpark - Traitement à grande échelle

Quel est le point d'entrée principal pour créer une application PySpark ?

Réponse

Quelle est la différence fondamentale entre un RDD et un DataFrame en PySpark ?

Réponse

Quelle est la différence entre une transformation et une action en PySpark ?

Réponse

Parmi les opérations suivantes, laquelle est une action PySpark ?

Comment créer un DataFrame à partir d'un fichier Parquet en PySpark ?

Autres sujets d'entretien Data Engineering

Linux & Shell - Fondamentaux

Git & GitHub - Fondamentaux

Python avancé pour le Data Engineering

Docker - Fondamentaux

Google Cloud Platform - Fondamentaux

CI/CD et qualité de code

Docker Compose

FastAPI - APIs de données

SQL avancé pour le Data Engineering

Data Lake - Architecture et ingestion

BigQuery pour le Data Engineering

PostgreSQL - Administration

Data Modeling pour le Data Engineering

Fivetran & Airbyte - Ingestion de données

dbt - Fondamentaux

Apache Airflow - Fondamentaux

Kubernetes - Fondamentaux

dbt - Fonctionnalités avancées

Patterns ETL / ELT / ETLT

Apache Airflow - Avancé

Airflow + dbt - Orchestration de pipelines

Google Pub/Sub - Streaming de données

Apache Beam & Dataflow

Kubernetes - Production et scaling

Terraform - Infrastructure as Code

Bases de données NoSQL

Architecture Data moderne

Monitoring et observabilité

IAM et sécurité des données

Maîtrise Data Engineering pour ton prochain entretien