
PySpark - Traitement à grande échelle
SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching
1Quel est le point d'entrée principal pour créer une application PySpark ?
Quel est le point d'entrée principal pour créer une application PySpark ?
Réponse
SparkSession est le point d'entrée unifié introduit dans Spark 2.0. Il remplace les anciens SparkContext, SQLContext et HiveContext en un seul objet. SparkSession permet de créer des DataFrames, d'exécuter des requêtes SQL et de configurer l'application Spark de manière centralisée.
2Quelle est la différence fondamentale entre un RDD et un DataFrame en PySpark ?
Quelle est la différence fondamentale entre un RDD et un DataFrame en PySpark ?
Réponse
Un DataFrame possède un schéma structuré avec des colonnes nommées et typées, ce qui permet à Spark d'optimiser les requêtes via Catalyst. Un RDD est une collection distribuée non structurée où Spark ne connaît pas la structure interne des données, limitant les optimisations possibles.
3Quelle est la différence entre une transformation et une action en PySpark ?
Quelle est la différence entre une transformation et une action en PySpark ?
Réponse
Les transformations sont évaluées paresseusement (lazy) et construisent un plan d'exécution sans déclencher de calcul. Les actions déclenchent l'exécution réelle du plan sur le cluster et retournent un résultat au driver. Cette distinction permet à Spark d'optimiser le plan avant exécution.
Parmi les opérations suivantes, laquelle est une action PySpark ?
Comment créer un DataFrame à partir d'un fichier Parquet en PySpark ?
+17 questions d'entretien
Autres sujets d'entretien Data Engineering
Linux & Shell - Fondamentaux
Git & GitHub - Fondamentaux
Python avancé pour le Data Engineering
Docker - Fondamentaux
Google Cloud Platform - Fondamentaux
CI/CD et qualité de code
Docker Compose
FastAPI - APIs de données
SQL avancé pour le Data Engineering
Data Lake - Architecture et ingestion
BigQuery pour le Data Engineering
PostgreSQL - Administration
Data Modeling pour le Data Engineering
Fivetran & Airbyte - Ingestion de données
dbt - Fondamentaux
Apache Airflow - Fondamentaux
Kubernetes - Fondamentaux
dbt - Fonctionnalités avancées
Patterns ETL / ELT / ETLT
Apache Airflow - Avancé
Airflow + dbt - Orchestration de pipelines
Google Pub/Sub - Streaming de données
Apache Beam & Dataflow
Kubernetes - Production et scaling
Terraform - Infrastructure as Code
Bases de données NoSQL
Architecture Data moderne
Monitoring et observabilité
IAM et sécurité des données
Maîtrise Data Engineering pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement