
PySpark - Elaborazione su larga scala
SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDF, Spark SQL, caching
1Qual è il punto di ingresso principale per creare un'applicazione PySpark?
Qual è il punto di ingresso principale per creare un'applicazione PySpark?
Risposta
SparkSession è il punto di ingresso unificato introdotto in Spark 2.0. Sostituisce i vecchi SparkContext, SQLContext e HiveContext con un singolo oggetto. SparkSession consente di creare DataFrame, eseguire query SQL e configurare l'applicazione Spark in modo centralizzato.
2Qual è la differenza fondamentale tra un RDD e un DataFrame in PySpark?
Qual è la differenza fondamentale tra un RDD e un DataFrame in PySpark?
Risposta
Un DataFrame ha uno schema strutturato con colonne tipizzate e con nome, permettendo a Spark di ottimizzare le query tramite Catalyst. Un RDD è una collezione distribuita non strutturata in cui Spark non conosce la struttura interna dei dati, limitando le possibili ottimizzazioni.
3Qual è la differenza tra una transformation e un'action in PySpark?
Qual è la differenza tra una transformation e un'action in PySpark?
Risposta
Le transformations sono valutate in modo lazy e costruiscono un piano di esecuzione senza scatenare il calcolo. Le actions scatenano l'effettiva esecuzione del piano sul cluster e restituiscono un risultato al driver. Questa distinzione permette a Spark di ottimizzare il piano prima dell'esecuzione.
Tra le seguenti operazioni, quale è un'action di PySpark?
Come creare un DataFrame da un file Parquet in PySpark?
+17 domande da colloquio
Altri argomenti di colloquio Data Engineering
Linux & Shell - Fondamenti
Git & GitHub - Fondamenti
Python avanzato per Data Engineering
Docker - Fondamenti
Google Cloud Platform - Fondamenti
CI/CD e qualità del codice
Docker Compose
FastAPI - API per dati
SQL avanzato per il Data Engineering
Data Lake - Architettura e ingestione
BigQuery per il Data Engineering
PostgreSQL - Amministrazione
Data Modeling per Data Engineering
Fivetran & Airbyte - Ingestione dati
dbt - Fondamenti
Apache Airflow - Fondamenti
Kubernetes - Fondamenti
dbt - Funzionalità avanzate
Pattern ETL / ELT / ETLT
Apache Airflow - Avanzato
Airflow + dbt - Orchestrazione delle pipeline
Google Pub/Sub - Streaming di dati
Apache Beam & Dataflow
Kubernetes - Produzione e scaling
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture moderna
Monitoraggio e osservabilità
IAM e sicurezza dei dati
Padroneggia Data Engineering per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis