Question 1

Qual è il punto di ingresso principale per creare un'applicazione PySpark?

Accepted Answer

SparkSession è il punto di ingresso unificato introdotto in Spark 2.0. Sostituisce i vecchi SparkContext, SQLContext e HiveContext con un singolo oggetto. SparkSession consente di creare DataFrame, eseguire query SQL e configurare l'applicazione Spark in modo centralizzato.

Question 2

Qual è la differenza fondamentale tra un RDD e un DataFrame in PySpark?

Accepted Answer

Un DataFrame ha uno schema strutturato con colonne tipizzate e con nome, permettendo a Spark di ottimizzare le query tramite Catalyst. Un RDD è una collezione distribuita non strutturata in cui Spark non conosce la struttura interna dei dati, limitando le possibili ottimizzazioni.

Question 3

Qual è la differenza tra una transformation e un'action in PySpark?

Accepted Answer

Le transformations sono valutate in modo lazy e costruiscono un piano di esecuzione senza scatenare il calcolo. Le actions scatenano l'effettiva esecuzione del piano sul cluster e restituiscono un risultato al driver. Questa distinzione permette a Spark di ottimizzare il piano prima dell'esecuzione.

PySpark - Elaborazione su larga scala

Qual è il punto di ingresso principale per creare un'applicazione PySpark?

Risposta

Qual è la differenza fondamentale tra un RDD e un DataFrame in PySpark?

Risposta

Qual è la differenza tra una transformation e un'action in PySpark?

Risposta

Tra le seguenti operazioni, quale è un'action di PySpark?

Come creare un DataFrame da un file Parquet in PySpark?

Altri argomenti di colloquio Data Engineering

Linux & Shell - Fondamenti

Git & GitHub - Fondamenti

Python avanzato per Data Engineering

Docker - Fondamenti

Google Cloud Platform - Fondamenti

CI/CD e qualità del codice

Docker Compose

FastAPI - API per dati

SQL avanzato per il Data Engineering

Data Lake - Architettura e ingestione

BigQuery per il Data Engineering

PostgreSQL - Amministrazione

Data Modeling per Data Engineering

Fivetran & Airbyte - Ingestione dati

dbt - Fondamenti

Apache Airflow - Fondamenti

Kubernetes - Fondamenti

dbt - Funzionalità avanzate

Pattern ETL / ELT / ETLT

Apache Airflow - Avanzato

Airflow + dbt - Orchestrazione delle pipeline

Google Pub/Sub - Streaming di dati

Apache Beam & Dataflow

Kubernetes - Produzione e scaling

Terraform - Infrastructure as Code

Database NoSQL

Data Architecture moderna

Monitoraggio e osservabilità

IAM e sicurezza dei dati

Padroneggia Data Engineering per il tuo prossimo colloquio