Data Engineering

PySpark - Procesamiento a gran escala

SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching

20 preguntas de entrevista·
Senior
1

¿Cuál es el punto de entrada principal para crear una aplicación PySpark?

Respuesta

SparkSession es el punto de entrada unificado introducido en Spark 2.0. Reemplaza los antiguos SparkContext, SQLContext y HiveContext en un solo objeto. SparkSession permite crear DataFrames, ejecutar consultas SQL y configurar la aplicación Spark de manera centralizada.

2

¿Cuál es la diferencia fundamental entre un RDD y un DataFrame en PySpark?

Respuesta

Un DataFrame tiene un esquema estructurado con columnas con nombre y tipo, lo que permite a Spark optimizar las consultas mediante Catalyst. Un RDD es una colección distribuida no estructurada donde Spark no conoce la estructura interna de los datos, limitando las optimizaciones posibles.

3

¿Cuál es la diferencia entre una transformación y una acción en PySpark?

Respuesta

Las transformaciones se evalúan de forma perezosa (lazy) y construyen un plan de ejecución sin desencadenar el cálculo. Las acciones desencadenan la ejecución real del plan en el cluster y devuelven un resultado al driver. Esta distinción permite a Spark optimizar el plan antes de la ejecución.

4

Entre las siguientes operaciones, ¿cuál es una acción de PySpark?

5

¿Cómo crear un DataFrame a partir de un archivo Parquet en PySpark?

+17 preguntas de entrevista

Domina Data Engineering para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis