Question 1

¿Cuál es el punto de entrada principal para crear una aplicación PySpark?

Accepted Answer

SparkSession es el punto de entrada unificado introducido en Spark 2.0. Reemplaza los antiguos SparkContext, SQLContext y HiveContext en un solo objeto. SparkSession permite crear DataFrames, ejecutar consultas SQL y configurar la aplicación Spark de manera centralizada.

Question 2

¿Cuál es la diferencia fundamental entre un RDD y un DataFrame en PySpark?

Accepted Answer

Un DataFrame tiene un esquema estructurado con columnas con nombre y tipo, lo que permite a Spark optimizar las consultas mediante Catalyst. Un RDD es una colección distribuida no estructurada donde Spark no conoce la estructura interna de los datos, limitando las optimizaciones posibles.

Question 3

¿Cuál es la diferencia entre una transformación y una acción en PySpark?

Accepted Answer

Las transformaciones se evalúan de forma perezosa (lazy) y construyen un plan de ejecución sin desencadenar el cálculo. Las acciones desencadenan la ejecución real del plan en el cluster y devuelven un resultado al driver. Esta distinción permite a Spark optimizar el plan antes de la ejecución.

PySpark - Procesamiento a gran escala

¿Cuál es el punto de entrada principal para crear una aplicación PySpark?

Respuesta

¿Cuál es la diferencia fundamental entre un RDD y un DataFrame en PySpark?

Respuesta

¿Cuál es la diferencia entre una transformación y una acción en PySpark?

Respuesta

Entre las siguientes operaciones, ¿cuál es una acción de PySpark?

¿Cómo crear un DataFrame a partir de un archivo Parquet en PySpark?

Otros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avanzado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD y calidad de código

Docker Compose

FastAPI - APIs de datos

SQL avanzado para Data Engineering

Data Lake - Arquitectura e ingesta

BigQuery para Data Engineering

PostgreSQL - Administración

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingesta de datos

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Funcionalidades avanzadas

Patrones ETL / ELT / ETLT

Apache Airflow - Avanzado

Airflow + dbt - Orquestación de pipelines

Google Pub/Sub - Streaming de datos

Apache Beam & Dataflow

Kubernetes - Producción y escalado

Terraform - Infrastructure as Code

Bases de datos NoSQL

Arquitectura Data moderna

Monitoreo y observabilidad

IAM y seguridad de datos

Domina Data Engineering para tu próxima entrevista