
PySpark - Procesamiento a gran escala
SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching
1¿Cuál es el punto de entrada principal para crear una aplicación PySpark?
¿Cuál es el punto de entrada principal para crear una aplicación PySpark?
Respuesta
SparkSession es el punto de entrada unificado introducido en Spark 2.0. Reemplaza los antiguos SparkContext, SQLContext y HiveContext en un solo objeto. SparkSession permite crear DataFrames, ejecutar consultas SQL y configurar la aplicación Spark de manera centralizada.
2¿Cuál es la diferencia fundamental entre un RDD y un DataFrame en PySpark?
¿Cuál es la diferencia fundamental entre un RDD y un DataFrame en PySpark?
Respuesta
Un DataFrame tiene un esquema estructurado con columnas con nombre y tipo, lo que permite a Spark optimizar las consultas mediante Catalyst. Un RDD es una colección distribuida no estructurada donde Spark no conoce la estructura interna de los datos, limitando las optimizaciones posibles.
3¿Cuál es la diferencia entre una transformación y una acción en PySpark?
¿Cuál es la diferencia entre una transformación y una acción en PySpark?
Respuesta
Las transformaciones se evalúan de forma perezosa (lazy) y construyen un plan de ejecución sin desencadenar el cálculo. Las acciones desencadenan la ejecución real del plan en el cluster y devuelven un resultado al driver. Esta distinción permite a Spark optimizar el plan antes de la ejecución.
Entre las siguientes operaciones, ¿cuál es una acción de PySpark?
¿Cómo crear un DataFrame a partir de un archivo Parquet en PySpark?
+17 preguntas de entrevista
Otros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avanzado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD y calidad de código
Docker Compose
FastAPI - APIs de datos
SQL avanzado para Data Engineering
Data Lake - Arquitectura e ingesta
BigQuery para Data Engineering
PostgreSQL - Administración
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingesta de datos
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Funcionalidades avanzadas
Patrones ETL / ELT / ETLT
Apache Airflow - Avanzado
Airflow + dbt - Orquestación de pipelines
Google Pub/Sub - Streaming de datos
Apache Beam & Dataflow
Kubernetes - Producción y escalado
Terraform - Infrastructure as Code
Bases de datos NoSQL
Arquitectura Data moderna
Monitoreo y observabilidad
IAM y seguridad de datos
Domina Data Engineering para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis