Question 1

¿Qué método permite aplicar varias funciones de agregación diferentes a una sola columna con groupby?

Accepted Answer

El método agg() (o aggregate()) permite aplicar múltiples funciones de agregación a las mismas columnas. Puedes pasar una lista de funciones como ['sum', 'mean', 'count'] o un diccionario para especificar funciones diferentes por columna. Esta flexibilidad es esencial para crear informes estadísticos completos en una sola operación.

Question 2

¿Cómo nombrar explícitamente las columnas resultantes durante una agregación con groupby usando la sintaxis de named aggregation?

Accepted Answer

La sintaxis named aggregation usa agg() con tuplas nombradas mediante keyword arguments. Por ejemplo: df.groupby('category').agg(total_sales=('sales', 'sum'), avg_price=('price', 'mean')). Este enfoque produce nombres de columnas explícitos y legibles, evitando MultiIndex en columnas que pueden complicar procesamientos posteriores.

Question 3

¿Cuál es la principal diferencia entre transform() y apply() en un contexto groupby?

Accepted Answer

transform() devuelve un resultado del mismo tamaño que la entrada, alineado al índice original, ideal para agregar estadísticas de grupo a cada fila (ej.: media del grupo). apply() es más flexible y puede devolver un resultado de tamaño diferente, pero generalmente es más lento. Usa transform() para operaciones como normalización por grupo o cálculo de z-scores.

Pandas avanzado

¿Qué método permite aplicar varias funciones de agregación diferentes a una sola columna con groupby?

Respuesta

¿Cómo nombrar explícitamente las columnas resultantes durante una agregación con groupby usando la sintaxis de named aggregation?

Respuesta

¿Cuál es la principal diferencia entre transform() y apply() en un contexto groupby?

Respuesta

¿Cómo filtrar grupos en un groupby para conservar solo aquellos que satisfacen una condición (por ejemplo, grupos con más de 10 elementos)?

¿Cuál es la diferencia entre pd.merge() con how='left' y how='inner'?

Otros temas de entrevista Data Science & ML

Fundamentos de Python

Programación Orientada a Objetos en Python

Estructuras de datos en Python

Fundamentos de Git

Fundamentos de SQL

Fundamentos de NumPy

Fundamentos de Pandas

Jupyter & Google Colab

SQL Joins y consultas avanzadas

Visualización con Matplotlib & Seaborn

Visualizaciones interactivas con Plotly

Estadística descriptiva

Estadística inferencial

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisado: Regresión

ML Supervisado: Clasificación

Árboles de Decisión y Ensembles

ML No Supervisado

Pipelines ML y Validación

Series Temporales y Pronóstico

Fundamentos de Deep Learning

TensorFlow & Keras

CNN y clasificación de imágenes

RNN y Secuencias

Transformers y Attention

NLP y Hugging Face

GenAI y LangChain

MLOps y Despliegue

Domina Data Science & ML para tu próxima entrevista