Question 1

¿Qué tipo de encoding usar para una variable categórica nominal con pocas categorías distintas (menos de 10)?

Accepted Answer

One-Hot Encoding es ideal para variables nominales con pocas categorías porque crea una columna binaria para cada categoría sin introducir un orden artificial. A diferencia de Label Encoding que asigna números (0, 1, 2...), One-Hot evita que el modelo interprete una relación ordinal inexistente entre las categorías.

Question 2

¿Cuál es la diferencia principal entre StandardScaler y MinMaxScaler?

Accepted Answer

StandardScaler centra los datos alrededor de 0 con una desviación estándar de 1 (z-score), mientras que MinMaxScaler normaliza los datos dentro de un rango fijo, generalmente [0, 1]. StandardScaler es menos sensible a los outliers porque usa la media y la desviación estándar, mientras que MinMaxScaler puede verse fuertemente afectado por valores extremos.

Question 3

¿Qué scaler privilegiar cuando los datos contienen outliers importantes?

Accepted Answer

RobustScaler usa mediana e intervalo intercuartil (IQR) en lugar de media y desviación estándar, lo que lo hace robusto frente a los outliers. Los valores extremos no afectan significativamente estas estadísticas, a diferencia de StandardScaler o MinMaxScaler que pueden ser fuertemente sesgados por los outliers.

Feature Engineering

¿Qué tipo de encoding usar para una variable categórica nominal con pocas categorías distintas (menos de 10)?

Respuesta

¿Cuál es la diferencia principal entre StandardScaler y MinMaxScaler?

Respuesta

¿Qué scaler privilegiar cuando los datos contienen outliers importantes?

Respuesta

¿Qué es Label Encoding y cuándo es apropiado usarlo?

¿Qué problema puede causar Target Encoding y cómo evitarlo?

Otros temas de entrevista Data Science & ML

Fundamentos de Python

Programación Orientada a Objetos en Python

Estructuras de datos en Python

Fundamentos de Git

Fundamentos de SQL

Fundamentos de NumPy

Fundamentos de Pandas

Jupyter & Google Colab

SQL Joins y consultas avanzadas

Pandas avanzado

Visualización con Matplotlib & Seaborn

Visualizaciones interactivas con Plotly

Estadística descriptiva

Estadística inferencial

Web Scraping

BigQuery & Cloud Data

ML Supervisado: Regresión

ML Supervisado: Clasificación

Árboles de Decisión y Ensembles

ML No Supervisado

Pipelines ML y Validación

Series Temporales y Pronóstico

Fundamentos de Deep Learning

TensorFlow & Keras

CNN y clasificación de imágenes

RNN y Secuencias

Transformers y Attention

NLP y Hugging Face

GenAI y LangChain

MLOps y Despliegue

Domina Data Science & ML para tu próxima entrevista