
Feature Engineering
Codificación categórica, scaling, normalización, feature selection, creación de features, pipelines
1¿Qué tipo de encoding usar para una variable categórica nominal con pocas categorías distintas (menos de 10)?
¿Qué tipo de encoding usar para una variable categórica nominal con pocas categorías distintas (menos de 10)?
Respuesta
One-Hot Encoding es ideal para variables nominales con pocas categorías porque crea una columna binaria para cada categoría sin introducir un orden artificial. A diferencia de Label Encoding que asigna números (0, 1, 2...), One-Hot evita que el modelo interprete una relación ordinal inexistente entre las categorías.
2¿Cuál es la diferencia principal entre StandardScaler y MinMaxScaler?
¿Cuál es la diferencia principal entre StandardScaler y MinMaxScaler?
Respuesta
StandardScaler centra los datos alrededor de 0 con una desviación estándar de 1 (z-score), mientras que MinMaxScaler normaliza los datos dentro de un rango fijo, generalmente [0, 1]. StandardScaler es menos sensible a los outliers porque usa la media y la desviación estándar, mientras que MinMaxScaler puede verse fuertemente afectado por valores extremos.
3¿Qué scaler privilegiar cuando los datos contienen outliers importantes?
¿Qué scaler privilegiar cuando los datos contienen outliers importantes?
Respuesta
RobustScaler usa mediana e intervalo intercuartil (IQR) en lugar de media y desviación estándar, lo que lo hace robusto frente a los outliers. Los valores extremos no afectan significativamente estas estadísticas, a diferencia de StandardScaler o MinMaxScaler que pueden ser fuertemente sesgados por los outliers.
¿Qué es Label Encoding y cuándo es apropiado usarlo?
¿Qué problema puede causar Target Encoding y cómo evitarlo?
+19 preguntas de entrevista
Otros temas de entrevista Data Science & ML
Fundamentos de Python
Programación Orientada a Objetos en Python
Estructuras de datos en Python
Fundamentos de Git
Fundamentos de SQL
Fundamentos de NumPy
Fundamentos de Pandas
Jupyter & Google Colab
SQL Joins y consultas avanzadas
Pandas avanzado
Visualización con Matplotlib & Seaborn
Visualizaciones interactivas con Plotly
Estadística descriptiva
Estadística inferencial
Web Scraping
BigQuery & Cloud Data
ML Supervisado: Regresión
ML Supervisado: Clasificación
Árboles de Decisión y Ensembles
ML No Supervisado
Pipelines ML y Validación
Series Temporales y Pronóstico
Fundamentos de Deep Learning
TensorFlow & Keras
CNN y clasificación de imágenes
RNN y Secuencias
Transformers y Attention
NLP y Hugging Face
GenAI y LangChain
MLOps y Despliegue
Domina Data Science & ML para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis