Data Science & ML

Feature Engineering

Codificación categórica, scaling, normalización, feature selection, creación de features, pipelines

22 preguntas de entrevista·
Mid-Level
1

¿Qué tipo de encoding usar para una variable categórica nominal con pocas categorías distintas (menos de 10)?

Respuesta

One-Hot Encoding es ideal para variables nominales con pocas categorías porque crea una columna binaria para cada categoría sin introducir un orden artificial. A diferencia de Label Encoding que asigna números (0, 1, 2...), One-Hot evita que el modelo interprete una relación ordinal inexistente entre las categorías.

2

¿Cuál es la diferencia principal entre StandardScaler y MinMaxScaler?

Respuesta

StandardScaler centra los datos alrededor de 0 con una desviación estándar de 1 (z-score), mientras que MinMaxScaler normaliza los datos dentro de un rango fijo, generalmente [0, 1]. StandardScaler es menos sensible a los outliers porque usa la media y la desviación estándar, mientras que MinMaxScaler puede verse fuertemente afectado por valores extremos.

3

¿Qué scaler privilegiar cuando los datos contienen outliers importantes?

Respuesta

RobustScaler usa mediana e intervalo intercuartil (IQR) en lugar de media y desviación estándar, lo que lo hace robusto frente a los outliers. Los valores extremos no afectan significativamente estas estadísticas, a diferencia de StandardScaler o MinMaxScaler que pueden ser fuertemente sesgados por los outliers.

4

¿Qué es Label Encoding y cuándo es apropiado usarlo?

5

¿Qué problema puede causar Target Encoding y cómo evitarlo?

+19 preguntas de entrevista

Domina Data Science & ML para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis