Data Science & ML

Pipelines ML y Validación

Pipelines de scikit-learn, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, estratificación

22 preguntas de entrevista·
Mid-Level
1

¿Cuál es la principal ventaja de usar un Pipeline de scikit-learn en lugar de aplicar las transformaciones manualmente?

Respuesta

Un Pipeline garantiza que las mismas transformaciones se apliquen de manera consistente a los datos de entrenamiento y prueba. Encapsula todos los pasos de preprocesamiento y modelado en un solo objeto, lo que simplifica el código, previene el data leakage y facilita la puesta en producción del modelo.

2

¿Qué método llamar en un Pipeline para entrenar todos los pasos y hacer una predicción?

Respuesta

El método fit_predict no existe para Pipelines de regresión o clasificación. Es necesario llamar primero a fit() para entrenar el pipeline, luego a predict() para obtener las predicciones. Alternativamente, fit() seguido de predict() pueden ser llamados por separado para mayor control.

3

¿Qué es el data leakage en un contexto de machine learning?

Respuesta

El data leakage ocurre cuando información del conjunto de test o datos futuros se usa accidentalmente durante el entrenamiento. Puede ocurrir durante el preprocesamiento (calcular la media sobre todo el dataset antes del split) o mediante features que contienen indirectamente el objetivo. Resulta en un rendimiento artificialmente alto que no se generaliza.

4

¿Cuál es el rol de ColumnTransformer en scikit-learn?

5

¿Qué es la cross-validation K-Fold?

+19 preguntas de entrevista

Domina Data Science & ML para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis