
Pipelines ML y Validación
Pipelines de scikit-learn, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, estratificación
1¿Cuál es la principal ventaja de usar un Pipeline de scikit-learn en lugar de aplicar las transformaciones manualmente?
¿Cuál es la principal ventaja de usar un Pipeline de scikit-learn en lugar de aplicar las transformaciones manualmente?
Respuesta
Un Pipeline garantiza que las mismas transformaciones se apliquen de manera consistente a los datos de entrenamiento y prueba. Encapsula todos los pasos de preprocesamiento y modelado en un solo objeto, lo que simplifica el código, previene el data leakage y facilita la puesta en producción del modelo.
2¿Qué método llamar en un Pipeline para entrenar todos los pasos y hacer una predicción?
¿Qué método llamar en un Pipeline para entrenar todos los pasos y hacer una predicción?
Respuesta
El método fit_predict no existe para Pipelines de regresión o clasificación. Es necesario llamar primero a fit() para entrenar el pipeline, luego a predict() para obtener las predicciones. Alternativamente, fit() seguido de predict() pueden ser llamados por separado para mayor control.
3¿Qué es el data leakage en un contexto de machine learning?
¿Qué es el data leakage en un contexto de machine learning?
Respuesta
El data leakage ocurre cuando información del conjunto de test o datos futuros se usa accidentalmente durante el entrenamiento. Puede ocurrir durante el preprocesamiento (calcular la media sobre todo el dataset antes del split) o mediante features que contienen indirectamente el objetivo. Resulta en un rendimiento artificialmente alto que no se generaliza.
¿Cuál es el rol de ColumnTransformer en scikit-learn?
¿Qué es la cross-validation K-Fold?
+19 preguntas de entrevista
Otros temas de entrevista Data Science & ML
Fundamentos de Python
Programación Orientada a Objetos en Python
Estructuras de datos en Python
Fundamentos de Git
Fundamentos de SQL
Fundamentos de NumPy
Fundamentos de Pandas
Jupyter & Google Colab
SQL Joins y consultas avanzadas
Pandas avanzado
Visualización con Matplotlib & Seaborn
Visualizaciones interactivas con Plotly
Estadística descriptiva
Estadística inferencial
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisado: Regresión
ML Supervisado: Clasificación
Árboles de Decisión y Ensembles
ML No Supervisado
Series Temporales y Pronóstico
Fundamentos de Deep Learning
TensorFlow & Keras
CNN y clasificación de imágenes
RNN y Secuencias
Transformers y Attention
NLP y Hugging Face
GenAI y LangChain
MLOps y Despliegue
Domina Data Science & ML para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis