Question 1

¿Cuál es la principal ventaja de usar un Pipeline de scikit-learn en lugar de aplicar las transformaciones manualmente?

Accepted Answer

Un Pipeline garantiza que las mismas transformaciones se apliquen de manera consistente a los datos de entrenamiento y prueba. Encapsula todos los pasos de preprocesamiento y modelado en un solo objeto, lo que simplifica el código, previene el data leakage y facilita la puesta en producción del modelo.

Question 2

¿Qué método llamar en un Pipeline para entrenar todos los pasos y hacer una predicción?

Accepted Answer

El método fit_predict no existe para Pipelines de regresión o clasificación. Es necesario llamar primero a fit() para entrenar el pipeline, luego a predict() para obtener las predicciones. Alternativamente, fit() seguido de predict() pueden ser llamados por separado para mayor control.

Question 3

¿Qué es el data leakage en un contexto de machine learning?

Accepted Answer

El data leakage ocurre cuando información del conjunto de test o datos futuros se usa accidentalmente durante el entrenamiento. Puede ocurrir durante el preprocesamiento (calcular la media sobre todo el dataset antes del split) o mediante features que contienen indirectamente el objetivo. Resulta en un rendimiento artificialmente alto que no se generaliza.

Pipelines ML y Validación

¿Cuál es la principal ventaja de usar un Pipeline de scikit-learn en lugar de aplicar las transformaciones manualmente?

Respuesta

¿Qué método llamar en un Pipeline para entrenar todos los pasos y hacer una predicción?

Respuesta

¿Qué es el data leakage en un contexto de machine learning?

Respuesta

¿Cuál es el rol de ColumnTransformer en scikit-learn?

¿Qué es la cross-validation K-Fold?

Otros temas de entrevista Data Science & ML

Fundamentos de Python

Programación Orientada a Objetos en Python

Estructuras de datos en Python

Fundamentos de Git

Fundamentos de SQL

Fundamentos de NumPy

Fundamentos de Pandas

Jupyter & Google Colab

SQL Joins y consultas avanzadas

Pandas avanzado

Visualización con Matplotlib & Seaborn

Visualizaciones interactivas con Plotly

Estadística descriptiva

Estadística inferencial

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisado: Regresión

ML Supervisado: Clasificación

Árboles de Decisión y Ensembles

ML No Supervisado

Series Temporales y Pronóstico

Fundamentos de Deep Learning

TensorFlow & Keras

CNN y clasificación de imágenes

RNN y Secuencias

Transformers y Attention

NLP y Hugging Face

GenAI y LangChain

MLOps y Despliegue

Domina Data Science & ML para tu próxima entrevista