Data Science & ML

Pipelines ML e Validação

Pipelines do scikit-learn, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, estratificação

22 perguntas de entrevista·
Mid-Level
1

Qual é a principal vantagem de usar um Pipeline do scikit-learn em vez de aplicar as transformações manualmente?

Resposta

Um Pipeline garante que as mesmas transformações sejam aplicadas de forma consistente aos dados de treino e teste. Encapsula todas as etapas de preprocessing e modelagem em um único objeto, o que simplifica o código, previne data leakage e facilita a implantação do modelo em produção.

2

Qual método chamar em um Pipeline para treinar todas as etapas e fazer uma predição?

Resposta

O método fit_predict não existe para Pipelines de regressão ou classificação. É preciso primeiro chamar fit() para treinar o pipeline, depois predict() para obter as predições. Alternativamente, fit() seguido de predict() podem ser chamados separadamente para maior controle.

3

O que é data leakage em um contexto de machine learning?

Resposta

O data leakage ocorre quando informações do conjunto de teste ou dados futuros são acidentalmente usados durante o treinamento. Isso pode acontecer durante o preprocessing (calcular a média sobre todo o dataset antes do split) ou através de features que contêm indiretamente o target. Resulta em desempenho artificialmente alto que não generaliza.

4

Qual é o papel do ColumnTransformer no scikit-learn?

5

O que é a cross-validation K-Fold?

+19 perguntas de entrevista

Domine Data Science & ML para sua proxima entrevista

Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.

Comece gratis