
Pipelines ML e Validação
Pipelines do scikit-learn, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, estratificação
1Qual é a principal vantagem de usar um Pipeline do scikit-learn em vez de aplicar as transformações manualmente?
Qual é a principal vantagem de usar um Pipeline do scikit-learn em vez de aplicar as transformações manualmente?
Resposta
Um Pipeline garante que as mesmas transformações sejam aplicadas de forma consistente aos dados de treino e teste. Encapsula todas as etapas de preprocessing e modelagem em um único objeto, o que simplifica o código, previne data leakage e facilita a implantação do modelo em produção.
2Qual método chamar em um Pipeline para treinar todas as etapas e fazer uma predição?
Qual método chamar em um Pipeline para treinar todas as etapas e fazer uma predição?
Resposta
O método fit_predict não existe para Pipelines de regressão ou classificação. É preciso primeiro chamar fit() para treinar o pipeline, depois predict() para obter as predições. Alternativamente, fit() seguido de predict() podem ser chamados separadamente para maior controle.
3O que é data leakage em um contexto de machine learning?
O que é data leakage em um contexto de machine learning?
Resposta
O data leakage ocorre quando informações do conjunto de teste ou dados futuros são acidentalmente usados durante o treinamento. Isso pode acontecer durante o preprocessing (calcular a média sobre todo o dataset antes do split) ou através de features que contêm indiretamente o target. Resulta em desempenho artificialmente alto que não generaliza.
Qual é o papel do ColumnTransformer no scikit-learn?
O que é a cross-validation K-Fold?
+19 perguntas de entrevista
Outros temas de entrevista Data Science & ML
Fundamentos de Python
Programação Orientada a Objetos em Python
Estruturas de dados em Python
Fundamentos do Git
Fundamentos de SQL
Fundamentos de NumPy
Fundamentos de Pandas
Jupyter & Google Colab
SQL Joins e consultas avançadas
Pandas avançado
Visualização com Matplotlib & Seaborn
Visualizações interativas com Plotly
Estatística descritiva
Estatística inferencial
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisionado: Regressão
ML Supervisionado: Classificação
Árvores de Decisão e Ensembles
ML Não Supervisionado
Séries Temporais e Previsão
Fundamentos de Deep Learning
TensorFlow & Keras
CNN e classificação de imagens
RNN e Sequências
Transformers e Attention
NLP e Hugging Face
GenAI e LangChain
MLOps e Implantação
Domine Data Science & ML para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis