Question 1

Qual é a principal vantagem de usar um Pipeline do scikit-learn em vez de aplicar as transformações manualmente?

Accepted Answer

Um Pipeline garante que as mesmas transformações sejam aplicadas de forma consistente aos dados de treino e teste. Encapsula todas as etapas de preprocessing e modelagem em um único objeto, o que simplifica o código, previne data leakage e facilita a implantação do modelo em produção.

Question 2

Qual método chamar em um Pipeline para treinar todas as etapas e fazer uma predição?

Accepted Answer

O método fit_predict não existe para Pipelines de regressão ou classificação. É preciso primeiro chamar fit() para treinar o pipeline, depois predict() para obter as predições. Alternativamente, fit() seguido de predict() podem ser chamados separadamente para maior controle.

Question 3

O que é data leakage em um contexto de machine learning?

Accepted Answer

O data leakage ocorre quando informações do conjunto de teste ou dados futuros são acidentalmente usados durante o treinamento. Isso pode acontecer durante o preprocessing (calcular a média sobre todo o dataset antes do split) ou através de features que contêm indiretamente o target. Resulta em desempenho artificialmente alto que não generaliza.

Pipelines ML e Validação

Qual é a principal vantagem de usar um Pipeline do scikit-learn em vez de aplicar as transformações manualmente?

Resposta

Qual método chamar em um Pipeline para treinar todas as etapas e fazer uma predição?

Resposta

O que é data leakage em um contexto de machine learning?

Resposta

Qual é o papel do ColumnTransformer no scikit-learn?

O que é a cross-validation K-Fold?

Outros temas de entrevista Data Science & ML

Fundamentos de Python

Programação Orientada a Objetos em Python

Estruturas de dados em Python

Fundamentos do Git

Fundamentos de SQL

Fundamentos de NumPy

Fundamentos de Pandas

Jupyter & Google Colab

SQL Joins e consultas avançadas

Pandas avançado

Visualização com Matplotlib & Seaborn

Visualizações interativas com Plotly

Estatística descritiva

Estatística inferencial

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisionado: Regressão

ML Supervisionado: Classificação

Árvores de Decisão e Ensembles

ML Não Supervisionado

Séries Temporais e Previsão

Fundamentos de Deep Learning

TensorFlow & Keras

CNN e classificação de imagens

RNN e Sequências

Transformers e Attention

NLP e Hugging Face

GenAI e LangChain

MLOps e Implantação

Domine Data Science & ML para sua proxima entrevista