
Feature Engineering
Codificação categórica, scaling, normalização, feature selection, criação de features, pipelines
1Qual tipo de encoding usar para uma variável categórica nominal com poucas categorias distintas (menos de 10)?
Qual tipo de encoding usar para uma variável categórica nominal com poucas categorias distintas (menos de 10)?
Resposta
One-Hot Encoding é ideal para variáveis nominais com poucas categorias porque cria uma coluna binária para cada categoria sem introduzir ordenação artificial. Diferente do Label Encoding que atribui números (0, 1, 2...), One-Hot evita que o modelo interprete uma relação ordinal inexistente entre as categorias.
2Qual é a principal diferença entre StandardScaler e MinMaxScaler?
Qual é a principal diferença entre StandardScaler e MinMaxScaler?
Resposta
StandardScaler centra os dados em torno de 0 com desvio padrão de 1 (z-score), enquanto MinMaxScaler normaliza os dados em um intervalo fixo, geralmente [0, 1]. StandardScaler é menos sensível a outliers porque usa média e desvio padrão, enquanto MinMaxScaler pode ser fortemente afetado por valores extremos.
3Qual scaler deve ser preferido quando os dados contêm outliers significativos?
Qual scaler deve ser preferido quando os dados contêm outliers significativos?
Resposta
RobustScaler usa mediana e intervalo interquartil (IQR) em vez de média e desvio padrão, tornando-o robusto a outliers. Valores extremos não afetam significativamente essas estatísticas, diferente do StandardScaler ou MinMaxScaler que podem ser fortemente enviesados por outliers.
O que é Label Encoding e quando é apropriado usá-lo?
Que problema o Target Encoding pode causar e como evitá-lo?
+19 perguntas de entrevista
Outros temas de entrevista Data Science & ML
Fundamentos de Python
Programação Orientada a Objetos em Python
Estruturas de dados em Python
Fundamentos do Git
Fundamentos de SQL
Fundamentos de NumPy
Fundamentos de Pandas
Jupyter & Google Colab
SQL Joins e consultas avançadas
Pandas avançado
Visualização com Matplotlib & Seaborn
Visualizações interativas com Plotly
Estatística descritiva
Estatística inferencial
Web Scraping
BigQuery & Cloud Data
ML Supervisionado: Regressão
ML Supervisionado: Classificação
Árvores de Decisão e Ensembles
ML Não Supervisionado
Pipelines ML e Validação
Séries Temporais e Previsão
Fundamentos de Deep Learning
TensorFlow & Keras
CNN e classificação de imagens
RNN e Sequências
Transformers e Attention
NLP e Hugging Face
GenAI e LangChain
MLOps e Implantação
Domine Data Science & ML para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis