Data Science & ML

Feature Engineering

Codificação categórica, scaling, normalização, feature selection, criação de features, pipelines

22 perguntas de entrevista·
Mid-Level
1

Qual tipo de encoding usar para uma variável categórica nominal com poucas categorias distintas (menos de 10)?

Resposta

One-Hot Encoding é ideal para variáveis nominais com poucas categorias porque cria uma coluna binária para cada categoria sem introduzir ordenação artificial. Diferente do Label Encoding que atribui números (0, 1, 2...), One-Hot evita que o modelo interprete uma relação ordinal inexistente entre as categorias.

2

Qual é a principal diferença entre StandardScaler e MinMaxScaler?

Resposta

StandardScaler centra os dados em torno de 0 com desvio padrão de 1 (z-score), enquanto MinMaxScaler normaliza os dados em um intervalo fixo, geralmente [0, 1]. StandardScaler é menos sensível a outliers porque usa média e desvio padrão, enquanto MinMaxScaler pode ser fortemente afetado por valores extremos.

3

Qual scaler deve ser preferido quando os dados contêm outliers significativos?

Resposta

RobustScaler usa mediana e intervalo interquartil (IQR) em vez de média e desvio padrão, tornando-o robusto a outliers. Valores extremos não afetam significativamente essas estatísticas, diferente do StandardScaler ou MinMaxScaler que podem ser fortemente enviesados por outliers.

4

O que é Label Encoding e quando é apropriado usá-lo?

5

Que problema o Target Encoding pode causar e como evitá-lo?

+19 perguntas de entrevista

Domine Data Science & ML para sua proxima entrevista

Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.

Comece gratis