Question 1

Qual tipo de encoding usar para uma variável categórica nominal com poucas categorias distintas (menos de 10)?

Accepted Answer

One-Hot Encoding é ideal para variáveis nominais com poucas categorias porque cria uma coluna binária para cada categoria sem introduzir ordenação artificial. Diferente do Label Encoding que atribui números (0, 1, 2...), One-Hot evita que o modelo interprete uma relação ordinal inexistente entre as categorias.

Question 2

Qual é a principal diferença entre StandardScaler e MinMaxScaler?

Accepted Answer

StandardScaler centra os dados em torno de 0 com desvio padrão de 1 (z-score), enquanto MinMaxScaler normaliza os dados em um intervalo fixo, geralmente [0, 1]. StandardScaler é menos sensível a outliers porque usa média e desvio padrão, enquanto MinMaxScaler pode ser fortemente afetado por valores extremos.

Question 3

Qual scaler deve ser preferido quando os dados contêm outliers significativos?

Accepted Answer

RobustScaler usa mediana e intervalo interquartil (IQR) em vez de média e desvio padrão, tornando-o robusto a outliers. Valores extremos não afetam significativamente essas estatísticas, diferente do StandardScaler ou MinMaxScaler que podem ser fortemente enviesados por outliers.

Feature Engineering

Qual tipo de encoding usar para uma variável categórica nominal com poucas categorias distintas (menos de 10)?

Resposta

Qual é a principal diferença entre StandardScaler e MinMaxScaler?

Resposta

Qual scaler deve ser preferido quando os dados contêm outliers significativos?

Resposta

O que é Label Encoding e quando é apropriado usá-lo?

Que problema o Target Encoding pode causar e como evitá-lo?

Outros temas de entrevista Data Science & ML

Fundamentos de Python

Programação Orientada a Objetos em Python

Estruturas de dados em Python

Fundamentos do Git

Fundamentos de SQL

Fundamentos de NumPy

Fundamentos de Pandas

Jupyter & Google Colab

SQL Joins e consultas avançadas

Pandas avançado

Visualização com Matplotlib & Seaborn

Visualizações interativas com Plotly

Estatística descritiva

Estatística inferencial

Web Scraping

BigQuery & Cloud Data

ML Supervisionado: Regressão

ML Supervisionado: Classificação

Árvores de Decisão e Ensembles

ML Não Supervisionado

Pipelines ML e Validação

Séries Temporais e Previsão

Fundamentos de Deep Learning

TensorFlow & Keras

CNN e classificação de imagens

RNN e Sequências

Transformers e Attention

NLP e Hugging Face

GenAI e LangChain

MLOps e Implantação

Domine Data Science & ML para sua proxima entrevista