Data Science & ML

Estatística descritiva

Média, mediana, desvio padrão, quartis, distribuições, correlações, outliers, skewness

20 perguntas de entrevista·
Mid-Level
1

Qual medida de tendência central é mais apropriada para dados contendo valores extremos (outliers)?

Resposta

A mediana é a medida de tendência central mais robusta contra outliers porque representa o valor central dos dados ordenados, sem ser afetada por valores extremos. Diferente da média que soma todos os valores, a mediana considera apenas a posição. Por exemplo, para salários de uma empresa com alguns executivos muito bem pagos, a mediana dá uma melhor representação do salário típico que a média.

2

O que é a variância de um conjunto de dados?

Resposta

A variância mede a dispersão dos dados em torno da sua média. É calculada como a média dos quadrados dos desvios em relação à média. Ao elevar ao quadrado, obtemos valores sempre positivos e amplificamos o impacto dos valores distantes da média. A unidade da variância é o quadrado da unidade original dos dados, por isso frequentemente usamos o desvio padrão (raiz quadrada da variância) para interpretar a dispersão na unidade original.

3

Qual é a relação entre o desvio padrão e a variância?

Resposta

O desvio padrão é a raiz quadrada da variância. Essa transformação traz a medida de dispersão de volta à unidade original dos dados, facilitando a interpretação. Por exemplo, se os dados estão em euros, a variância estará em euros quadrados (difícil de interpretar), enquanto o desvio padrão estará em euros. Por isso o desvio padrão é preferido para comunicar a dispersão dos dados de forma intuitiva.

4

O que representa o primeiro quartil (Q1) de uma distribuição?

5

Como interpretar um coeficiente de correlação de Pearson igual a -0.85?

+17 perguntas de entrevista

Domine Data Science & ML para sua proxima entrevista

Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.

Comece gratis