Data Analytics

Data Cleaning - Limpeza de dados

Valores ausentes, duplicados, outliers, regras de negócio, transformação, qualidade dos dados

20 perguntas de entrevista·
Junior
1

O que é um missing value em um conjunto de dados?

Resposta

Um missing value representa um dado ausente ou não preenchido em um campo. Pode aparecer como uma célula vazia, NULL em um banco de dados ou NaN em um DataFrame. Identificar os missing values é o primeiro passo da limpeza de dados porque podem distorcer as análises estatísticas e as agregações.

2

Qual é a diferença entre um valor NULL e uma string vazia em um banco de dados?

Resposta

NULL significa que o valor é desconhecido ou não existe, enquanto uma string vazia é um valor conhecido que está vazio. Essa distinção é fundamental no SQL porque NULL não pode ser comparado com o operador = (deve-se usar IS NULL), enquanto uma string vazia pode ser comparada normalmente com = ''.

3

O que é uma duplicata em um conjunto de dados?

Resposta

Uma duplicata é um registro que aparece mais de uma vez em um conjunto de dados, seja de forma exata (todas as colunas idênticas) ou parcial (certas colunas-chave idênticas). As duplicatas distorcem contagens, somas e médias. Sua detecção geralmente depende da identificação de colunas-chave que deveriam ser únicas.

4

Qual técnica permite detectar duplicatas exatas em SQL?

5

O que é um outlier (valor aberrante) em um conjunto de dados?

+17 perguntas de entrevista

Domine Data Analytics para sua proxima entrevista

Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.

Comece gratis