
Data Cleaning - Limpeza de dados
Valores ausentes, duplicados, outliers, regras de negócio, transformação, qualidade dos dados
1O que é um missing value em um conjunto de dados?
O que é um missing value em um conjunto de dados?
Resposta
Um missing value representa um dado ausente ou não preenchido em um campo. Pode aparecer como uma célula vazia, NULL em um banco de dados ou NaN em um DataFrame. Identificar os missing values é o primeiro passo da limpeza de dados porque podem distorcer as análises estatísticas e as agregações.
2Qual é a diferença entre um valor NULL e uma string vazia em um banco de dados?
Qual é a diferença entre um valor NULL e uma string vazia em um banco de dados?
Resposta
NULL significa que o valor é desconhecido ou não existe, enquanto uma string vazia é um valor conhecido que está vazio. Essa distinção é fundamental no SQL porque NULL não pode ser comparado com o operador = (deve-se usar IS NULL), enquanto uma string vazia pode ser comparada normalmente com = ''.
3O que é uma duplicata em um conjunto de dados?
O que é uma duplicata em um conjunto de dados?
Resposta
Uma duplicata é um registro que aparece mais de uma vez em um conjunto de dados, seja de forma exata (todas as colunas idênticas) ou parcial (certas colunas-chave idênticas). As duplicatas distorcem contagens, somas e médias. Sua detecção geralmente depende da identificação de colunas-chave que deveriam ser únicas.
Qual técnica permite detectar duplicatas exatas em SQL?
O que é um outlier (valor aberrante) em um conjunto de dados?
+17 perguntas de entrevista
Outros temas de entrevista Data Analytics
Google Sheets - Fundamentos
Google Sheets - Fórmulas avançadas
SQL - Fundamentos
SQL - Agregações e agrupamentos
SQL - Joins
BigQuery - Fundamentos
KPIs e métricas de negócio
Estatística descritiva
Zapier e automação No-Code
Princípios de visualização de dados
Python & Pandas - Fundamentos
Google Sheets - Dashboards automatizados
SQL - Subconsultas e CTEs
SQL - Window Functions
BigQuery - Recursos avançados
Data Modeling
Análise de funis e conversão
Análise de coortes e retenção
Google Tag Manager e tracking
APIs e webhooks
dbt - Fundamentos
AB Testing e estatística aplicada
Looker Studio (Google Data Studio)
Power BI - Fundamentos
SQL - Consultas analíticas avançadas
dbt - Recursos avançados
Power BI - DAX e dashboards avançados
Python Analytics - Análise avançada e ML
Domine Data Analytics para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis