
Data Cleaning - Limpieza de datos
Valores faltantes, duplicados, outliers, reglas de negocio, transformación, calidad de datos
1¿Qué es un missing value en un conjunto de datos?
¿Qué es un missing value en un conjunto de datos?
Respuesta
Un missing value representa un dato ausente o no completado en un campo. Puede aparecer como una celda vacía, NULL en una base de datos o NaN en un DataFrame. Identificar los missing values es el primer paso de la limpieza de datos porque pueden distorsionar los análisis estadísticos y las agregaciones.
2¿Cuál es la diferencia entre un valor NULL y una cadena vacía en una base de datos?
¿Cuál es la diferencia entre un valor NULL y una cadena vacía en una base de datos?
Respuesta
NULL significa que el valor es desconocido o no existe, mientras que una cadena vacía es un valor conocido que resulta estar vacío. Esta distinción es fundamental en SQL porque NULL no puede compararse con el operador = (se debe usar IS NULL), mientras que una cadena vacía puede compararse normalmente con = ''.
3¿Qué es un duplicado en un conjunto de datos?
¿Qué es un duplicado en un conjunto de datos?
Respuesta
Un duplicado es un registro que aparece más de una vez en un conjunto de datos, ya sea de manera exacta (todas las columnas idénticas) o parcial (ciertas columnas clave idénticas). Los duplicados distorsionan los conteos, sumas y promedios. Su detección generalmente se basa en identificar columnas clave que deberían ser únicas.
¿Qué técnica permite detectar duplicados exactos en SQL?
¿Qué es un outlier (valor atípico) en un conjunto de datos?
+17 preguntas de entrevista
Otros temas de entrevista Data Analytics
Google Sheets - Fundamentos
Google Sheets - Fórmulas avanzadas
SQL - Fundamentos
SQL - Agregaciones y agrupamientos
SQL - Joins
BigQuery - Fundamentos
KPIs y métricas de negocio
Estadística descriptiva
Zapier y automatización No-Code
Principios de visualización de datos
Python & Pandas - Fundamentos
Google Sheets - Dashboards automatizados
SQL - Subconsultas y CTEs
SQL - Window Functions
BigQuery - Funcionalidades avanzadas
Data Modeling
Análisis de funnels y conversión
Análisis de cohortes y retención
Google Tag Manager y tracking
APIs y webhooks
dbt - Fundamentos
AB Testing y estadística aplicada
Looker Studio (Google Data Studio)
Power BI - Fundamentos
SQL - Consultas analíticas avanzadas
dbt - Funciones avanzadas
Power BI - DAX y dashboards avanzados
Python Analytics - Análisis avanzado y ML
Domina Data Analytics para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis