Data Analytics

Data Cleaning - Limpieza de datos

Valores faltantes, duplicados, outliers, reglas de negocio, transformación, calidad de datos

20 preguntas de entrevista·
Junior
1

¿Qué es un missing value en un conjunto de datos?

Respuesta

Un missing value representa un dato ausente o no completado en un campo. Puede aparecer como una celda vacía, NULL en una base de datos o NaN en un DataFrame. Identificar los missing values es el primer paso de la limpieza de datos porque pueden distorsionar los análisis estadísticos y las agregaciones.

2

¿Cuál es la diferencia entre un valor NULL y una cadena vacía en una base de datos?

Respuesta

NULL significa que el valor es desconocido o no existe, mientras que una cadena vacía es un valor conocido que resulta estar vacío. Esta distinción es fundamental en SQL porque NULL no puede compararse con el operador = (se debe usar IS NULL), mientras que una cadena vacía puede compararse normalmente con = ''.

3

¿Qué es un duplicado en un conjunto de datos?

Respuesta

Un duplicado es un registro que aparece más de una vez en un conjunto de datos, ya sea de manera exacta (todas las columnas idénticas) o parcial (ciertas columnas clave idénticas). Los duplicados distorsionan los conteos, sumas y promedios. Su detección generalmente se basa en identificar columnas clave que deberían ser únicas.

4

¿Qué técnica permite detectar duplicados exactos en SQL?

5

¿Qué es un outlier (valor atípico) en un conjunto de datos?

+17 preguntas de entrevista

Domina Data Analytics para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis