Data Science & ML

ML No Supervisado

K-Means, clustering jerárquico, DBSCAN, PCA, t-SNE, UMAP, silhouette score, elbow method

22 preguntas de entrevista·
Mid-Level
1

¿Cuál es la principal diferencia entre el aprendizaje supervisado y el no supervisado?

Respuesta

El aprendizaje no supervisado trabaja con datos no etiquetados, buscando descubrir estructuras o patrones ocultos sin una variable objetivo predefinida. A diferencia del supervisado que predice un valor conocido (label), el no supervisado explora los datos para encontrar grupos naturales, reducir la dimensionalidad o detectar anomalías. Algoritmos como K-Means, PCA o DBSCAN son ejemplos típicos de aprendizaje no supervisado.

2

¿Cómo funciona el algoritmo K-Means para particionar datos?

Respuesta

K-Means es un algoritmo iterativo que particiona los datos en K clusters. Inicializa K centroides aleatoriamente, luego alterna entre dos pasos: asignar cada punto al centroide más cercano (paso de asignación) y recalcular las posiciones de los centroides como la media de los puntos asignados (paso de actualización). El algoritmo converge cuando las asignaciones ya no cambian o después de un número máximo de iteraciones.

3

¿Qué método utilizar para determinar el número óptimo de clusters K en K-Means?

Respuesta

El elbow method grafica la inercia (suma de distancias al cuadrado entre cada punto y su centroide) contra K. El punto donde la curva forma un codo indica el K óptimo, ya que más allá agregar clusters ya no mejora significativamente la inercia. Este método se complementa con el silhouette score para validar la calidad de los clusters.

4

¿Qué mide el silhouette score en el contexto del clustering?

5

¿Cuál es el rango de valores del silhouette score y cómo interpretar un score de 0.7?

+19 preguntas de entrevista

Domina Data Science & ML para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis