Question 1

¿Cuál es la principal diferencia entre el aprendizaje supervisado y el no supervisado?

Accepted Answer

El aprendizaje no supervisado trabaja con datos no etiquetados, buscando descubrir estructuras o patrones ocultos sin una variable objetivo predefinida. A diferencia del supervisado que predice un valor conocido (label), el no supervisado explora los datos para encontrar grupos naturales, reducir la dimensionalidad o detectar anomalías. Algoritmos como K-Means, PCA o DBSCAN son ejemplos típicos de aprendizaje no supervisado.

Question 2

¿Cómo funciona el algoritmo K-Means para particionar datos?

Accepted Answer

K-Means es un algoritmo iterativo que particiona los datos en K clusters. Inicializa K centroides aleatoriamente, luego alterna entre dos pasos: asignar cada punto al centroide más cercano (paso de asignación) y recalcular las posiciones de los centroides como la media de los puntos asignados (paso de actualización). El algoritmo converge cuando las asignaciones ya no cambian o después de un número máximo de iteraciones.

Question 3

¿Qué método utilizar para determinar el número óptimo de clusters K en K-Means?

Accepted Answer

El elbow method grafica la inercia (suma de distancias al cuadrado entre cada punto y su centroide) contra K. El punto donde la curva forma un codo indica el K óptimo, ya que más allá agregar clusters ya no mejora significativamente la inercia. Este método se complementa con el silhouette score para validar la calidad de los clusters.

ML No Supervisado

¿Cuál es la principal diferencia entre el aprendizaje supervisado y el no supervisado?

Respuesta

¿Cómo funciona el algoritmo K-Means para particionar datos?

Respuesta

¿Qué método utilizar para determinar el número óptimo de clusters K en K-Means?

Respuesta

¿Qué mide el silhouette score en el contexto del clustering?

¿Cuál es el rango de valores del silhouette score y cómo interpretar un score de 0.7?

Otros temas de entrevista Data Science & ML

Fundamentos de Python

Programación Orientada a Objetos en Python

Estructuras de datos en Python

Fundamentos de Git

Fundamentos de SQL

Fundamentos de NumPy

Fundamentos de Pandas

Jupyter & Google Colab

SQL Joins y consultas avanzadas

Pandas avanzado

Visualización con Matplotlib & Seaborn

Visualizaciones interactivas con Plotly

Estadística descriptiva

Estadística inferencial

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisado: Regresión

ML Supervisado: Clasificación

Árboles de Decisión y Ensembles

Pipelines ML y Validación

Series Temporales y Pronóstico

Fundamentos de Deep Learning

TensorFlow & Keras

CNN y clasificación de imágenes

RNN y Secuencias

Transformers y Attention

NLP y Hugging Face

GenAI y LangChain

MLOps y Despliegue

Domina Data Science & ML para tu próxima entrevista