Data Science & ML

ML Não Supervisionado

K-Means, clustering hierárquico, DBSCAN, PCA, t-SNE, UMAP, silhouette score, elbow method

22 perguntas de entrevista·
Mid-Level
1

Qual é a principal diferença entre aprendizado supervisionado e não supervisionado?

Resposta

O aprendizado não supervisionado trabalha com dados não rotulados, buscando descobrir estruturas ou padrões ocultos sem uma variável alvo predefinida. Diferente do supervisionado que prevê um valor conhecido (label), o não supervisionado explora os dados para encontrar grupos naturais, reduzir dimensionalidade ou detectar anomalias. Algoritmos como K-Means, PCA ou DBSCAN são exemplos típicos de aprendizado não supervisionado.

2

Como funciona o algoritmo K-Means para particionar dados?

Resposta

K-Means é um algoritmo iterativo que particiona os dados em K clusters. Inicializa K centroides aleatoriamente, depois alterna entre duas etapas: atribuir cada ponto ao centroide mais próximo (etapa de atribuição) e recalcular as posições dos centroides como a média dos pontos atribuídos (etapa de atualização). O algoritmo converge quando as atribuições não mudam mais ou após um número máximo de iterações.

3

Qual método usar para determinar o número ótimo de clusters K no K-Means?

Resposta

O elbow method plota a inércia (soma das distâncias ao quadrado entre cada ponto e seu centroide) contra K. O ponto onde a curva forma um cotovelo indica o K ótimo, pois além disso adicionar clusters não melhora mais significativamente a inércia. Este método é complementado pelo silhouette score para validar a qualidade dos clusters.

4

O que o silhouette score mede no contexto de clustering?

5

Qual é o intervalo de valores do silhouette score e como interpretar um score de 0.7?

+19 perguntas de entrevista

Domine Data Science & ML para sua proxima entrevista

Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.

Comece gratis