Question 1

Qual é a principal diferença entre aprendizado supervisionado e não supervisionado?

Accepted Answer

O aprendizado não supervisionado trabalha com dados não rotulados, buscando descobrir estruturas ou padrões ocultos sem uma variável alvo predefinida. Diferente do supervisionado que prevê um valor conhecido (label), o não supervisionado explora os dados para encontrar grupos naturais, reduzir dimensionalidade ou detectar anomalias. Algoritmos como K-Means, PCA ou DBSCAN são exemplos típicos de aprendizado não supervisionado.

Question 2

Como funciona o algoritmo K-Means para particionar dados?

Accepted Answer

K-Means é um algoritmo iterativo que particiona os dados em K clusters. Inicializa K centroides aleatoriamente, depois alterna entre duas etapas: atribuir cada ponto ao centroide mais próximo (etapa de atribuição) e recalcular as posições dos centroides como a média dos pontos atribuídos (etapa de atualização). O algoritmo converge quando as atribuições não mudam mais ou após um número máximo de iterações.

Question 3

Qual método usar para determinar o número ótimo de clusters K no K-Means?

Accepted Answer

O elbow method plota a inércia (soma das distâncias ao quadrado entre cada ponto e seu centroide) contra K. O ponto onde a curva forma um cotovelo indica o K ótimo, pois além disso adicionar clusters não melhora mais significativamente a inércia. Este método é complementado pelo silhouette score para validar a qualidade dos clusters.

ML Não Supervisionado

Qual é a principal diferença entre aprendizado supervisionado e não supervisionado?

Resposta

Como funciona o algoritmo K-Means para particionar dados?

Resposta

Qual método usar para determinar o número ótimo de clusters K no K-Means?

Resposta

O que o silhouette score mede no contexto de clustering?

Qual é o intervalo de valores do silhouette score e como interpretar um score de 0.7?

Outros temas de entrevista Data Science & ML

Fundamentos de Python

Programação Orientada a Objetos em Python

Estruturas de dados em Python

Fundamentos do Git

Fundamentos de SQL

Fundamentos de NumPy

Fundamentos de Pandas

Jupyter & Google Colab

SQL Joins e consultas avançadas

Pandas avançado

Visualização com Matplotlib & Seaborn

Visualizações interativas com Plotly

Estatística descritiva

Estatística inferencial

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisionado: Regressão

ML Supervisionado: Classificação

Árvores de Decisão e Ensembles

Pipelines ML e Validação

Séries Temporais e Previsão

Fundamentos de Deep Learning

TensorFlow & Keras

CNN e classificação de imagens

RNN e Sequências

Transformers e Attention

NLP e Hugging Face

GenAI e LangChain

MLOps e Implantação

Domine Data Science & ML para sua proxima entrevista