Data Science & ML

ML Non Supervisionato

K-Means, clustering gerarchico, DBSCAN, PCA, t-SNE, UMAP, silhouette score, elbow method

22 domande da colloquio·
Mid-Level
1

Qual è la differenza principale tra apprendimento supervisionato e non supervisionato?

Risposta

L'apprendimento non supervisionato lavora con dati non etichettati, cercando di scoprire strutture o pattern nascosti senza una variabile target predefinita. A differenza del supervisionato che predice un valore noto (label), il non supervisionato esplora i dati per trovare gruppi naturali, ridurre la dimensionalità o rilevare anomalie. Algoritmi come K-Means, PCA o DBSCAN sono esempi tipici di apprendimento non supervisionato.

2

Come funziona l'algoritmo K-Means per partizionare i dati?

Risposta

K-Means è un algoritmo iterativo che partiziona i dati in K cluster. Inizializza K centroidi casualmente, poi alterna tra due passi: assegnare ogni punto al centroide più vicino (passo di assegnazione) e ricalcolare le posizioni dei centroidi come media dei punti assegnati (passo di aggiornamento). L'algoritmo converge quando le assegnazioni non cambiano più o dopo un numero massimo di iterazioni.

3

Quale metodo usare per determinare il numero ottimale di cluster K in K-Means?

Risposta

L'elbow method traccia l'inerzia (somma delle distanze al quadrato tra ogni punto e il suo centroide) rispetto a K. Il punto in cui la curva forma un gomito indica il K ottimale, poiché oltre ad esso aggiungere cluster non migliora più significativamente l'inerzia. Questo metodo è completato dal silhouette score per validare la qualità dei cluster.

4

Cosa misura il silhouette score nel contesto del clustering?

5

Qual è l'intervallo di valori del silhouette score e come interpretare un punteggio di 0.7?

+19 domande da colloquio

Padroneggia Data Science & ML per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis