Question 1

Qual è la differenza principale tra apprendimento supervisionato e non supervisionato?

Accepted Answer

L'apprendimento non supervisionato lavora con dati non etichettati, cercando di scoprire strutture o pattern nascosti senza una variabile target predefinita. A differenza del supervisionato che predice un valore noto (label), il non supervisionato esplora i dati per trovare gruppi naturali, ridurre la dimensionalità o rilevare anomalie. Algoritmi come K-Means, PCA o DBSCAN sono esempi tipici di apprendimento non supervisionato.

Question 2

Come funziona l'algoritmo K-Means per partizionare i dati?

Accepted Answer

K-Means è un algoritmo iterativo che partiziona i dati in K cluster. Inizializza K centroidi casualmente, poi alterna tra due passi: assegnare ogni punto al centroide più vicino (passo di assegnazione) e ricalcolare le posizioni dei centroidi come media dei punti assegnati (passo di aggiornamento). L'algoritmo converge quando le assegnazioni non cambiano più o dopo un numero massimo di iterazioni.

Question 3

Quale metodo usare per determinare il numero ottimale di cluster K in K-Means?

Accepted Answer

L'elbow method traccia l'inerzia (somma delle distanze al quadrato tra ogni punto e il suo centroide) rispetto a K. Il punto in cui la curva forma un gomito indica il K ottimale, poiché oltre ad esso aggiungere cluster non migliora più significativamente l'inerzia. Questo metodo è completato dal silhouette score per validare la qualità dei cluster.

ML Non Supervisionato

Qual è la differenza principale tra apprendimento supervisionato e non supervisionato?

Risposta

Come funziona l'algoritmo K-Means per partizionare i dati?

Risposta

Quale metodo usare per determinare il numero ottimale di cluster K in K-Means?

Risposta

Cosa misura il silhouette score nel contesto del clustering?

Qual è l'intervallo di valori del silhouette score e come interpretare un punteggio di 0.7?

Altri argomenti di colloquio Data Science & ML

Fondamenti di Python

Programmazione Orientata agli Oggetti in Python

Strutture dati Python

Fondamenti di Git

Fondamenti di SQL

Fondamenti di NumPy

Fondamenti di Pandas

Jupyter & Google Colab

SQL Joins e query avanzate

Pandas avanzato

Visualizzazione con Matplotlib & Seaborn

Visualizzazioni interattive con Plotly

Statistica descrittiva

Statistica inferenziale

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisionato: Regressione

ML Supervisionato: Classificazione

Alberi Decisionali e Ensembles

Pipeline ML e Validazione

Serie Temporali e Previsione

Fondamenti di Deep Learning

TensorFlow & Keras

CNN e classificazione di immagini

RNN e Sequenze

Transformers e Attention

NLP e Hugging Face

GenAI e LangChain

MLOps e Deployment

Padroneggia Data Science & ML per il tuo prossimo colloquio