Question 1

Cos'è un decision tree nel Machine Learning?

Accepted Answer

Un decision tree è un modello di Machine Learning che effettua previsioni dividendo i dati secondo regole decisionali gerarchiche. Ogni nodo interno rappresenta un test su una feature, ogni ramo rappresenta l'esito del test, e ogni foglia rappresenta una previsione finale. Questo modello è intuitivo e facilmente interpretabile, rendendolo una scelta eccellente per comprendere i fattori che influenzano una decisione.

Question 2

Quale criterio è usato di default in scikit-learn per misurare la qualità di uno split in un albero di classificazione?

Accepted Answer

L'indice di Gini è il criterio di default in scikit-learn per gli alberi di classificazione. Misura l'impurità di un nodo calcolando la probabilità che un elemento venga classificato erroneamente se classificato casualmente secondo la distribuzione delle classi. Un Gini di 0 significa un nodo puro (singola classe), mentre un Gini più alto indica maggiore diversità di classi.

Question 3

Qual è la principale differenza tra l'indice di Gini e l'entropia come criteri di split?

Accepted Answer

L'indice di Gini e l'entropia producono generalmente alberi molto simili, ma Gini è leggermente più veloce da calcolare poiché non richiede calcoli logaritmici. L'entropia, basata sulla teoria dell'informazione, può talvolta creare split leggermente più equilibrati. In pratica, la scelta tra i due ha raramente un impatto significativo sulle prestazioni del modello.

Alberi Decisionali e Ensembles

Cos'è un decision tree nel Machine Learning?

Risposta

Quale criterio è usato di default in scikit-learn per misurare la qualità di uno split in un albero di classificazione?

Risposta

Qual è la principale differenza tra l'indice di Gini e l'entropia come criteri di split?

Risposta

Cos'è il pruning nel contesto dei decision trees?

Quale iperparametro controlla la profondità massima di un decision tree in scikit-learn?

Altri argomenti di colloquio Data Science & ML

Fondamenti di Python

Programmazione Orientata agli Oggetti in Python

Strutture dati Python

Fondamenti di Git

Fondamenti di SQL

Fondamenti di NumPy

Fondamenti di Pandas

Jupyter & Google Colab

SQL Joins e query avanzate

Pandas avanzato

Visualizzazione con Matplotlib & Seaborn

Visualizzazioni interattive con Plotly

Statistica descrittiva

Statistica inferenziale

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisionato: Regressione

ML Supervisionato: Classificazione

ML Non Supervisionato

Pipeline ML e Validazione

Serie Temporali e Previsione

Fondamenti di Deep Learning

TensorFlow & Keras

CNN e classificazione di immagini

RNN e Sequenze

Transformers e Attention

NLP e Hugging Face

GenAI e LangChain

MLOps e Deployment

Padroneggia Data Science & ML per il tuo prossimo colloquio