Question 1

Quale tipo di encoding usare per una variabile categoriale nominale con poche categorie distinte (meno di 10)?

Accepted Answer

One-Hot Encoding è ideale per variabili nominali con poche categorie perché crea una colonna binaria per ogni categoria senza introdurre un ordine artificiale. A differenza di Label Encoding che assegna numeri (0, 1, 2...), One-Hot impedisce al modello di interpretare una relazione ordinale inesistente tra le categorie.

Question 2

Qual è la differenza principale tra StandardScaler e MinMaxScaler?

Accepted Answer

StandardScaler centra i dati attorno a 0 con deviazione standard 1 (z-score), mentre MinMaxScaler normalizza i dati in un intervallo fisso, di solito [0, 1]. StandardScaler è meno sensibile agli outlier perché usa media e deviazione standard, mentre MinMaxScaler può essere fortemente influenzato da valori estremi.

Question 3

Quale scaler dovrebbe essere preferito quando i dati contengono outlier significativi?

Accepted Answer

RobustScaler usa mediana e intervallo interquartile (IQR) invece di media e deviazione standard, rendendolo robusto agli outlier. I valori estremi non influenzano significativamente queste statistiche, a differenza di StandardScaler o MinMaxScaler che possono essere fortemente influenzati dagli outlier.

Feature Engineering

Quale tipo di encoding usare per una variabile categoriale nominale con poche categorie distinte (meno di 10)?

Risposta

Qual è la differenza principale tra StandardScaler e MinMaxScaler?

Risposta

Quale scaler dovrebbe essere preferito quando i dati contengono outlier significativi?

Risposta

Cos'è Label Encoding e quando è appropriato usarlo?

Quale problema può causare Target Encoding e come evitarlo?

Altri argomenti di colloquio Data Science & ML

Fondamenti di Python

Programmazione Orientata agli Oggetti in Python

Strutture dati Python

Fondamenti di Git

Fondamenti di SQL

Fondamenti di NumPy

Fondamenti di Pandas

Jupyter & Google Colab

SQL Joins e query avanzate

Pandas avanzato

Visualizzazione con Matplotlib & Seaborn

Visualizzazioni interattive con Plotly

Statistica descrittiva

Statistica inferenziale

Web Scraping

BigQuery & Cloud Data

ML Supervisionato: Regressione

ML Supervisionato: Classificazione

Alberi Decisionali e Ensembles

ML Non Supervisionato

Pipeline ML e Validazione

Serie Temporali e Previsione

Fondamenti di Deep Learning

TensorFlow & Keras

CNN e classificazione di immagini

RNN e Sequenze

Transformers e Attention

NLP e Hugging Face

GenAI e LangChain

MLOps e Deployment

Padroneggia Data Science & ML per il tuo prossimo colloquio