Data Science & ML

Feature Engineering

Encoding categoriale, scaling, normalizzazione, feature selection, creazione di feature, pipelines

22 domande da colloquio·
Mid-Level
1

Quale tipo di encoding usare per una variabile categoriale nominale con poche categorie distinte (meno di 10)?

Risposta

One-Hot Encoding è ideale per variabili nominali con poche categorie perché crea una colonna binaria per ogni categoria senza introdurre un ordine artificiale. A differenza di Label Encoding che assegna numeri (0, 1, 2...), One-Hot impedisce al modello di interpretare una relazione ordinale inesistente tra le categorie.

2

Qual è la differenza principale tra StandardScaler e MinMaxScaler?

Risposta

StandardScaler centra i dati attorno a 0 con deviazione standard 1 (z-score), mentre MinMaxScaler normalizza i dati in un intervallo fisso, di solito [0, 1]. StandardScaler è meno sensibile agli outlier perché usa media e deviazione standard, mentre MinMaxScaler può essere fortemente influenzato da valori estremi.

3

Quale scaler dovrebbe essere preferito quando i dati contengono outlier significativi?

Risposta

RobustScaler usa mediana e intervallo interquartile (IQR) invece di media e deviazione standard, rendendolo robusto agli outlier. I valori estremi non influenzano significativamente queste statistiche, a differenza di StandardScaler o MinMaxScaler che possono essere fortemente influenzati dagli outlier.

4

Cos'è Label Encoding e quando è appropriato usarlo?

5

Quale problema può causare Target Encoding e come evitarlo?

+19 domande da colloquio

Padroneggia Data Science & ML per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis