
Feature Engineering
Encoding categoriale, scaling, normalizzazione, feature selection, creazione di feature, pipelines
1Quale tipo di encoding usare per una variabile categoriale nominale con poche categorie distinte (meno di 10)?
Quale tipo di encoding usare per una variabile categoriale nominale con poche categorie distinte (meno di 10)?
Risposta
One-Hot Encoding è ideale per variabili nominali con poche categorie perché crea una colonna binaria per ogni categoria senza introdurre un ordine artificiale. A differenza di Label Encoding che assegna numeri (0, 1, 2...), One-Hot impedisce al modello di interpretare una relazione ordinale inesistente tra le categorie.
2Qual è la differenza principale tra StandardScaler e MinMaxScaler?
Qual è la differenza principale tra StandardScaler e MinMaxScaler?
Risposta
StandardScaler centra i dati attorno a 0 con deviazione standard 1 (z-score), mentre MinMaxScaler normalizza i dati in un intervallo fisso, di solito [0, 1]. StandardScaler è meno sensibile agli outlier perché usa media e deviazione standard, mentre MinMaxScaler può essere fortemente influenzato da valori estremi.
3Quale scaler dovrebbe essere preferito quando i dati contengono outlier significativi?
Quale scaler dovrebbe essere preferito quando i dati contengono outlier significativi?
Risposta
RobustScaler usa mediana e intervallo interquartile (IQR) invece di media e deviazione standard, rendendolo robusto agli outlier. I valori estremi non influenzano significativamente queste statistiche, a differenza di StandardScaler o MinMaxScaler che possono essere fortemente influenzati dagli outlier.
Cos'è Label Encoding e quando è appropriato usarlo?
Quale problema può causare Target Encoding e come evitarlo?
+19 domande da colloquio
Altri argomenti di colloquio Data Science & ML
Fondamenti di Python
Programmazione Orientata agli Oggetti in Python
Strutture dati Python
Fondamenti di Git
Fondamenti di SQL
Fondamenti di NumPy
Fondamenti di Pandas
Jupyter & Google Colab
SQL Joins e query avanzate
Pandas avanzato
Visualizzazione con Matplotlib & Seaborn
Visualizzazioni interattive con Plotly
Statistica descrittiva
Statistica inferenziale
Web Scraping
BigQuery & Cloud Data
ML Supervisionato: Regressione
ML Supervisionato: Classificazione
Alberi Decisionali e Ensembles
ML Non Supervisionato
Pipeline ML e Validazione
Serie Temporali e Previsione
Fondamenti di Deep Learning
TensorFlow & Keras
CNN e classificazione di immagini
RNN e Sequenze
Transformers e Attention
NLP e Hugging Face
GenAI e LangChain
MLOps e Deployment
Padroneggia Data Science & ML per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis