Data Science & ML

Pipeline ML e Validazione

Pipeline di scikit-learn, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, stratificazione

22 domande da colloquio·
Mid-Level
1

Qual è il principale vantaggio di usare una Pipeline scikit-learn invece di applicare le trasformazioni manualmente?

Risposta

Una Pipeline garantisce che le stesse trasformazioni siano applicate in modo coerente sia ai dati di training che a quelli di test. Incapsula tutti i passaggi di preprocessing e modellazione in un unico oggetto, semplificando il codice, prevenendo il data leakage e facilitando il deployment del modello in produzione.

2

Quale metodo dovrebbe essere chiamato su una Pipeline per addestrare tutti i passaggi e fare una predizione?

Risposta

Il metodo fit_predict non esiste per le Pipeline di regressione o classificazione. È necessario prima chiamare fit() per addestrare la pipeline, poi predict() per ottenere le predizioni. In alternativa, fit() seguito da predict() possono essere chiamati separatamente per maggior controllo.

3

Cos'è il data leakage nel contesto del machine learning?

Risposta

Il data leakage si verifica quando informazioni dal test set o da dati futuri vengono accidentalmente usate durante l'addestramento. Questo può accadere durante il preprocessing (calcolando la media sull'intero dataset prima dello split) o tramite feature che contengono indirettamente il target. Risulta in prestazioni artificialmente elevate che non si generalizzano.

4

Qual è il ruolo di ColumnTransformer in scikit-learn?

5

Cos'è la K-Fold cross-validation?

+19 domande da colloquio

Padroneggia Data Science & ML per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis