
Pipeline ML e Validazione
Pipeline di scikit-learn, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, stratificazione
1Qual è il principale vantaggio di usare una Pipeline scikit-learn invece di applicare le trasformazioni manualmente?
Qual è il principale vantaggio di usare una Pipeline scikit-learn invece di applicare le trasformazioni manualmente?
Risposta
Una Pipeline garantisce che le stesse trasformazioni siano applicate in modo coerente sia ai dati di training che a quelli di test. Incapsula tutti i passaggi di preprocessing e modellazione in un unico oggetto, semplificando il codice, prevenendo il data leakage e facilitando il deployment del modello in produzione.
2Quale metodo dovrebbe essere chiamato su una Pipeline per addestrare tutti i passaggi e fare una predizione?
Quale metodo dovrebbe essere chiamato su una Pipeline per addestrare tutti i passaggi e fare una predizione?
Risposta
Il metodo fit_predict non esiste per le Pipeline di regressione o classificazione. È necessario prima chiamare fit() per addestrare la pipeline, poi predict() per ottenere le predizioni. In alternativa, fit() seguito da predict() possono essere chiamati separatamente per maggior controllo.
3Cos'è il data leakage nel contesto del machine learning?
Cos'è il data leakage nel contesto del machine learning?
Risposta
Il data leakage si verifica quando informazioni dal test set o da dati futuri vengono accidentalmente usate durante l'addestramento. Questo può accadere durante il preprocessing (calcolando la media sull'intero dataset prima dello split) o tramite feature che contengono indirettamente il target. Risulta in prestazioni artificialmente elevate che non si generalizzano.
Qual è il ruolo di ColumnTransformer in scikit-learn?
Cos'è la K-Fold cross-validation?
+19 domande da colloquio
Altri argomenti di colloquio Data Science & ML
Fondamenti di Python
Programmazione Orientata agli Oggetti in Python
Strutture dati Python
Fondamenti di Git
Fondamenti di SQL
Fondamenti di NumPy
Fondamenti di Pandas
Jupyter & Google Colab
SQL Joins e query avanzate
Pandas avanzato
Visualizzazione con Matplotlib & Seaborn
Visualizzazioni interattive con Plotly
Statistica descrittiva
Statistica inferenziale
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisionato: Regressione
ML Supervisionato: Classificazione
Alberi Decisionali e Ensembles
ML Non Supervisionato
Serie Temporali e Previsione
Fondamenti di Deep Learning
TensorFlow & Keras
CNN e classificazione di immagini
RNN e Sequenze
Transformers e Attention
NLP e Hugging Face
GenAI e LangChain
MLOps e Deployment
Padroneggia Data Science & ML per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis