
Pipelines ML & Validation
Scikit-learn pipelines, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, stratification
1Quel est le principal avantage d'utiliser un Pipeline scikit-learn plutôt que d'appliquer les transformations manuellement ?
Quel est le principal avantage d'utiliser un Pipeline scikit-learn plutôt que d'appliquer les transformations manuellement ?
Réponse
Un Pipeline garantit que les mêmes transformations sont appliquées de manière cohérente sur les données d'entraînement et de test. Il encapsule toutes les étapes de preprocessing et de modélisation dans un seul objet, ce qui simplifie le code, prévient le data leakage et facilite la mise en production du modèle.
2Quelle méthode appeler sur un Pipeline pour entraîner toutes les étapes et faire une prédiction ?
Quelle méthode appeler sur un Pipeline pour entraîner toutes les étapes et faire une prédiction ?
Réponse
La méthode fit_predict n'existe pas pour les Pipelines de régression ou classification. Il faut d'abord appeler fit() pour entraîner le pipeline, puis predict() pour obtenir les prédictions. Alternativement, fit() suivi de predict() peuvent être appelés séparément pour plus de contrôle.
3Qu'est-ce que le data leakage dans un contexte de machine learning ?
Qu'est-ce que le data leakage dans un contexte de machine learning ?
Réponse
Le data leakage se produit lorsque des informations du jeu de test ou des données futures sont accidentellement utilisées pendant l'entraînement. Cela peut survenir lors du preprocessing (calculer la moyenne sur tout le dataset avant le split) ou via des features qui contiennent indirectement la cible. Il en résulte des performances artificiellement élevées qui ne se généralisent pas.
Quel est le rôle de ColumnTransformer dans scikit-learn ?
Qu'est-ce que la cross-validation K-Fold ?
+19 questions d'entretien
Autres sujets d'entretien Data Science & ML
Les bases de Python
Programmation Orientée Objet Python
Structures de données Python
Fondamentaux Git
Les bases de SQL
Fondamentaux NumPy
Les bases de Pandas
Jupyter & Google Colab
SQL Joins & Requêtes avancées
Pandas avancé
Visualisation avec Matplotlib & Seaborn
Visualisations interactives avec Plotly
Statistiques descriptives
Statistiques inférentielles
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisé : Régression
ML Supervisé : Classification
Arbres de décision & Ensembles
ML Non supervisé
Séries temporelles & Prévisions
Fondamentaux Deep Learning
TensorFlow & Keras
CNN & Classification d'images
RNN & Séquences
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps & Déploiement
Maîtrise Data Science & ML pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement