Data Science & ML

Pipelines ML & Validation

Scikit-learn pipelines, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, stratification

22 questions d'entretien·
Confirmé
1

Quel est le principal avantage d'utiliser un Pipeline scikit-learn plutôt que d'appliquer les transformations manuellement ?

Réponse

Un Pipeline garantit que les mêmes transformations sont appliquées de manière cohérente sur les données d'entraînement et de test. Il encapsule toutes les étapes de preprocessing et de modélisation dans un seul objet, ce qui simplifie le code, prévient le data leakage et facilite la mise en production du modèle.

2

Quelle méthode appeler sur un Pipeline pour entraîner toutes les étapes et faire une prédiction ?

Réponse

La méthode fit_predict n'existe pas pour les Pipelines de régression ou classification. Il faut d'abord appeler fit() pour entraîner le pipeline, puis predict() pour obtenir les prédictions. Alternativement, fit() suivi de predict() peuvent être appelés séparément pour plus de contrôle.

3

Qu'est-ce que le data leakage dans un contexte de machine learning ?

Réponse

Le data leakage se produit lorsque des informations du jeu de test ou des données futures sont accidentellement utilisées pendant l'entraînement. Cela peut survenir lors du preprocessing (calculer la moyenne sur tout le dataset avant le split) ou via des features qui contiennent indirectement la cible. Il en résulte des performances artificiellement élevées qui ne se généralisent pas.

4

Quel est le rôle de ColumnTransformer dans scikit-learn ?

5

Qu'est-ce que la cross-validation K-Fold ?

+19 questions d'entretien

Maîtrise Data Science & ML pour ton prochain entretien

Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.

Commencer gratuitement