Question 1

Quel est le principal avantage d'utiliser un Pipeline scikit-learn plutôt que d'appliquer les transformations manuellement ?

Accepted Answer

Un Pipeline garantit que les mêmes transformations sont appliquées de manière cohérente sur les données d'entraînement et de test. Il encapsule toutes les étapes de preprocessing et de modélisation dans un seul objet, ce qui simplifie le code, prévient le data leakage et facilite la mise en production du modèle.

Question 2

Quelle méthode appeler sur un Pipeline pour entraîner toutes les étapes et faire une prédiction ?

Accepted Answer

La méthode fit_predict n'existe pas pour les Pipelines de régression ou classification. Il faut d'abord appeler fit() pour entraîner le pipeline, puis predict() pour obtenir les prédictions. Alternativement, fit() suivi de predict() peuvent être appelés séparément pour plus de contrôle.

Question 3

Qu'est-ce que le data leakage dans un contexte de machine learning ?

Accepted Answer

Le data leakage se produit lorsque des informations du jeu de test ou des données futures sont accidentellement utilisées pendant l'entraînement. Cela peut survenir lors du preprocessing (calculer la moyenne sur tout le dataset avant le split) ou via des features qui contiennent indirectement la cible. Il en résulte des performances artificiellement élevées qui ne se généralisent pas.

Pipelines ML & Validation

Quel est le principal avantage d'utiliser un Pipeline scikit-learn plutôt que d'appliquer les transformations manuellement ?

Réponse

Quelle méthode appeler sur un Pipeline pour entraîner toutes les étapes et faire une prédiction ?

Réponse

Qu'est-ce que le data leakage dans un contexte de machine learning ?

Réponse

Quel est le rôle de ColumnTransformer dans scikit-learn ?

Qu'est-ce que la cross-validation K-Fold ?

Autres sujets d'entretien Data Science & ML

Les bases de Python

Programmation Orientée Objet Python

Structures de données Python

Fondamentaux Git

Les bases de SQL

Fondamentaux NumPy

Les bases de Pandas

Jupyter & Google Colab

SQL Joins & Requêtes avancées

Pandas avancé

Visualisation avec Matplotlib & Seaborn

Visualisations interactives avec Plotly

Statistiques descriptives

Statistiques inférentielles

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisé : Régression

ML Supervisé : Classification

Arbres de décision & Ensembles

ML Non supervisé

Séries temporelles & Prévisions

Fondamentaux Deep Learning

TensorFlow & Keras

CNN & Classification d'images

RNN & Séquences

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps & Déploiement

Maîtrise Data Science & ML pour ton prochain entretien