Question 1

Quel type d'encoding utiliser pour une variable catégorielle nominale avec peu de catégories distinctes (moins de 10) ?

Accepted Answer

Le One-Hot Encoding est idéal pour les variables nominales avec peu de catégories car il crée une colonne binaire pour chaque catégorie sans introduire d'ordre artificiel. Contrairement au Label Encoding qui attribue des nombres (0, 1, 2...), le One-Hot évite que le modèle interprète une relation ordinale inexistante entre les catégories.

Question 2

Quelle est la différence principale entre StandardScaler et MinMaxScaler ?

Accepted Answer

StandardScaler centre les données autour de 0 avec un écart-type de 1 (z-score), tandis que MinMaxScaler normalise les données dans un intervalle fixe, généralement [0, 1]. StandardScaler est moins sensible aux outliers car il utilise la moyenne et l'écart-type, alors que MinMaxScaler peut être fortement affecté par les valeurs extrêmes.

Question 3

Quel scaler privilégier lorsque les données contiennent des outliers importants ?

Accepted Answer

RobustScaler utilise la médiane et l'intervalle interquartile (IQR) au lieu de la moyenne et de l'écart-type, ce qui le rend robuste aux outliers. Les valeurs extrêmes n'affectent pas significativement ces statistiques, contrairement à StandardScaler ou MinMaxScaler qui peuvent être fortement biaisés par les outliers.

Feature Engineering

Quel type d'encoding utiliser pour une variable catégorielle nominale avec peu de catégories distinctes (moins de 10) ?

Réponse

Quelle est la différence principale entre StandardScaler et MinMaxScaler ?

Réponse

Quel scaler privilégier lorsque les données contiennent des outliers importants ?

Réponse

Qu'est-ce que le Label Encoding et quand est-il approprié de l'utiliser ?

Quel problème le Target Encoding peut-il causer et comment l'éviter ?

Autres sujets d'entretien Data Science & ML

Les bases de Python

Programmation Orientée Objet Python

Structures de données Python

Fondamentaux Git

Les bases de SQL

Fondamentaux NumPy

Les bases de Pandas

Jupyter & Google Colab

SQL Joins & Requêtes avancées

Pandas avancé

Visualisation avec Matplotlib & Seaborn

Visualisations interactives avec Plotly

Statistiques descriptives

Statistiques inférentielles

Web Scraping

BigQuery & Cloud Data

ML Supervisé : Régression

ML Supervisé : Classification

Arbres de décision & Ensembles

ML Non supervisé

Pipelines ML & Validation

Séries temporelles & Prévisions

Fondamentaux Deep Learning

TensorFlow & Keras

CNN & Classification d'images

RNN & Séquences

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps & Déploiement

Maîtrise Data Science & ML pour ton prochain entretien