Data Science & ML

Feature Engineering

Encoding catégoriel, scaling, normalisation, feature selection, création de features, pipelines

22 questions d'entretien·
Confirmé
1

Quel type d'encoding utiliser pour une variable catégorielle nominale avec peu de catégories distinctes (moins de 10) ?

Réponse

Le One-Hot Encoding est idéal pour les variables nominales avec peu de catégories car il crée une colonne binaire pour chaque catégorie sans introduire d'ordre artificiel. Contrairement au Label Encoding qui attribue des nombres (0, 1, 2...), le One-Hot évite que le modèle interprète une relation ordinale inexistante entre les catégories.

2

Quelle est la différence principale entre StandardScaler et MinMaxScaler ?

Réponse

StandardScaler centre les données autour de 0 avec un écart-type de 1 (z-score), tandis que MinMaxScaler normalise les données dans un intervalle fixe, généralement [0, 1]. StandardScaler est moins sensible aux outliers car il utilise la moyenne et l'écart-type, alors que MinMaxScaler peut être fortement affecté par les valeurs extrêmes.

3

Quel scaler privilégier lorsque les données contiennent des outliers importants ?

Réponse

RobustScaler utilise la médiane et l'intervalle interquartile (IQR) au lieu de la moyenne et de l'écart-type, ce qui le rend robuste aux outliers. Les valeurs extrêmes n'affectent pas significativement ces statistiques, contrairement à StandardScaler ou MinMaxScaler qui peuvent être fortement biaisés par les outliers.

4

Qu'est-ce que le Label Encoding et quand est-il approprié de l'utiliser ?

5

Quel problème le Target Encoding peut-il causer et comment l'éviter ?

+19 questions d'entretien

Maîtrise Data Science & ML pour ton prochain entretien

Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.

Commencer gratuitement