
Feature Engineering
Encoding catégoriel, scaling, normalisation, feature selection, création de features, pipelines
1Quel type d'encoding utiliser pour une variable catégorielle nominale avec peu de catégories distinctes (moins de 10) ?
Quel type d'encoding utiliser pour une variable catégorielle nominale avec peu de catégories distinctes (moins de 10) ?
Réponse
Le One-Hot Encoding est idéal pour les variables nominales avec peu de catégories car il crée une colonne binaire pour chaque catégorie sans introduire d'ordre artificiel. Contrairement au Label Encoding qui attribue des nombres (0, 1, 2...), le One-Hot évite que le modèle interprète une relation ordinale inexistante entre les catégories.
2Quelle est la différence principale entre StandardScaler et MinMaxScaler ?
Quelle est la différence principale entre StandardScaler et MinMaxScaler ?
Réponse
StandardScaler centre les données autour de 0 avec un écart-type de 1 (z-score), tandis que MinMaxScaler normalise les données dans un intervalle fixe, généralement [0, 1]. StandardScaler est moins sensible aux outliers car il utilise la moyenne et l'écart-type, alors que MinMaxScaler peut être fortement affecté par les valeurs extrêmes.
3Quel scaler privilégier lorsque les données contiennent des outliers importants ?
Quel scaler privilégier lorsque les données contiennent des outliers importants ?
Réponse
RobustScaler utilise la médiane et l'intervalle interquartile (IQR) au lieu de la moyenne et de l'écart-type, ce qui le rend robuste aux outliers. Les valeurs extrêmes n'affectent pas significativement ces statistiques, contrairement à StandardScaler ou MinMaxScaler qui peuvent être fortement biaisés par les outliers.
Qu'est-ce que le Label Encoding et quand est-il approprié de l'utiliser ?
Quel problème le Target Encoding peut-il causer et comment l'éviter ?
+19 questions d'entretien
Autres sujets d'entretien Data Science & ML
Les bases de Python
Programmation Orientée Objet Python
Structures de données Python
Fondamentaux Git
Les bases de SQL
Fondamentaux NumPy
Les bases de Pandas
Jupyter & Google Colab
SQL Joins & Requêtes avancées
Pandas avancé
Visualisation avec Matplotlib & Seaborn
Visualisations interactives avec Plotly
Statistiques descriptives
Statistiques inférentielles
Web Scraping
BigQuery & Cloud Data
ML Supervisé : Régression
ML Supervisé : Classification
Arbres de décision & Ensembles
ML Non supervisé
Pipelines ML & Validation
Séries temporelles & Prévisions
Fondamentaux Deep Learning
TensorFlow & Keras
CNN & Classification d'images
RNN & Séquences
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps & Déploiement
Maîtrise Data Science & ML pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement