
ML Non supervisé
K-Means, clustering hiérarchique, DBSCAN, PCA, t-SNE, UMAP, silhouette score, elbow method
1Quelle est la principale différence entre l'apprentissage supervisé et l'apprentissage non supervisé ?
Quelle est la principale différence entre l'apprentissage supervisé et l'apprentissage non supervisé ?
Réponse
L'apprentissage non supervisé travaille avec des données non étiquetées, cherchant à découvrir des structures ou patterns cachés sans variable cible prédéfinie. Contrairement au supervisé qui prédit une valeur connue (label), le non supervisé explore les données pour trouver des groupes naturels, réduire la dimensionnalité ou détecter des anomalies. Les algorithmes comme K-Means, PCA ou DBSCAN sont des exemples typiques d'apprentissage non supervisé.
2Comment fonctionne l'algorithme K-Means pour partitionner les données ?
Comment fonctionne l'algorithme K-Means pour partitionner les données ?
Réponse
K-Means est un algorithme itératif qui partitionne les données en K clusters. Il initialise K centroïdes aléatoirement, puis alterne entre deux étapes : assigner chaque point au centroïde le plus proche (étape d'assignation) et recalculer la position des centroïdes comme la moyenne des points assignés (étape de mise à jour). L'algorithme converge quand les assignations ne changent plus ou après un nombre maximal d'itérations.
3Quelle méthode utiliser pour déterminer le nombre optimal de clusters K dans K-Means ?
Quelle méthode utiliser pour déterminer le nombre optimal de clusters K dans K-Means ?
Réponse
La méthode du coude (elbow method) trace l'inertie (somme des distances au carré entre chaque point et son centroïde) en fonction de K. Le point où la courbe forme un coude indique le K optimal, car au-delà l'ajout de clusters n'améliore plus significativement l'inertie. Cette méthode est complétée par le silhouette score pour valider la qualité des clusters.
Qu'est-ce que le silhouette score mesure dans le contexte du clustering ?
Quelle est la plage de valeurs du silhouette score et comment interpréter un score de 0.7 ?
+19 questions d'entretien
Autres sujets d'entretien Data Science & ML
Les bases de Python
Programmation Orientée Objet Python
Structures de données Python
Fondamentaux Git
Les bases de SQL
Fondamentaux NumPy
Les bases de Pandas
Jupyter & Google Colab
SQL Joins & Requêtes avancées
Pandas avancé
Visualisation avec Matplotlib & Seaborn
Visualisations interactives avec Plotly
Statistiques descriptives
Statistiques inférentielles
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisé : Régression
ML Supervisé : Classification
Arbres de décision & Ensembles
Pipelines ML & Validation
Séries temporelles & Prévisions
Fondamentaux Deep Learning
TensorFlow & Keras
CNN & Classification d'images
RNN & Séquences
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps & Déploiement
Maîtrise Data Science & ML pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement