Question 1

Quelle est la principale différence entre l'apprentissage supervisé et l'apprentissage non supervisé ?

Accepted Answer

L'apprentissage non supervisé travaille avec des données non étiquetées, cherchant à découvrir des structures ou patterns cachés sans variable cible prédéfinie. Contrairement au supervisé qui prédit une valeur connue (label), le non supervisé explore les données pour trouver des groupes naturels, réduire la dimensionnalité ou détecter des anomalies. Les algorithmes comme K-Means, PCA ou DBSCAN sont des exemples typiques d'apprentissage non supervisé.

Question 2

Comment fonctionne l'algorithme K-Means pour partitionner les données ?

Accepted Answer

K-Means est un algorithme itératif qui partitionne les données en K clusters. Il initialise K centroïdes aléatoirement, puis alterne entre deux étapes : assigner chaque point au centroïde le plus proche (étape d'assignation) et recalculer la position des centroïdes comme la moyenne des points assignés (étape de mise à jour). L'algorithme converge quand les assignations ne changent plus ou après un nombre maximal d'itérations.

Question 3

Quelle méthode utiliser pour déterminer le nombre optimal de clusters K dans K-Means ?

Accepted Answer

La méthode du coude (elbow method) trace l'inertie (somme des distances au carré entre chaque point et son centroïde) en fonction de K. Le point où la courbe forme un coude indique le K optimal, car au-delà l'ajout de clusters n'améliore plus significativement l'inertie. Cette méthode est complétée par le silhouette score pour valider la qualité des clusters.

ML Non supervisé

Quelle est la principale différence entre l'apprentissage supervisé et l'apprentissage non supervisé ?

Réponse

Comment fonctionne l'algorithme K-Means pour partitionner les données ?

Réponse

Quelle méthode utiliser pour déterminer le nombre optimal de clusters K dans K-Means ?

Réponse

Qu'est-ce que le silhouette score mesure dans le contexte du clustering ?

Quelle est la plage de valeurs du silhouette score et comment interpréter un score de 0.7 ?

Autres sujets d'entretien Data Science & ML

Les bases de Python

Programmation Orientée Objet Python

Structures de données Python

Fondamentaux Git

Les bases de SQL

Fondamentaux NumPy

Les bases de Pandas

Jupyter & Google Colab

SQL Joins & Requêtes avancées

Pandas avancé

Visualisation avec Matplotlib & Seaborn

Visualisations interactives avec Plotly

Statistiques descriptives

Statistiques inférentielles

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisé : Régression

ML Supervisé : Classification

Arbres de décision & Ensembles

Pipelines ML & Validation

Séries temporelles & Prévisions

Fondamentaux Deep Learning

TensorFlow & Keras

CNN & Classification d'images

RNN & Séquences

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps & Déploiement

Maîtrise Data Science & ML pour ton prochain entretien