Quelle différence entre clustering et classification ?

La classification s'appuie sur des exemples étiquetés et range dans des tiroirs existants. Le clustering n'a aucune étiquette et invente lui-même les tiroirs : c'est de l'apprentissage non supervisé.

Comment l'algorithme de clustering sait combien de groupes former ?

Avec les k-means, l'utilisateur fixe le nombre de groupes. D'autres méthodes comme DBSCAN le déduisent de la densité des données. Des indicateurs aident à comparer plusieurs valeurs, mais le choix final reste humain.

Les groupes trouvés par le clustering sont-ils fiables ?

Ils sont mathématiquement cohérents mais pas toujours utiles. L'algorithme regroupe toujours, même dans du bruit. Un groupe n'a de valeur que s'il correspond à une réalité métier interprétable et activable.

Le clustering ou l’analogie de la soirée sans plan de table Exercices et Prompts

Q: Le clustering, c'est juste faire des catégories ?

Non. Faire des catégories suppose de décider les cases à l'avance. Le clustering ne connaît aucune case au départ : il laisse les groupes apparaître à partir des ressemblances dans les données, puis l'humain les nomme.

Q: Faut-il savoir coder pour faire du clustering ?

Pas pour comprendre et piloter. De nombreux outils de tableur ou de business intelligence proposent du clustering en quelques clics. Le code n'est utile que pour les gros volumes ou le travail sur embeddings.

Vous donnez une grande fête. Vous n’avez placé personne. Une heure plus tard, sans que vous n’ayez rien dit, le salon s’est organisé tout seul : un groupe rit près de la fenêtre, un autre refait le monde dans la cuisine, deux personnes se sont trouvées au coin du buffet.

Personne n’a distribué de badges. Et pourtant, des groupes existent. C’est exactement ce que fait un algorithme de clustering.

Le clustering, en trois phrases

Niveau 1 — Pour un enfant

Tu as un tas de billes mélangées. Sans qu’on te dise les couleurs, tu regardes lesquelles se ressemblent et tu les mets ensemble. Voilà, tu fais du clustering.

Niveau 2 — Pour un manager

Une technique qui regroupe automatiquement des éléments qui se ressemblent — clients, produits, documents — sans qu’on ait défini les catégories à l’avance.

Niveau 3 — Définition académique

Méthode d’apprentissage non supervisé qui partitionne un ensemble d’observations en groupes (clusters) de façon à maximiser la similarité à l’intérieur d’un groupe et la dissimilarité entre les groupes.

L’analogie de la soirée sans plan de table

Reprenons votre fête. Vous ouvrez les portes, vous laissez faire. Au début, les invités circulent un peu au hasard. Puis quelque chose se passe : chacun se rapproche des personnes avec qui il a quelque chose en commun. Les amateurs de cinéma finissent côte à côte. Les parents parlent d’école dans un coin. Les collègues de bureau se retrouvent près des boissons.

Personne n’a organisé ces groupes. Ils se sont formés par proximité d’affinité. Plus deux personnes se ressemblent, plus elles ont tendance à se retrouver dans le même coin du salon. C’est tout le principe du clustering : on ne dit pas à l’algorithme « voici les catégories, range les données dedans ». On lui dit « regarde ce qui se ressemble, et forme des groupes ».

En tant qu’hôte, vous jouez un rôle discret mais réel. Avant la soirée, vous pouviez vous dire : « je m’attends à voir se former trois ou quatre petits cercles de conversation. » Ce chiffre que vous anticipez, c’est exactement ce qu’on appelle le k dans la célèbre méthode des k-means : le nombre de groupes qu’on demande à l’algorithme de constituer.

Segmenter sans a priori. La segmentation classique part de catégories que vous imposez (âge, région). Le clustering laisse les segments émerger des données. Vous pouvez découvrir des groupes de clients auxquels vous n’auriez jamais pensé.
Souvent, on ne regroupe pas les données brutes. On regroupe leurs embeddings — des représentations numériques du sens, que j’explique dans l’article sur le fonctionnement des LLM. C’est ce qui permet de regrouper des avis clients ou des documents par thème.
Repérer ce qui sort du lot. L’invité solitaire de la soirée, c’est aussi la transaction suspecte ou le client sur le point de partir. Le clustering sert autant à détecter les anomalies qu’à former des groupes.
Le nombre de groupes est une décision business. Trois segments ou douze ? Le choix du k dépend de ce que vous saurez activer ensuite. Ce n’est pas qu’un réglage technique, c’est un arbitrage de pilotage.
Gardez l’œil critique. L’algorithme regroupe toujours. À vous de vérifier que les groupes ont un sens métier avant d’en faire une stratégie. Pour situer le clustering parmi les autres notions, voyez le guide des 50 concepts clés de l’IA générative.

Questions que tout le monde se pose

Le clustering, c’est pas juste faire des catégories ? ▼

Pas tout à fait. Faire des catégories, c’est décider à l’avance des cases (« hommes / femmes », « moins de 30 ans / plus de 30 ans »). Le clustering ne connaît aucune case au départ : il laisse les groupes apparaître à partir des ressemblances. Les cases, c’est vous qui les nommez après coup.

Quelle différence avec la classification ? ▼

La classification connaît les réponses : on lui a montré des exemples étiquetés (« ceci est un spam, ceci ne l’est pas »). Le clustering n’a aucune étiquette : il découvre les groupes seul. La première range dans des tiroirs existants ; le second invente les tiroirs.

Comment l’algorithme sait combien de groupes faire ? ▼

Souvent, il ne le sait pas : avec les k-means, c’est vous qui fixez le nombre. D’autres méthodes, comme DBSCAN, le déduisent de la densité des données. Il existe des indicateurs pour tester plusieurs valeurs, mais le dernier mot reste un choix humain.

Est-ce que les groupes trouvés sont « vrais » ? ▼

Ils sont mathématiquement cohérents, pas forcément utiles. L’algorithme regroupera toujours quelque chose, même dans du bruit pur. Un groupe ne devient intéressant que lorsqu’il correspond à une réalité métier que vous pouvez interpréter et activer.

Faut-il savoir coder pour faire du clustering ? ▼

Pour comprendre et piloter, non. De nombreux outils de tableur ou de business intelligence proposent du clustering en quelques clics. Pour aller loin (gros volumes, embeddings), un peu de code aide, mais l’enjeu reste de poser les bonnes questions, pas d’écrire des lignes.

Les deux articles fondateurs

1. L’acte de naissance des k-means (1967)

Dans un colloque de statistiques de Berkeley, le statisticien James MacQueen cherche une manière simple de découper une masse d’observations en quelques groupes représentatifs.

Son idée : placer quelques points de référence, attribuer chaque observation au plus proche, puis recalculer les références — et recommencer jusqu’à stabilisation. C’est lui qui baptise la méthode « k-means ». Elle est restée, soixante ans plus tard, le premier réflexe de clustering enseigné partout.

✅ MacQueen, J. B. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 1, 281–297. University of California Press.

2. DBSCAN, ou le regroupement par densité (1996)

Trente ans plus tard, une équipe de l’université de Munich (Ester, Kriegel, Sander et Xu) part d’un constat : les k-means imposent de connaître le nombre de groupes et peinent sur les formes irrégulières.

Leur réponse, DBSCAN, change de logique : un groupe est une zone où les points sont serrés ; ce qui reste isolé est laissé de côté comme « bruit ». L’algorithme trouve donc lui-même le nombre de groupes et sait dire « celui-là n’appartient à personne ». Cette approche a reçu en 2014 le prix du KDD récompensant les travaux marquants dans la durée.

✅ Ester, M., Kriegel, H.-P., Sander, J., & Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96), 226–231. AAAI Press.

Trois prompts pour apprendre

Explique-moi le clustering avec une analogie différente de la soirée, tirée du monde du commerce ou de la cuisine, puis donne un exemple concret.

🎯 Objectif : explorer | 📚 Ce qu’on apprend : qu’un même concept se raconte de plusieurs façons, ce qui solidifie la compréhension.

Voici ma définition du clustering : [collez votre définition]. Dis-moi ce qui est juste, ce qui est imprécis, et reformule-la en une seule phrase claire.

🎯 Objectif : tester sa compréhension | 📚 Ce qu’on apprend : à repérer ses propres approximations.

J’ai 500 clients décrits par leur âge, leur panier moyen et leur fréquence d’achat. Sans code, explique comment un clustering pourrait m’aider à créer des segments, et quels pièges surveiller.

🎯 Objectif : cas pratique management | 📚 Ce qu’on apprend : à relier une méthode à une décision business réelle.

Note méthodologique. Cet article a été rédigé avec l’aide d’une IA générative, sous supervision éditoriale. Les deux références fondatrices ont été vérifiées à la source. Pour d’autres ressources, voir mes outils pédagogiques, et pour suivre les prochains billets, la page s’abonner — sans newsletter qui monétise vos données.