Le clustering ou l’analogie de la soirée sans plan de table Exercices et Prompts

Vous donnez une grande fête. Vous n’avez placé personne. Une heure plus tard, sans que vous n’ayez rien dit, le salon s’est organisé tout seul : un groupe rit près de la fenêtre, un autre refait le monde dans la cuisine, deux personnes se sont trouvées au coin du buffet.

Personne n’a distribué de badges. Et pourtant, des groupes existent. C’est exactement ce que fait un algorithme de clustering.

Le clustering, en trois phrases

Niveau 1 — Pour un enfant

Tu as un tas de billes mélangées. Sans qu’on te dise les couleurs, tu regardes lesquelles se ressemblent et tu les mets ensemble. Voilà, tu fais du clustering.

Niveau 2 — Pour un manager

Une technique qui regroupe automatiquement des éléments qui se ressemblent — clients, produits, documents — sans qu’on ait défini les catégories à l’avance.

Niveau 3 — Définition académique

Méthode d’apprentissage non supervisé qui partitionne un ensemble d’observations en groupes (clusters) de façon à maximiser la similarité à l’intérieur d’un groupe et la dissimilarité entre les groupes.

L’analogie de la soirée sans plan de table

Reprenons votre fête. Vous ouvrez les portes, vous laissez faire. Au début, les invités circulent un peu au hasard. Puis quelque chose se passe : chacun se rapproche des personnes avec qui il a quelque chose en commun. Les amateurs de cinéma finissent côte à côte. Les parents parlent d’école dans un coin. Les collègues de bureau se retrouvent près des boissons.

Personne n’a organisé ces groupes. Ils se sont formés par proximité d’affinité. Plus deux personnes se ressemblent, plus elles ont tendance à se retrouver dans le même coin du salon. C’est tout le principe du clustering : on ne dit pas à l’algorithme « voici les catégories, range les données dedans ». On lui dit « regarde ce qui se ressemble, et forme des groupes ».

En tant qu’hôte, vous jouez un rôle discret mais réel. Avant la soirée, vous pouviez vous dire : « je m’attends à voir se former trois ou quatre petits cercles de conversation. » Ce chiffre que vous anticipez, c’est exactement ce qu’on appelle le k dans la célèbre méthode des k-means : le nombre de groupes qu’on demande à l’algorithme de constituer.

Dans chaque groupe, il y a souvent une personne autour de qui les autres gravitent — celle qui anime, qui fait le lien. C’est le centre du groupe. L’algorithme, lui, calcule un point moyen pour chaque cluster : le centroïde. Et il y a toujours cet invité un peu seul, planté près du buffet, qui n’appartient vraiment à aucun cercle. Certaines méthodes savent le reconnaître et le laisser de côté plutôt que de le forcer dans un groupe : on parle alors de bruit ou de point isolé.

Le clustering appartient à la même grande famille d’apprentissage que les méthodes que je décris dans l’article sur le deep learning — à une différence près, essentielle : ici, personne n’a donné les bonnes réponses à l’avance.

Là où notre image s’arrête. Vos invités se regroupent parce qu’ils comprennent ce qu’ils ont en commun. L’algorithme, lui, ne comprend rien : il mesure une distance entre des chiffres, pas une affinité. Autre limite : à une vraie fête, s’il n’y a aucune affinité, personne ne se regroupe ; un algorithme, lui, formera des groupes même quand il n’y en a pas. C’est à vous de juger si les groupes trouvés veulent dire quelque chose.

Le vocabulaire, traduit

Données non étiquetées

Dans notre soirée

Des invités sans badge de catégorie

En réalité

Des données brutes, sans réponse fournie à l’avance

Similarité (distance)

Dans notre soirée

La proximité d’affinité entre deux personnes

En réalité

Une mesure mathématique : plus deux points sont proches, plus ils se ressemblent

Centroïde

Dans notre soirée

La personne autour de qui le groupe gravite

En réalité

Le point « moyen » qui résume un cluster

k (nombre de groupes)

Dans notre soirée

Le nombre de coins de discussion que l’hôte anticipe

En réalité

Avec les k-means, on fixe ce nombre à l’avance

Bruit (outlier)

Dans notre soirée

L’invité solitaire près du buffet

En réalité

Un point qui n’appartient à aucun groupe ; certaines méthodes (DBSCAN) le laissent de côté

Ce que ça change pour vous

  • Segmenter sans a priori. La segmentation classique part de catégories que vous imposez (âge, région). Le clustering laisse les segments émerger des données. Vous pouvez découvrir des groupes de clients auxquels vous n’auriez jamais pensé.
  • Souvent, on ne regroupe pas les données brutes. On regroupe leurs embeddings — des représentations numériques du sens, que j’explique dans l’article sur le fonctionnement des LLM. C’est ce qui permet de regrouper des avis clients ou des documents par thème.
  • Repérer ce qui sort du lot. L’invité solitaire de la soirée, c’est aussi la transaction suspecte ou le client sur le point de partir. Le clustering sert autant à détecter les anomalies qu’à former des groupes.
  • Le nombre de groupes est une décision business. Trois segments ou douze ? Le choix du k dépend de ce que vous saurez activer ensuite. Ce n’est pas qu’un réglage technique, c’est un arbitrage de pilotage.
  • Gardez l’œil critique. L’algorithme regroupe toujours. À vous de vérifier que les groupes ont un sens métier avant d’en faire une stratégie. Pour situer le clustering parmi les autres notions, voyez le guide des 50 concepts clés de l’IA générative.

Questions que tout le monde se pose

Le clustering, c’est pas juste faire des catégories ?
Pas tout à fait. Faire des catégories, c’est décider à l’avance des cases (« hommes / femmes », « moins de 30 ans / plus de 30 ans »). Le clustering ne connaît aucune case au départ : il laisse les groupes apparaître à partir des ressemblances. Les cases, c’est vous qui les nommez après coup.
Quelle différence avec la classification ?
La classification connaît les réponses : on lui a montré des exemples étiquetés (« ceci est un spam, ceci ne l’est pas »). Le clustering n’a aucune étiquette : il découvre les groupes seul. La première range dans des tiroirs existants ; le second invente les tiroirs.
Comment l’algorithme sait combien de groupes faire ?
Souvent, il ne le sait pas : avec les k-means, c’est vous qui fixez le nombre. D’autres méthodes, comme DBSCAN, le déduisent de la densité des données. Il existe des indicateurs pour tester plusieurs valeurs, mais le dernier mot reste un choix humain.
Est-ce que les groupes trouvés sont « vrais » ?
Ils sont mathématiquement cohérents, pas forcément utiles. L’algorithme regroupera toujours quelque chose, même dans du bruit pur. Un groupe ne devient intéressant que lorsqu’il correspond à une réalité métier que vous pouvez interpréter et activer.
Faut-il savoir coder pour faire du clustering ?
Pour comprendre et piloter, non. De nombreux outils de tableur ou de business intelligence proposent du clustering en quelques clics. Pour aller loin (gros volumes, embeddings), un peu de code aide, mais l’enjeu reste de poser les bonnes questions, pas d’écrire des lignes.

Les deux articles fondateurs

1. L’acte de naissance des k-means (1967)

Dans un colloque de statistiques de Berkeley, le statisticien James MacQueen cherche une manière simple de découper une masse d’observations en quelques groupes représentatifs.

Son idée : placer quelques points de référence, attribuer chaque observation au plus proche, puis recalculer les références — et recommencer jusqu’à stabilisation. C’est lui qui baptise la méthode « k-means ». Elle est restée, soixante ans plus tard, le premier réflexe de clustering enseigné partout.

✅ MacQueen, J. B. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 1, 281–297. University of California Press.

2. DBSCAN, ou le regroupement par densité (1996)

Trente ans plus tard, une équipe de l’université de Munich (Ester, Kriegel, Sander et Xu) part d’un constat : les k-means imposent de connaître le nombre de groupes et peinent sur les formes irrégulières.

Leur réponse, DBSCAN, change de logique : un groupe est une zone où les points sont serrés ; ce qui reste isolé est laissé de côté comme « bruit ». L’algorithme trouve donc lui-même le nombre de groupes et sait dire « celui-là n’appartient à personne ». Cette approche a reçu en 2014 le prix du KDD récompensant les travaux marquants dans la durée.

✅ Ester, M., Kriegel, H.-P., Sander, J., & Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96), 226–231. AAAI Press.

Trois prompts pour apprendre

Explique-moi le clustering avec une analogie différente de la soirée, tirée du monde du commerce ou de la cuisine, puis donne un exemple concret.

🎯 Objectif : explorer | 📚 Ce qu’on apprend : qu’un même concept se raconte de plusieurs façons, ce qui solidifie la compréhension.

Voici ma définition du clustering : [collez votre définition]. Dis-moi ce qui est juste, ce qui est imprécis, et reformule-la en une seule phrase claire.

🎯 Objectif : tester sa compréhension | 📚 Ce qu’on apprend : à repérer ses propres approximations.

J’ai 500 clients décrits par leur âge, leur panier moyen et leur fréquence d’achat. Sans code, explique comment un clustering pourrait m’aider à créer des segments, et quels pièges surveiller.

🎯 Objectif : cas pratique management | 📚 Ce qu’on apprend : à relier une méthode à une décision business réelle.

Note méthodologique. Cet article a été rédigé avec l’aide d’une IA générative, sous supervision éditoriale. Les deux références fondatrices ont été vérifiées à la source. Pour d’autres ressources, voir mes outils pédagogiques, et pour suivre les prochains billets, la page s’abonner — sans newsletter qui monétise vos données.

Laisser un commentaire

Suivre le blog

Sans newsletter qui monétise vos données.

📡 RSS 📖 WP LinkedIn → S'abonner

En savoir plus sur Maria Mercanti-Guérin

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Poursuivre la lecture