Le clustering en apprentissage machine
Valérie Bécaert Valérie Bécaert
25 février 6 min

Le clustering en apprentissage machine

Les humains ont cherché des tendances bien avant l’invention de l’IA. Un aspect fondamental de la curiosité naturelle de l’humain nous pousse à remarquer les similitudes dans le monde et à découvrir de nouvelles significations et des connaissances cachées. Mais nous disposons maintenant d’un nouvel assistant efficace qui peut gérer l’incroyable volume de données créées au 21e siècle et les interpréter en utilisant des techniques comme le clustering en apprentissage machine.

Le clustering (regroupement) est un domaine fascinant de la science des données. L’analyse de groupement (cluster analysis) basée sur l’IA est utilisée par toutes sortes d’organisations, des entreprises jusqu’aux chercheurs scientifiques, afin de glaner des informations précieuses sur tous les aspects de la vie. Dans cet article, nous examinons le fonctionnement du clustering, son origine et son utilisation.

Repérage des similitudes

Le clustering consiste à regrouper les données en fonction de similitudes intéressantes ou utiles. Ce concept est souvent attribué aux anthropologues Alfred Kroeber et Harold Driver. Leur article de 1932, intitulé Quantitative Expression of Cultural Relationships, s’intéresse à la manière dont certains traits culturels (comme les croyances religieuses ou les styles d’architecture) se retrouvent chez plusieurs ethnies ou dans plusieurs sociétés et dont, dans certains cas, ces traits se retrouvent dans des groupements de cultures particuliers. Ces deux auteurs ont essentiellement voulu utiliser la reconnaissance des formes pour analyser des données anthropologiques et obtenir des informations sur des pans entiers de l’humanité.

Il n’a pas fallu longtemps pour que l’analyse de groupement soit adoptée par un autre domaine d’étude : la psychologie. Le psychologue de l’éducation Joseph Zubin l’a qualifiée de « technique for measuring like-mindedness » (technique de mesure de la communauté d’esprit) dans son article du même nom publié en 1938. Il la décrit comme une méthode permettant de diviser des personnes en groupes qui pensent de la même façon en fonction de certains critères sociaux. Le clustering a rapidement été adopté par ses contemporains, comme le psychologue du comportement Robert Tryon et le pionnier de la théorie de la personnalité Raymond Cattell. À partir de là, les études sur les groupements se sont répandues dans le reste des sciences.

Types d’algorithmes de clustering

Les systèmes d’apprentissage machine actuels utilisent toute une série de méthodes pour décomposer les données en groupes et sous-groupes dans leur recherche de sens. Voici quelques-uns des principaux types d’algorithmes de clustering qu’il faut connaître :

  • Distance entre les points de données. Lorsque des points de données sont tracés dans un espace (imaginons un graphique en nuage de points), les distances entre eux sont calculées. Les zones de données les plus proches les unes des autres sont alors définies comme des groupes. Cette méthode est relativement simple, mais elle peut ne pas convenir à l’analyse de mégadonnées, car elle nécessite la comparaison de chaque point de données à un autre, ce qui exige un traitement important. Cette méthode est également connue sous le nom de regroupement hiérarchique ou de regroupement basé sur les relations, car elle fonctionne avec des hiérarchies de données : les connexions entre différents points de données.
  • Densité des points dans une zone. Ces groupements sont définis par des zones de l’espace qui sont densément peuplées de points de données, séparées les unes des autres par des zones plus clairsemées. Les points de données situés en dehors des groupements sont considérés comme du « bruit » et ne sont donc pas pris en compte dans l’analyse. L’algorithme fonctionne sur le principe que dans un rayon défini, il doit y avoir une certaine densité de données pour qu’un groupement soit déterminé. Les points de données suffisamment proches du groupement pour répondre à ses critères sont alors acceptés dans le groupement, jusqu’à une zone où la distance entre un point et le point suivant est suffisamment grande pour que ce dernier point ne soit plus accepté. Le groupement est alors défini et peut être analysé.
  • Clustering basé sur la distribution de probabilité. L’algorithme calcule la probabilité d’appartenance des points de données à un groupement en utilisant un modèle de distribution sélectionné. Il utilise des centres de gravité pour définir le point central de chaque groupement et catégorise les données qui les entourent en conséquence. Plus un point de données est éloigné du centre du groupement, moins grande est la probabilité qu’il appartienne à ce groupement.
  • Clustering par centre de gravité ou k-moyennes (k-means). Cette méthode sélectionne aléatoirement un ensemble de k points de données comme centres de gravité. Les points de données environnants les plus proches sont alors affectés au groupement de ce centre de gravité. La moyenne de tous les points de données du groupement est calculée et le centre de gravité est repositionné au centre du groupement. Ce processus est répété jusqu’à ce que tous les centres de gravité cessent de bouger et que les groupements soient fermement définis. À l’avenir, toute nouvelle donnée sera attribuée à ces groupements et les centres de gravité seront recalculés. Le nombre de centres de gravité utilisés est appelé « k », d’où le terme « k-moyennes ».

Libérer les connaissances des entreprises

Grâce aux technologies d’apprentissage machine et à la puissance de traitement actuelles, l’analyse de groupement peut être appliquée à d’énormes volumes de données au degré de complexité élevé.

Les techniques de clustering ont longtemps été utilisées pour obtenir de l’information sur les marchés et élaborer des stratégies. Leur application aux précieuses données sur les clients et les transactions dont disposent les détaillants permet une segmentation profonde, nuancée et très efficace du marché. Les moteurs de recommandation, qui s’améliorent constamment, permettent de déterminer les produits et les services que les consommateurs veulent et dont ils ont besoin, en fonction des tendances de leur situation et de leurs dépenses.

Une multitude de possibilités

Plus le clustering en apprentissage machine évolue, plus les connaissances qu’il peut fournir sont importantes, pour le commerce, la science et la société. Les systèmes d’IA détectent même des groupes de symptômes de cancer, afin que le traitement puisse commencer le plus tôt possible.

L’étude des groupements a commencé comme un moyen de comprendre l’humanité, et elle continue à nous aider à comprendre notre monde d’une manière jusqu’alors inimaginable.