Vulgariser les algorithmes de data science #2

Melissa
publié le 2 avril 2021

Partager l'article

La Data Science est-elle une boîte noire ? Non. Peut-on utiliser un algorithme statistique sans comprendre son fonctionnement exact ? Non. Est-ce que tout le monde peut comprendre la Data Science ? Oui, du moins le fonctionnement global.

Dans le dernier article sur la vulgarisation des algorithmes de Data Science nous évoquions la classification ascendante hiérarchique. Aujourd’hui c’est une seconde méthode statistique que nous allons décortiquer.

2ème méthode statistique détaillée : les K plus proches voisins

C’est une méthode non paramétrique (qui ne dépend d’aucun paramètre à estimer) dont l’objectif est d’estimer pour chaque individu la probabilité conditionnelle d’appartenir à chacune des N classes.

A partir d’un jeu de données où les individus ont un label (appartiennent à un groupe), l’idée principale pour estimer la probabilité conditionnelle est de calculer la proportion des voisins les plus proches autour de l’individu appartenant à chacune des classes, à l’aide d’une distance choisie en amont. C’est donc une méthode de classification supervisée, dans le sens où chaque individu est déjà intégré dans un groupe et le but est de minimiser les erreurs de classement, et donc de trouver le meilleur nombre de voisins pour pouvoir prédire la classe de chaque individu avec le moins d’erreur possible, ce qui permettra par la suite de classer un nouvel individu.

Cette méthode peut être vue comme une méthode géométrique : on va associer l’individu x à la classe C si la majorité de ses K plus proches voisins au sens de la distance euclidienne est de la classe C. Elle peut être couplée à une autre méthode de machine learning pour définir des groupes en amont.

Les K plus proches voisins : une méthode en data science — Exemple de classification par la méthode des K plus proches voisins.

Alexandre LANGLOIS
Data Analyst

Lire d'autres articles

A la une

3 grands critères pour décider de la mise en place d’un outil CRM en BtoC

L’expérience client a été fortement influencée et repensée ces dernières années par l’impact du Big Data. Que ce soient les parcours client personnalisés ou la

Julien Guerinoni 31 août 2022

A la une

Les 7 principaux KPI pour une campagne emailing

Le suivi régulier de vos campagnes emailing est essentiel au vu de l’efficacité et de la portée de ce canal de communication. Ainsi, Meteors vous

Julien Guerinoni 20 juin 2022