Notions générales sur le Clustering

Study Notes

Le clustering est un apprentissage non supervisé.
Il n'y a pas de connaissance préalable des classes.
L'objectif est de regrouper les objets en fonction de leur similarité, les objets d'un même groupe étant plus similaires les uns aux autres que les objets d'autres groupes.
La similarité est exprimée par le biais d'une mesure de distance.
Différentes méthodes existent pour mesurer la qualité d'un clustering.

Variables qualitatives:
- Nominales: Catégories nommées sans ordre (ex. genre, couleur).
- Ordinales: Catégories nommées avec un ordre (ex. niveau d'éducation, classement à une course).
- Binaires: Deux catégories (ex. succès/échec, présent/absent).
Variables quantitatives:
- Continues: Prennent n'importe quelle valeur numérique (ex. taille, poids).
- Discrètes: Prennent uniquement des valeurs entières (ex. nombre d'enfants, pointure de chaussures).

Matrice de données: Tableau représentant les données, où chaque ligne correspond à un objet et chaque colonne à une variable.
Matrice de similarité: Tableau indiquant la similarité ou la dissimilarité entre chaque paire d'objets. Les éléments diagonaux sont toujours 0.

Clustering par partitionnement: Divise l'ensemble de données en plusieurs groupes (clusters) et maximise la similarité intra-groupe et minimise la similarité inter-groupe.
- k-means: Chaque cluster est représenté par son centre (le barycentre).
- k-medoïdes (ou PAM): Chaque cluster est représenté par un de ses objets.
Clustering hiérarchique: Construit une hiérarchie de clusters basés sur des mesures de dissimilarité.
- AGNES (Agglomerative Nesting): Commence par considérer chaque objet comme un cluster distinct et fusionne itérativement les clusters les plus similaires.
- DIANA (Divisive Analysis): Commence par un seul cluster contenant tous les éléments et divise itérativement les clusters en groupes de plus en plus similaires.
Clustering basé sur la densité: Groupe les objets en fonction de leur densité dans l'espace, en identifiant des régions denses et des frontières.

Lien minimum: La distance entre deux clusters est la plus petite distance entre tous les points de ces deux clusters.
Lien maximum: La distance entre deux clusters est la plus grande distance entre tous les points de ces deux clusters.
Lien moyen: La distance entre deux clusters est la moyenne des distances entre tous les paires de points dans les deux clusters.

Un PMC est un réseau de neurones composé de plusieurs couches.
Les couches cachées permettent d'apprendre des relations non linéaires entre les données d'entrée et de sortie.
L'apprentissage se fait par rétropropagation du gradient.

Une fonction qui introduit le caractère non linéaire dans les modèles de réseaux de neurones.
Quelques exemples : fonction sigmoïde, fonction ReLU, fonction tanh, fonction linéaire, fonction de Heaviside...

Apprentissage supervisé: Le modèle apprend à partir d'un ensemble de données d'entraînement avec les entrées et les sorties correspondantes.
Apprentissage non supervisé: Le modèle apprend à partir d'un ensemble de données d'entraînement sans les sorties correspondantes.
Apprentissage par renforcement: Le modèle apprend en interagissant avec un environnement et en recevant des récompenses ou des pénalités.