Podcast
Questions and Answers
Quel est l'objectif principal du Clustering ?
Quel est l'objectif principal du Clustering ?
Le Clustering est un apprentissage supervisé.
Le Clustering est un apprentissage supervisé.
False
Qu'est-ce qu'un cluster dans le contexte du Clustering ?
Qu'est-ce qu'un cluster dans le contexte du Clustering ?
Un groupe d'objets similaires.
Dans le Clustering, la similarité entre les instances au sein d'un groupe est ______.
Dans le Clustering, la similarité entre les instances au sein d'un groupe est ______.
Signup and view all the answers
Associez les éléments suivants avec leurs définitions concernant le Clustering :
Associez les éléments suivants avec leurs définitions concernant le Clustering :
Signup and view all the answers
Study Notes
Notions générales sur le Clustering
- Le clustering est un apprentissage non supervisé.
- Il n'y a pas de connaissance préalable des classes.
- L'objectif est de regrouper les objets en fonction de leur similarité, les objets d'un même groupe étant plus similaires les uns aux autres que les objets d'autres groupes.
- La similarité est exprimée par le biais d'une mesure de distance.
- Différentes méthodes existent pour mesurer la qualité d'un clustering.
Types de Variables
-
Variables qualitatives:
- Nominales: Catégories nommées sans ordre (ex. genre, couleur).
- Ordinales: Catégories nommées avec un ordre (ex. niveau d'éducation, classement à une course).
- Binaires: Deux catégories (ex. succès/échec, présent/absent).
-
Variables quantitatives:
- Continues: Prennent n'importe quelle valeur numérique (ex. taille, poids).
- Discrètes: Prennent uniquement des valeurs entières (ex. nombre d'enfants, pointure de chaussures).
Structures de données
- Matrice de données: Tableau représentant les données, où chaque ligne correspond à un objet et chaque colonne à une variable.
- Matrice de similarité: Tableau indiquant la similarité ou la dissimilarité entre chaque paire d'objets. Les éléments diagonaux sont toujours 0.
Méthodes de Clustering
-
Clustering par partitionnement: Divise l'ensemble de données en plusieurs groupes (clusters) et maximise la similarité intra-groupe et minimise la similarité inter-groupe.
- k-means: Chaque cluster est représenté par son centre (le barycentre).
- k-medoïdes (ou PAM): Chaque cluster est représenté par un de ses objets.
-
Clustering hiérarchique: Construit une hiérarchie de clusters basés sur des mesures de dissimilarité.
- AGNES (Agglomerative Nesting): Commence par considérer chaque objet comme un cluster distinct et fusionne itérativement les clusters les plus similaires.
- DIANA (Divisive Analysis): Commence par un seul cluster contenant tous les éléments et divise itérativement les clusters en groupes de plus en plus similaires.
- Clustering basé sur la densité: Groupe les objets en fonction de leur densité dans l'espace, en identifiant des régions denses et des frontières.
Méthodes d'agrégation
- Lien minimum: La distance entre deux clusters est la plus petite distance entre tous les points de ces deux clusters.
- Lien maximum: La distance entre deux clusters est la plus grande distance entre tous les points de ces deux clusters.
- Lien moyen: La distance entre deux clusters est la moyenne des distances entre tous les paires de points dans les deux clusters.
Perceptron Multicouche (PMC)
- Un PMC est un réseau de neurones composé de plusieurs couches.
- Les couches cachées permettent d'apprendre des relations non linéaires entre les données d'entrée et de sortie.
- L'apprentissage se fait par rétropropagation du gradient.
Fonction d'activation
- Une fonction qui introduit le caractère non linéaire dans les modèles de réseaux de neurones.
- Quelques exemples : fonction sigmoïde, fonction ReLU, fonction tanh, fonction linéaire, fonction de Heaviside...
Apprentissage (supervisé, non supervisé, par renforcement)
- Apprentissage supervisé: Le modèle apprend à partir d'un ensemble de données d'entraînement avec les entrées et les sorties correspondantes.
- Apprentissage non supervisé: Le modèle apprend à partir d'un ensemble de données d'entraînement sans les sorties correspondantes.
- Apprentissage par renforcement: Le modèle apprend en interagissant avec un environnement et en recevant des récompenses ou des pénalités.
Vocabulaire
- x: données d'entrée ou couche précédente
- W: poids
- b: biais
- a: sortie du neurone
- σ: fonction d'activation
- z: calcul intermédiaire.
Algorithme de l'apprentissage du perceptron simple
- Initialisation des poids synaptiques au hasard.
- Itération sur les données d'entraînement.
- Calcul de la sortie prédite a(xi) pour chaque entrée xi.
- Mise à jour des poids synaptiques en fonction de l'erreur (yi- a(xi))
- Répétition jusqu'à ce que la prédiction soit suffisamment précise.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Ce quiz aborde les concepts fondamentaux du clustering, un processus d'apprentissage non supervisé. Il explore les différentes mesures de similarité et la classification des variables. Testez vos connaissances sur les méthodes de regroupement et les types de variables.