Full Transcript

## Algorithmes de classification ### Concepts de base La classification supervisée consiste à prédire la classe d'appartenance d'une instance à partir d'un ensemble d'exemples étiquetés. * **Exemple (instance)**: Représentation d'un objet par un ensemble d'attributs (features). * **Classe (ét...

## Algorithmes de classification ### Concepts de base La classification supervisée consiste à prédire la classe d'appartenance d'une instance à partir d'un ensemble d'exemples étiquetés. * **Exemple (instance)**: Représentation d'un objet par un ensemble d'attributs (features). * **Classe (étiquette)**: Catégorie à laquelle appartient l'exemple. * **Modèle de classification**: Fonction qui associe un exemple à une classe. ### Algorithmes de classification * k-NN (k plus proches voisins) * Arbres de décision * Naive Bayes * Machines à vecteurs de support (SVM) * Réseaux de neurones ### k-NN (k plus proches voisins) #### Principe La classification d'une instance est basée sur la classe majoritaire de ses k plus proches voisins dans l'ensemble d'apprentissage. #### Paramètres * k: Nombre de voisins à considérer. * Distance: Mesure de similarité entre les instances (Euclidienne, Manhattan, etc.). #### Avantages * Simple à implémenter. * Non paramétrique (ne fait pas d'hypothèses sur la distribution des données). #### Inconvénients * Sensible au choix de la distance et du paramètre k. * Calcul coûteux pour de grands ensembles de données. ### Arbres de décision #### Principe Un arbre de décision est un modèle de classification qui partitionne l'espace des attributs en régions homogènes, chacune associée à une classe. * **Nœud interne**: Test sur un attribut. * **Branche**: Résultat du test. * **Feuille**: Classe prédite. #### Construction L'arbre est construit récursivement en choisissant à chaque nœud le meilleur attribut pour partitionner les données, en maximisant un critère d'homogénéité (gain d'information, indice de Gini, etc.). #### Avantages * Interprétables. * Peuvent gérer des données numériques et catégorielles. #### Inconvénients * Sujets au surapprentissage (overfitting). * Peuvent être instables (petites variations dans les données peuvent entraîner des changements importants dans l'arbre). ### Naive Bayes #### Principe Basé sur le théorème de Bayes et l'hypothèse naïve d'indépendance conditionnelle des attributs étant donné la classe. #### Formule $P(C|X) = \frac{P(X|C)P(C)}{P(X)}$ * $P(C|X)$: Probabilité a posteriori de la classe C étant donné l'exemple X. * $P(X|C)$: Vraisemblance de l'exemple X étant donné la classe C. * $P(C)$: Probabilité a priori de la classe C. * $P(X)$: Probabilité de l'exemple X. #### Avantages * Simple et rapide à entraîner. * Peuvent bien fonctionner avec des données de grande dimension. #### Inconvénients * L'hypothèse d'indépendance est souvent violée en pratique. * Sensible aux données manquantes. ### Machines à vecteurs de support (SVM) #### Principe Trouver l'hyperplan qui maximise la marge entre les classes. * **Hyperplan**: Séparateur linéaire entre les classes. * **Marge**: Distance entre l'hyperplan et les exemples les plus proches (vecteurs de support). #### Noyaux (kernels) Les SVM peuvent utiliser des noyaux pour projeter les données dans un espace de plus grande dimension où elles sont linéairement séparables (noyau linéaire, polynomial, gaussien, etc.). #### Avantages * Efficaces en haute dimension. * Peuvent gérer des relations non linéaires grâce aux noyaux. #### Inconvénients * Complexes à entraîner. * Sensibles au choix du noyau et des paramètres. ### Réseaux de neurones #### Principe Modèle composé de neurones interconnectés organisés en couches. * **Neurone**: Unité de calcul qui reçoit des entrées, les pondère, les somme et applique une fonction d'activation. * **Couche**: Ensemble de neurones qui traitent l'information en parallèle. * **Connexion**: Lien entre deux neurones avec un poids associé. #### Apprentissage Les poids des connexions sont ajustés par un algorithme d'optimisation (descente de gradient) pour minimiser une fonction de coût. #### Avantages * Peuvent apprendre des relations complexes. * Performances élevées dans de nombreux domaines. #### Inconvénients * Boîte noire (difficile à interpréter). * Nécessitent beaucoup de données et de ressources de calcul.

Use Quizgecko on...
Browser
Browser