Réseau de K-Plus Proches Voisins (KNN) Classification

Study Notes

KNN is a supervised learning algorithm used for classification and regression tasks.
It is a type of instance-based learning, where the model memorizes the training data and makes predictions based on similarity.

Data Preparation:
- The dataset is divided into training and testing sets.
- Features are scaled to have similar ranges to prevent bias.
Distance Calculation:
- The distance between the test sample and each training sample is calculated using a distance metric (e.g., Euclidean, Manhattan, Minkowski).
Nearest Neighbors:
- The k-nearest neighbors are selected based on the distance calculation.
- The value of k is a hyperparameter that needs to be tuned.
Classification:
- The class label of the test sample is determined by a majority vote of its k-nearest neighbors.
- The class with the most frequent occurrence among the k-nearest neighbors is assigned to the test sample.

Lazy Learning: KNN is a lazy learner, meaning it does not build a model during training. Instead, it waits until a query is made to the system.
Non-Parametric: KNN is a non-parametric method, meaning it does not assume a specific distribution for the data.
Sensitive to Noise: KNN can be sensitive to noisy data, as it relies on the similarity between samples.

Advantages:

Disadvantages:

KNN est un algorithme d'apprentissage supervisé utilisé pour les tâches de classification et de régression.
C'est un type d'apprentissage basé sur les instances, où le modèle mémorise les données d'entraînement et fait des prédictions en fonction de la similarité.

Les données sont divisées en ensembles d'entraînement et de test.
Les caractéristiques sont mises à l'échelle pour avoir des plages similaires et éviter les biais.
La distance entre l'échantillon de test et chaque échantillon d'entraînement est calculée à l'aide d'une métrique de distance (par exemple, Euclidienne, Manhattan, Minkowski).
Les k-plus proches voisins sont sélectionnés en fonction du calcul de la distance.
La valeur de k est un hyperparamètre qui nécessite d'être ajusté.
La classe de l'échantillon de test est déterminée par un vote majoritaire de ses k-plus proches voisins.

** Apprentissage paresseux**: KNN est un apprenti paresseux, ce qui signifie qu'il ne construit pas de modèle lors de l'entraînement.
Méthode non paramétrique: KNN est une méthode non paramétrique, ce qui signifie qu'elle ne suppose pas de distribution spécifique pour les données.
Sensibilité au bruit: KNN peut être sensible au bruit dans les données, car elle repose sur la similarité entre les échantillons.

Avantages:
- Simple à implémenter
- Gère les données à haute dimensionnalité
- Ne suppose pas de distribution spécifique pour les données
Inconvénients:
- Coûteux en calcul pour les grands ensembles de données
- Sensible au bruit et aux valeurs aberrantes
- Non adapté aux ensembles de données avec un grand nombre de caractéristiques