Apprentissage supervisé et non supervisé
48 Questions
1 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Comment l'apprentissage supervisé diffère-t-il de l'apprentissage non supervisé dans le contexte de l'acquisition de connaissances?

L'apprentissage supervisé implique un professeur ou un guide qui fournit des commentaires et des corrections, tandis que l'apprentissage non supervisé se fait par association et exploration autonomes.

Outre la simple mémorisation, quels sont les deux aspects essentiels de ce que signifie "savoir apprendre" d'après le texte?

Élaborer un système de connaissances à partir des données et pouvoir intégrer de nouvelles connaissances dans ce système.

Comment le "savoir raisonner" contribue-t-il à la production de nouvelles connaissances et de décisions?

Le savoir raisonner permet de déduire des conclusions et d'anticiper des résultats à partir du système de connaissances existant et des données disponibles.

En dehors de la mémoire, nommez deux autres attributs qui sont présentés comme des composantes potentielles de l'intelligence.

<p>Posséder des sentiments et posséder une conscience.</p> Signup and view all the answers

Dans le contexte de l'ensemble de données sur le cancer du sein, pourquoi l'attribut "Épaisseur de la masse" (Clump Thickness) est-il important pour la classification des tumeurs?

<p>Étant donné que l'attribut est une valeur de 1 à 10, il quantifie la densité des cellules, ce qui peut indiquer l'agressivité potentielle d'une tumeur.</p> Signup and view all the answers

Citez deux attributs de l'ensemble de données sur l'arythmie qui pourraient être utilisés pour prédire le risque de problèmes cardiaques chez un patient.

<p>L'âge et la fréquence cardiaque.</p> Signup and view all the answers

Si vous deviez utiliser les données de l’ensemble de données sur le cancer du sein pour former un réseau neuronal, quelle serait la variable cible et pourquoi?

<p>La variable cible serait &quot;Classe&quot;, car elle indique si la tumeur est bénigne (2) ou maligne (4), ce qui est l'objectif de la classification.</p> Signup and view all the answers

Dans l'ensemble de données d'arythmie, plusieurs attributs sont de type 'linéaire'. Donnez un exemple d'attribut linéaire et expliquez pourquoi ce type d'attribut est utile dans l'analyse des données.

<p>L'âge est un exemple d'attribut linéaire. Les attributs linéaires sont utiles car ils représentent des quantités qui peuvent être directement comparées et utilisées dans des calculs mathématiques, permettant ainsi des analyses statistiques et des modélisations plus précises.</p> Signup and view all the answers

Comment les systèmes experts diffèrent-ils des réseaux de neurones en matière de prise de décision basée sur les données?

<p>Les systèmes experts utilisent des règles prédéfinies tandis que les réseaux de neurones apprennent à partir de données pour prendre des décisions.</p> Signup and view all the answers

En quoi l'évolution de l'intelligence artificielle a-t-elle influencé l'intégration de différentes modalités sensorielles, telles que la vision et la voix, dans les systèmes robotiques?

<p>L'IA a permis une intégration plus sophistiquée, permettant aux robots de mieux comprendre et interagir avec leur environnement.</p> Signup and view all the answers

Quelle est la place des réseaux de neurones dans le traitement du langage naturel, et comment contribuent-ils à la compréhension du langage par rapport aux approches plus traditionnelles?

<p>Les réseaux de neurones permettent une compréhension plus nuancée du langage grâce à leur capacité à apprendre les subtilités et les contextes.</p> Signup and view all the answers

Décrivez comment l'utilisation de Python et de la bibliothèque scikit-learn (sklearn) facilite la mise en œuvre et l'expérimentation avec des modèles de machine learning lors des séances de travaux dirigés (TD).

<p><code>Python</code> offre une syntaxe claire et <code>sklearn</code> fournit des outils prêts à l'emploi pour simplifier le développement et le test des modèles.</p> Signup and view all the answers

Comment les quiz réguliers (15 mn) sur la plateforme Moodle, associés aux travaux pratiques, contribuent-ils à l'évaluation continue et à la consolidation des connaissances des étudiants en machine learning ?

<p>Ils fournissent un feedback immédiat et régulier, aidant les étudiants à identifier et à corriger rapidement leurs lacunes.</p> Signup and view all the answers

Expliquez comment l'interaction entre les domaines de la vision artificielle, du traitement du langage naturel et de la robotique, illustrée dans le schéma de l'intelligence artificielle, permet de créer des systèmes plus intelligents et polyvalents.

<p>L'interaction permet aux systèmes de combiner la perception visuelle, la compréhension linguistique et l'action physique pour résoudre des problèmes complexes.</p> Signup and view all the answers

Quelle est la différence fondamentale entre l'approche basée sur des systèmes experts et celle utilisant des réseaux de neurones pour la classification de données en intelligence artificielle ?

<p>Les systèmes experts utilisent des règles logiques définies par des experts, tandis que les réseaux de neurones apprennent les règles à partir des données.</p> Signup and view all the answers

En considérant le rôle de l'intelligence artificielle dans la prise de DECISION, citez un exemple concret où l'utilisation des réseaux de neurones permettrait d'améliorer significativement la Classification ou la Détection dans un domaine spécifique.

<p>Dans le domaine médical, les réseaux de neurones peuvent analyser des images pour détecter plus précisément des anomalies, améliorant ainsi le diagnostic précoce.</p> Signup and view all the answers

Dans le contexte de l'apprentissage supervisé, comment la 'Signification' complète-t-elle l''Observation' pour former un exemple d'apprentissage, et quel est le but de cette combinaison?

<p>La 'Signification' (ydj) fournit une étiquette ou une valeur cible à l''Observation' (Xj), permettant au modèle d'apprendre la relation entre les caractéristiques et la sortie désirée.</p> Signup and view all the answers

Expliquez comment la dimension de l'espace de décision (K) est liée au type de problème d'apprentissage supervisé, en donnant un exemple spécifique pour la classification.

<p>K représente le nombre de classes dans un problème de classification. Par exemple, dans la discrimination camion/autres véhicules, K=2.</p> Signup and view all the answers

Quelle est la différence fondamentale entre une variable qualitative nominale et une variable qualitative ordinale, et donnez un exemple de chacune qui pourrait être pertinente pour l'ensemble de données 'Auto MPG'.

<p>Une variable nominale a des catégories sans ordre (ex: origine), tandis qu'une variable ordinale a des catégories avec un ordre (ex: niveau de finition: bas, moyen, haut).</p> Signup and view all the answers

Dans le contexte de la matrice de données (DxN), expliquez ce que représentent D et N, et décrivez comment cette matrice est utilisée dans l'apprentissage d'un réseau de neurones.

<p>D est le nombre de dimensions (caractéristiques) et N est le nombre d'exemples. La matrice sert d'entrée pour entraîner le réseau.</p> Signup and view all the answers

Comment la fonction de classification 'h : X → Y' est-elle utilisée pour prédire la sortie 'ydj' étant donné une observation 'Xj'?

<p>La fonction <em>h</em> apprend à mapper l'espace d'entrée <em>X</em> à l'espace de sortie <em>Y</em>, de sorte que pour une observation donnée <em>Xj</em>, <em>h(Xj)</em> donne une approximation de la valeur cible <em>ydj</em>.</p> Signup and view all the answers

Dans l'ensemble de données 'Auto MPG', quelles sont les caractéristiques considérées comme 'continues' et comment leur nature affecte-t-elle le choix des algorithmes d'apprentissage machine?

<p>Les caractéristiques continues sont mpg, displacement, horsepower, weight et acceleration. Leur nature continue nécessite souvent une normalisation et peut influencer le choix d'algorithmes adaptés aux données continues.</p> Signup and view all the answers

Expliquez, en termes de formalisation mathématique, comment une variable quantitative (ydi ∈ ℝ) est utilisée dans un problème de régression. Quel est le but de la régression dans ce contexte?

<p>Dans la régression, ydi est une variable continue. Le but est de prédire ou d'estimer la valeur de ydi à partir des observations Xj.</p> Signup and view all the answers

Dans le contexte de l'analyse du trafic routier pour discriminer les camions des autres véhicules, identifiez quelques 'caractéristiques' ou 'variables explicatives' qui pourraient être utilisées pour entraîner un réseau de neurones.

<p>On pourrait utiliser la hauteur du véhicule, le poids, le nombre d'essieux, la longueur, et la vitesse.</p> Signup and view all the answers

Dans le contexte de l'algorithme k-PPV, comment la décision est-elle prise lorsque k = 1 et comment cela diffère-t-il lorsque k > 1?

<p>Lorsque k = 1, la classe est déterminée par l'exemple d'apprentissage le plus proche. Lorsque k &gt; 1, la classe est déterminée par le vote majoritaire des k exemples les plus proches.</p> Signup and view all the answers

Décrivez comment la distance est utilisée dans l'algorithme k-PPV pour déterminer les voisins les plus proches.

<p>La distance est utilisée pour quantifier la similarité entre l'exemple à classifier et les exemples d'apprentissage. Les exemples d'apprentissage avec les distances les plus faibles sont considérés comme les plus proches.</p> Signup and view all the answers

Quelle est la différence majeure entre l'utilisation de k = 3 et k = 7 dans un algorithme k-PPV en termes de décision de classification, selon les informations fournies?

<p>Avec k = 3, la décision est la Classe B, tandis qu'avec k = 7, la décision bascule vers la Classe A, démontrant comment le choix de k influence le résultat.</p> Signup and view all the answers

Comment l'augmentation de la valeur de 'disp' (dispersion) affecte-t-elle la distribution des exemples dans les graphiques présentés et quel est l'impact potentiel sur la classification?

<p>Une augmentation de la valeur de 'disp' indique que les exemples sont plus dispersés ou éloignés les uns des autres. Cela peut rendre la classification plus difficile car les frontières de décision deviennent moins définies.</p> Signup and view all the answers

Expliquez le concept d'unanimité dans le contexte de l'algorithme k-PPV et comment il peut conduire au 'rejet'.

<p>L'unanimité se produit lorsque tous les k voisins les plus proches appartiennent à la même classe. Si l'unanimité n'est pas atteinte, et selon l'implémentation, l'exemple peut être 'rejeté', c'est-à-dire non classifié.</p> Signup and view all the answers

Dans un scénario où les classes ne sont pas uniformément distribuées, comment la prise en compte de la distance dans l'algorithme k-PPV peut-elle améliorer la précision de la classification?

<p>En pondérant le vote de chaque voisin par l'inverse de sa distance, les voisins plus proches ont une plus grande influence sur la décision, ce qui peut corriger le biais introduit par la distribution inégale des classes.</p> Signup and view all the answers

Si vous deviez choisir une valeur de 'k' pour un ensemble de données où les frontières de décision sont très irrégulières, serait-il préférable d'utiliser une petite ou une grande valeur de 'k' et pourquoi?

<p>Il serait préférable d'utiliser une petite valeur de 'k'. Une petite valeur permet de capturer les variations locales et de s'adapter aux frontières irrégulières, tandis qu'une grande valeur lisserait les frontières et pourrait manquer des détails importants.</p> Signup and view all the answers

Dans l'algorithme k-PPV, comment la 'complexité de calcul' évolue-t-elle avec l'augmentation du nombre d'exemples dans l'ensemble d'apprentissage et quel est l'impact sur les performances du modèle?

<p>La complexité de calcul augmente avec le nombre d'exemples, car l'algorithme doit calculer la distance entre l'exemple à classifier et chaque exemple dans l'ensemble d'apprentissage. Cela peut ralentir les performances du modèle, en particulier pour les grands ensembles de données.</p> Signup and view all the answers

Comment le choix d'une faible valeur de k affecte-t-il la sensibilité au bruit dans un classificateur k-PPV ?

<p>Une faible valeur de <em>k</em> rend le classificateur très sensible au bruit.</p> Signup and view all the answers

Quels sont les deux inconvénients majeurs de l'algorithme k-PPV en termes de ressources de calcul et de mémoire ?

<p>Stockage des références et quantité de calculs proportionnelle au nombre de références.</p> Signup and view all the answers

En quoi l'algorithme k-PPV est-il considéré comme 'lazy learning' et quel avantage cela procure-t-il ?

<p>Il est 'lazy learning' car il ne fait pas de phase d'apprentissage explicite, ce qui le rend très simple à mettre en œuvre.</p> Signup and view all the answers

Comment l'algorithme k-PPV s'adapte-t-il à la régression, et quelle formule est utilisée pour calculer la valeur de sortie y?

<p>Il s'adapte en calculant la moyenne pondérée des valeurs des k plus proches voisins : $y = \frac{1}{k} \sum_{i=1}^{k} y_i$ sur les PPV(X).</p> Signup and view all the answers

Quel est l'intérêt d'utiliser l'algorithme k-PPV comme algorithme 'baseline' dans le contexte de l'évaluation de la complexité d'un problème ?

<p>Il permet d'évaluer la complexité d'un problème et la qualité des données.</p> Signup and view all the answers

Décrivez comment la réduction de dimension peut être utilisée comme accélérateur pour l'algorithme k-PPV.

<p>La réduction de dimension diminue <code>D</code>, réduisant ainsi la complexité du calcul des distances.</p> Signup and view all the answers

Outre la réduction de dimension, quelle autre technique de 'datamining' peut être utilisée pour accélérer l'algorithme k-PPV et comment cela fonctionne-t-il ?

<p>La catégorisation (clustering) peut être utilisée pour diminuer <code>N</code>, le nombre de références.</p> Signup and view all the answers

Pourquoi le réglage du paramètre k est-il considéré comme un inconvénient de l'algorithme k-PPV ?

<p>Le réglage du paramètre <em>k</em> est un inconvénient car il n'y a pas de méthode universelle pour choisir la valeur optimale de <em>k</em>, cela dépend du problème.</p> Signup and view all the answers

Quelle est la différence principale entre une base d'apprentissage et une base de test lors de l'évaluation des performances d'un réseau de neurones?

<p>La base d'apprentissage sert à entraîner le réseau, tandis que la base de test sert à évaluer sa capacité à généraliser et à classer des données nouvelles.</p> Signup and view all the answers

Expliquez comment le taux d'erreur (TE) est lié au taux de reconnaissance (TR) dans le contexte de l'évaluation d'un classifieur multiclasse.

<p>Le taux d'erreur (TE) est le complément à 1 du taux de reconnaissance (TR), signifiant que $TE = 1 - TR$.</p> Signup and view all the answers

Décrivez l'utilité d'une matrice de confusion dans l'analyse des performances d'un classifieur multiclasse.

<p>La matrice de confusion permet de visualiser et d'analyser les erreurs de classification en montrant combien d'échantillons d'une classe ont été incorrectement classés dans d'autres classes.</p> Signup and view all the answers

Si un classifieur a un taux de reconnaissance de 90%, quel est son taux d'erreur, et que signifie ce taux d'erreur en termes de performance du classifieur?

<p>Le taux d'erreur est de 10%. Cela signifie que 10% des échantillons sont mal classés.</p> Signup and view all the answers

Dans le contexte des réseaux de neurones, pourquoi est-il important d'utiliser une base de test distincte de la base d'apprentissage?

<p>Pour évaluer la capacité du réseau à généraliser et à éviter le surapprentissage sur les données d'apprentissage.</p> Signup and view all the answers

Comment l'étude des confusions, mentionnée dans le contexte multiclasse, aide-t-elle à améliorer un système de classification?

<p>Elle aide à identifier les classes qui sont souvent confondues, permettant d'ajuster le modèle pour mieux les distinguer.</p> Signup and view all the answers

En utilisant l'algorithme du plus proche voisin (PPV) avec k=1, comment classeriez-vous un nouveau véhicule avec x1=15 et x2=12, en vous basant sur les points de données fournis (❶(8,10), ❷(13,15), ❸(17,9))?

<p>On calculerait la distance euclidienne entre le nouveau point et chaque point existant. Le point le plus proche est ❷(13,15), donc le nouveau véhicule serait classé comme ❷.</p> Signup and view all the answers

Quels sont les avantages et inconvénients potentiels de l'utilisation du 3-PPV (3 plus proches voisins) par rapport au 1-PPV pour la classification dans un problème donné?

<p>Le 3-PPV peut être plus robuste au bruit et aux valeurs aberrantes, mais il peut aussi lisser les frontières de décision et réduire la précision si les 3 voisins les plus proches ne sont pas tous de la même classe ou sont mal choisis.</p> Signup and view all the answers

Flashcards

Intelligence Artificielle (IA)

Domaine informatique visant à simuler l'intelligence humaine.

Machine Learning

Un sous-domaine de l'IA axé sur l'apprentissage à partir de données.

Langage Naturel

Compréhension et génération du langage humain par les machines.

Vision Artificielle

Permettre aux machines de 'voir' et d'interpréter des images.

Signup and view all the flashcards

Robotique

Application de l'IA pour automatiser des tâches physiques.

Signup and view all the flashcards

Voix (Reconnaissance)

Reconnaissance et interprétation de la parole.

Signup and view all the flashcards

Systèmes Experts

Systèmes informatiques simulant le raisonnement d'experts humains.

Signup and view all the flashcards

Classification

Processus d'attribution d'une catégorie à une donnée.

Signup and view all the flashcards

Savoir Apprendre

Construire un système de connaissances à partir de données et intégrer de nouvelles informations.

Signup and view all the flashcards

Savoir Raisonner

Déduire ou anticiper à partir des connaissances et des données disponibles pour prendre une décision.

Signup and view all the flashcards

Posséder une histoire (mémoire)

Avoir une mémoire à court et long terme pour stocker des expériences et des informations.

Signup and view all the flashcards

Posséder des sentiments

Ressentir et exprimer des émotions.

Signup and view all the flashcards

Posséder une conscience

Être conscient de soi et de son environnement.

Signup and view all the flashcards

Breast cancer dataset

Base de données contenant des informations sur les caractéristiques des cellules mammaires pour la détection du cancer.

Signup and view all the flashcards

Sample code number

Numéro d'identification de l'échantillon.

Signup and view all the flashcards

Arrythmia dataset

Base de données utilisée pour distinguer et classer les différents types d'arythmies cardiaques.

Signup and view all the flashcards

Qu'est-ce qu'un dataset multivarié ?

Un ensemble de données avec plusieurs variables.

Signup and view all the flashcards

Qu'est-ce que Xj dans l'apprentissage supervisé ?

Vecteur aléatoire de caractéristiques utilisées pour l'apprentissage supervisé.

Signup and view all the flashcards

Qu'est-ce qu'une 'feature' (caractéristique) ?

Caractéristique descriptive d'une observation.

Signup and view all the flashcards

Qu'est-ce qu'une variable quantitative ?

Variable dont la valeur est un nombre réel.

Signup and view all the flashcards

Qu'est-ce qu'une variable qualitative ?

Variable dont les valeurs sont des catégories ou classes.

Signup and view all the flashcards

Qu'est-ce qu'une fonction de classification h(X) ?

Fonction qui mappe l'espace des entrées à l'espace des sorties.

Signup and view all the flashcards

Qu'est-ce que 'ydj' ?

La signification ou l'étiquette associée à une observation.

Signup and view all the flashcards

Qu'est-ce que la matrice de dimension (DxN) ?

Matrice où chaque colonne est un exemple et chaque ligne une caractéristique.

Signup and view all the flashcards

PPV(X) (Plus Proche Voisin)

Trouver le vecteur le plus proche d'un point donné.

Signup and view all the flashcards

k=1 dans k-PPV

Avec k=1, c'est la classe du vecteur le plus proche.

Signup and view all the flashcards

k ≠ 1 dans k-PPV

La classe majoritaire parmi les k plus proches voisins.

Signup and view all the flashcards

Décision par vote (k-PPV)

Décider en fonction de la classe la plus fréquente parmi les k plus proches voisins.

Signup and view all the flashcards

Unanimité ou rejet

Si aucun vote clair, possibilité de rejeter la classification.

Signup and view all the flashcards

Importance de la distance

La distance peut influencer le poids du vote des voisins.

Signup and view all the flashcards

1-PPV (1-Plus Proche Voisin)

Méthode de classification où un point est classé selon son voisin le plus proche.

Signup and view all the flashcards

Dispersion

k plus proches voisins, dispersion = écartement des points. Plus la dispersion grande, plus les points sont éloignées les uns des autres.

Signup and view all the flashcards

Base de généralisation

Mesure la capacité du réseau à classer des données nouvelles.

Signup and view all the flashcards

Performances opérationnelles

Mesure du taux de reconnaissance (TR) et du taux d'erreur (TE).

Signup and view all the flashcards

% TR : Taux de reconnaissance

Pourcentage des données correctement classifiées par le modèle.

Signup and view all the flashcards

% TE : Taux d'erreur

Pourcentage des données incorrectement classifiées par le modèle.

Signup and view all the flashcards

% Tr : Taux de rejet

Pourcentage des données que le modèle choisit de ne pas classer.

Signup and view all the flashcards

Matrice de confusion

Tableau montrant les prédictions du modèle vs. les classes réelles.

Signup and view all the flashcards

#(X\y=i&yd=j)

Nombre d'éléments classés comme appartenant à la classe 'i' alors qu'ils appartiennent à la classe 'j'.

Signup and view all the flashcards

PPV (Plus Proches Voisins)

Algorithme de classification basé sur la distance aux voisins les plus proches.

Signup and view all the flashcards

Dilemme biais-variance

Compromis entre la sensibilité au bruit et le lissage des frontières de décision.

Signup and view all the flashcards

Faible valeur de k

Une faible valeur de k rend le classifieur très sensible au bruit dans les données.

Signup and view all the flashcards

Grande valeur de k

Une grande valeur de k conduit à un lissage des frontières de décision, réduisant la sensibilité au bruit mais augmentant le biais.

Signup and view all the flashcards

Avantages de k-PPV

Implémentation très simple, naturellement multiclasse, incrémental et converge vers l'erreur optimale.

Signup and view all the flashcards

Inconvénients de k-PPV

Stockage des références, coût de calcul proportionnel aux références, pas d'extraction d'information utile, réglage du paramètre k.

Signup and view all the flashcards

k-PPV comme baseline

Algorithme de base pour évaluer la complexité et la qualité des données.

Signup and view all the flashcards

Accélérer k-PPV

Diminuer la dimension (D) ou le nombre d'exemples (N) via réduction de dimension ou clustering.

Signup and view all the flashcards

Fonction distance(ex1, ex2)

Calcul de la distance entre deux exemples.

Signup and view all the flashcards

Study Notes

  • Le module Machine Learning est dirigé par Lionel Prevost, responsable du Learning, Data & Robotics Lab à l'ESIEA, et joignable par mail à [email protected].

Organisation du module

  • Le module comprend 24 heures en face à face, dont 12 heures de cours et 15 heures de travaux dirigés sur machine en utilisant Python/sklearn.
  • L'évaluation des connaissances se fait par des quiz de 15 minutes sur Moodle à chaque TP et par un examen.

Introduction à l'intelligence artificielle

  • L'intelligence artificielle englobe des domaines comme la robotique, la vision, le langage naturel, la voix, les réseaux de neurones, les systèmes experts et la compréhension.
  • Le processus de l'intelligence artificielle implique la collecte de données, leur traitement, et la prise de décisions telles que la classification, la détection, la découverte et l'action.

Qu'est-ce qu'être intelligent ?

  • Être intelligent implique la capacité d'apprendre, c'est-à-dire d'élaborer un système de connaissances à partir de données et d'intégrer de nouvelles données supervisées ou non.
  • Être intelligent c'est aussi savoir raisonner (déduire, anticiper) à partir de l'expérience pour produire des décisions et de nouvelles connaissances.
  • Cela requiert de posséder une mémoire (court/long terme), des sentiments (ressentir/exprimer une émotion) et une conscience.

Exemples de datasets

  • Dataset sur le cancer du sein avec 699 instances et 10 attributs, où la classe indique si la tumeur est bénigne (2) ou maligne (4).
  • Dataset sur l'arythmie cardiaque permettant de distinguer la présence ou l'absence d'arythmie et de la classifier en 16 groupes, avec 452 instances et 279 attributs.
  • Dataset Auto MPG(miles per gallon) comprenant 398 instances et 8 attributs, incluant des informations sur la consommation, les cylindres, la cylindrée, la puissance, le poids, l'accélération, l'année du modèle, l'origine et le nom du véhicule.

Formalisation

  • En apprentissage supervisé, un exemple est défini comme une observation associée à une signification.
  • L'observation est un vecteur aléatoire Xᵢ composé de descripteurs ou "features" (x₁, x₂,... x_D), qui peuvent être qualitatifs (nominaux/ordinaux) ou quantitatifs (continus/discrètes).
  • "D" représente la dimension de l'espace de représentation.
  • La signification(y_dj) peut être une variable quantitative, menant à une régression, ou une variable qualitative, menant à une classification.
  • "K" est la dimension de l'espace de décision, correspondant au nombre de classes.
  • Une fonction de classification "h" transforme l'espace des entrées "X" en espace des sorties "Y", telle que h(X₁) ≈ y_dj.
  • Une base de données est une matrice de dimension DxN, où D est le nombre de dimensions et N le nombre d'exemples.

Exemple d'analyse de trafic routier

  • Il s'agit d'un problème de discrimination camion/autres véhicules basé sur deux descripteurs: la longueur(m) et le bruit(dB).
  • Chaque véhicule est classé comme camion(1) ou autre véhicule(-1).
  • Un exemple est un camion avec une longueur de 20m et un bruit de 8dB, classé comme camion.

Décider sans apprendre : plus proche voisin

  • On utilise une méthode de décision sans apprentissage basée sur l'algorithme du plus proche voisin.
  • L'approche utilise un ensemble d'exemples de référence "E", chacun étant un vecteur étiqueté Xᵢ avec sa classe associée y_di.
  • L'objectif est de déterminer la classe d'un vecteur inconnu "X".
  • La méthode consiste à calculer les distances entre "X" et tous les vecteurs Xᵢ de "E" et à attribuer à "X" la classe de son plus proche voisin(distance minimum).
  • La distance euclidienne(norme L2) entre deux vecteurs X₁ et X₂ est calculée comme la racine carrée de la somme des carrés des différences entre leurs composantes.

Interprétation géometrique

  • Les frontières de décision obtenues avec l'algorithme du plus proche voisin sont linéaires par morceaux.
  • Les classes sont définies par la réunion des domaines d'influence des références, et la précision de la résolution spatiale des frontières est liée à la densité des références.

Extension: k-plus-proches-voisins

  • Calculer la distance entre X et tous les exemples de la base de référence.
  • Déterminer les k vecteurs PPV(X) de la base les plus proches.
  • Si k= 1, la classe est déterminée par l'argument minimum de la distance d(Xᵢ,X).
  • Si k≠1, la classe est déterminée par la classe majoritaire des vecteurs PPV(X).
  • Variante : exiger l'unanimité, sinon rejeter, ou prendre en compte la distance.

Dilemme biais-variance

  • Le choix du paramètre "k" dans l'algorithme des k-plus-proches-voisins influence directement les propriétés du classifieur.
  • Une faible valeur de "k" conduit à une bonne résolution avec des frontières complexes, mais rend le modèle très sensible au bruit.
  • Une grande valeur de "k" conduit à une faible résolution avec un lissage des frontières, rendant le modèle peu sensible au bruit.

Avantages

  • L'algorithme du plus proche voisin est simple à mettre en œuvre ("lazy learning") et naturellement multiclasse.
  • De plus, il est incrémental et tend asymptotiquement vers l'erreur optimale, et s'adapte facilement à la régression.

Inconvénients

  • Le stockage des références est une contrainte, ainsi que la quantité de calculs proportionnelle au nombre de références.
  • L'algorithme ne permet pas d'extraction d'information utile et nécessite le réglage du paramètre "k".

Exercice TD

  • Analyser les BDD des transparents 9-10-11 et déterminer leurs caractéristiques(dimension, nombre d'exemples…).
  • Coder les algorithmes 1-ppv et k-ppv(langage*).
  • Savoir déterminer graphiquement des frontières en 2D.

Performances dans le contexte du Machine Learning

  • La performance se mesure en utilisant une base d'apprentissage/de référence et une base de test/de généralisation, qui évalue la capacité à classer de nouvelles données inconnues et les performances opérationnelles.
  • Le taux de reconnaissance(TR) représente la proportion de classifications correctes, tandis que le taux d'erreur(TE) représente la proportion de classifications incorrectes, et le taux de rejet(Tr) indique la proportion d'instances rejetées par le modèle.
  • En classification multiclasse, une matrice de confusion est utilisée pour évaluer les performances en comparant les classes prédites(y) avec les classes réelles(y_d).

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Description

Le texte traite de l'apprentissage supervisé et non supervisé, de l'importance de savoir apprendre et raisonner. Il aborde également l'intelligence, le cancer du sein et les ensembles de données sur l'arythmie. L'épaisseur de la masse et d'autres attributs sont essentiels pour la classification des tumeurs et la prédiction des problèmes cardiaques.

More Like This

Use Quizgecko on...
Browser
Browser