Cours 9 : Classification supervisée I PDF
Document Details
Uploaded by FortunateInterstellar
Sorbonne Université
Jean-Noël Vittaut
Tags
Summary
This document presents a course on supervised classification, focusing on the theoretical foundations. Data is presented and evaluated in a classification supervised approach.
Full Transcript
Sciences des données Cours 9 : Classification supervisée I Jean-Noël Vittaut © Équipe enseignante LU1INMA1 Essentiel du cours 8 Définitions Propositions Cadre général de l’inférence...
Sciences des données Cours 9 : Classification supervisée I Jean-Noël Vittaut © Équipe enseignante LU1INMA1 Essentiel du cours 8 Définitions Propositions Cadre général de l’inférence La moyenne M d’un échantillon i.i.d. est un Hypothèse : les données disponibles (x1 , x2 ,... xn ) estimateur sans biais de l’espérance µ. constituent une réalisation d’un échantillon i.i.d. La moyenne M d’un n-échantillon i.i.d. de F a pour (X1 , X2 ,... Xn ) issue d’une même loi F (Xi → F ). variance ε 2 /n où ε 2 est la variance de la loi F. Il s’agit de décrire la loi F. La proportion de succès dans un échantillon i.i.d. Biais d’un estimateur T (avec le paramètre ω qu’il de variables binaires est un estimateur sans biais de prétend estimer) : B(T ) = E(T ) ↑ ω. la probabilité de succès ϑ. Un estimateur est sans biais si B(T ) = 0. La variance de cette proportion vaut ϑ(1 ↑ ϑ)/n. Vraisemblance d’un échantillon (X1 ,... Xn ) i.i.d. de ω"MV maximise également la log-vraisemblance de loi F (ω) : l’échantillon observé : si les variables Xi sont discrètes : ↓ω, L(x1 , x2 ,... , xn ; ω"MV ) ↭ L(x1 , x2 ,... , xn ; ω). n ! V (x1 ,... xn ; ω) = p(xi ; ω), Soit (x1 ,... xn ) la réalisation d’un échantillon i.i.d. i=1 de loi exponentielle E(ϖ). si les variables Xi sont continues (réelles) : La fonction de log-vraisemblance L(x1 ,... xn ; ϖ) n ! V (x1 ,... xn ; ω) = f (xi ; ω). est maximale pour l’inverse de la moyenne : i=1 "= n 1 ω"MV : valeur du paramètre ω qui maximise la ϖ n = # x vraisemblance de l’échantillon observé : xi ↓ω, V (x1 , x2 ,... , xn ; ω"MV ) ↭ V (x1 , x2 ,... , xn ; ω) i=1 Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 1/48 Cours 9 : Classification supervisée « paramétrique » Plan du cours 1 Objectif et modèle 2 Classifieur de Bayes 3 Classification à partir d’une prédicteur qualitatif Estimation du classifieur de Bayes 4 Classification à partir d’un prédicteur quantitatif Formule de Bayes Classifieur de Bayes Classifieur de Bayes estimé 5 Classification à partir de plusieurs prédicteurs Modèle, formule de Bayes et classifieur Classifieur de Bayes naïf 6 Nécessité d’un échantillon test Échantillon supplémentaire Validation croisée Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 2/48 Cours 9 : Classification supervisée « paramétrique » Plan du cours 1 Objectif et modèle 2 Classifieur de Bayes 3 Classification à partir d’une prédicteur qualitatif Estimation du classifieur de Bayes 4 Classification à partir d’un prédicteur quantitatif Formule de Bayes Classifieur de Bayes Classifieur de Bayes estimé 5 Classification à partir de plusieurs prédicteurs Modèle, formule de Bayes et classifieur Classifieur de Bayes naïf 6 Nécessité d’un échantillon test Échantillon supplémentaire Validation croisée Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 3/48 Classification supervisée Infarctus du myocarde n = 101 patients admis à l’hôpital, x = 7 variables mesurées (fréquence cardiaque, index cardiaque, index systolique, pression diastolique, pression artérielle pulmonaire, pression ventriculaire, résistance pulmonaire) = notes entre 1 et 5, y = issue de l’admission : décès (Y = 1) ou survie (Y = 0) i FreqCard IndCard IndSys PresDias PAPulm PVent ResPulm Issue 1 3 3 3 2 2 5 2 survie 2 3 3 3 4 4 5 4 décès 3 5 2 1 4 4 2 4 décès 4 2 3 3 1 1 3 2 survie 5 2 3 3 4 4 5 4 décès 6 2 1 2 3 2 3 4 décès Données = {(xi , yi )}1↫i↫n , yi → {0, 1} x = prédicteur, y = réponse Objectif : « Prédire » la réponse à partir du (des) prédicteur(s) Problème supervisé car on dispose de la réponse y pour les individus de l’échantillon Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 4/48 Cadre général Modèle. On suppose que les n couples {(xi , yi )}1↫i↫n sont des réalisations i.i.d. d’un couple de variables aléatoires (X , Y ) de distribution pXY : pXY (x, y ) = P{X = x, Y = y }. Pour l’instant on considère la prédiction de Y → {0, 1} à partir d’un seul prédicteur x → X. Par exemple, la prédiction de l’issue à partir de l’index systolique. Intuition. La variable X prédit d’autant mieux la variable Y que sa distribution conditionnelle sachant Y = 0 est di!érente de celle sachant Y = 1 : pX |Y =0 (x) ↑= pX |Y =1 (x) Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 5/48 Cours 9 : Classification supervisée « paramétrique » Plan du cours 1 Objectif et modèle 2 Classifieur de Bayes 3 Classification à partir d’une prédicteur qualitatif Estimation du classifieur de Bayes 4 Classification à partir d’un prédicteur quantitatif Formule de Bayes Classifieur de Bayes Classifieur de Bayes estimé 5 Classification à partir de plusieurs prédicteurs Modèle, formule de Bayes et classifieur Classifieur de Bayes naïf 6 Nécessité d’un échantillon test Échantillon supplémentaire Validation croisée Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 6/48 Formule de Bayes Pour prédire la variable Y à partir de la variable X , il est naturel de considérer la loi conditionnelle pY |X. La formule de Bayes établit un lien entre cette loi conditionnelle et la loi conditionnelle « symétrique » pX |Y. Proposition 1 (Formule de Bayes (version discrète)) P{Y = y } P{X = x | Y = y } P{Y = y | X = x} = ! y ↔ ↗Y P{Y = y } P{X = x | Y = y } ↔ ↔ ou encore pY (y )pX |Y =y (x) pY |X =x (y ) = !. y ↔ ↗Y pY (y )pX |Y =y ↔ (x) ↔ Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 7/48 Classifieur de Bayes Classifieur de Bayes = règle de décision naturelle fondée sur la distribution conditionnelle pY |X =x (y ) = P{Y = y | X = x}. Définition 1 (Classifieur de Bayes) Le classifieur de Bayes de la variable Y à partir de la variable qualitative X est la fonction qui associe à chaque valeur x → X la valeur de Y la plus probable conditionnellement à X = x : g: X ↓↔ Y x ↔ g(x) : pY |X =x (g(x)) ↭ pY |X =x (y ), ↗y → Y. Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 9/48 Cours 9 : Classification supervisée « paramétrique » Plan du cours 1 Objectif et modèle 2 Classifieur de Bayes 3 Classification à partir d’une prédicteur qualitatif Estimation du classifieur de Bayes 4 Classification à partir d’un prédicteur quantitatif Formule de Bayes Classifieur de Bayes Classifieur de Bayes estimé 5 Classification à partir de plusieurs prédicteurs Modèle, formule de Bayes et classifieur Classifieur de Bayes naïf 6 Nécessité d’un échantillon test Échantillon supplémentaire Validation croisée Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 10/48 Estimation de la loi jointe pXY Le classifieur de Bayes repose sur la loi jointe pXY (x, y ) qui est inconnue. La seule information disponible est contenue dans les observations supposées issues de pXY. Proposition 2 (Estimation de la loi jointe pXY ) Si les n observations sont indépendantes, pour chaque couple (x, y ) de X → Y, la fréquence jointe Fxy , Nxy PXY (x, y ) = Fxy = n est un estimateur sans biais de pXY (x, y ) : E (PXY (x, y )) = pXY (x, y ). Remarque. On note bien ici Nxy (et Fxy ) et non nxy (ni fxy ) car les e!ectifs (et donc les proportions) de la table de contingence sont aléatoires (le tirage d’un autre échantillon aléatoire donnerait d’autres e!ectifs). Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 11/48 Illustration Infarctus du myocarde Loi jointe de l’issue et de l’index systolique. Sur les n = 101 patients, on observe la table de contingence suivante : nxy x = index systolique y = issue 1 2 3 4 5 total décès 20 17 11 2 1 51 survie 1 2 10 18 19 50 d’où on tire une estimation de la loi jointe : pXY (x, y ) " 1 2 3 4 5 décès 0.198 0.168 0.109 0.0198 0.0099 survie 0.0099 0.0198 0.099 0.178 0.188 Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 12/48 Estimation de la loi conditionnelle pX |Y =y On peut définir de même des estimateurs (sans biais) pour la loi conditionnelle pX |Y =y et la loi marginale pY : Nxy N+y PX |Y =y (x) = Fx|y = , PY (y ) = F+y = , (estimateurs) N+y n nxy n+y donc pX |Y =y (x) = fx|y " = , pY (y ) = f+y " = (estimations). n+y n Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 13/48 Estimation de la loi conditionnelle pX |Y =y Infarctus du myocarde : index systolique pX |Y =y (x) " 1 2 3 4 5 y = décès 0.392 0.333 0.216 0.0392 0.0196 y = survie 0.02 0.04 0.2 0.36 0.38 Index systolique (décès, survie) décès survie pY (y ) " 0.505 0.495 Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 14/48 Illustration : un autre prédicteur Infarctus du myocarde : pression ventriculaire pX |Y =y (x) " 1 2 3 4 5 y = décès 0.098 0.235 0.196 0.176 0.294 y = survie 0.22 0.26 0.26 0.14 0.12 Pression ventriculaire (décès, survie) décès survie pY (y ) " 0.505 0.495 Les distributions conditionnelles de la pression ventriculaire en fonction de l’issue sont moins distinctes que celles de l’index systolique donc la pression systolique doit être un meilleur prédicteur de l’issue que la pression ventriculaire. Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 15/48 Estimation de la loi conditionnelle pY |X =x On peut de même déduire une estimation de la loi conditionnelle pY |X =x des estimations des lois pX |Y =y (x) et pY (y ) : pY (y )" " pX |Y =y (x) pY |X =x (y ) = ! ". (1) pY (y ↔ )" y ↔ ↗Y " pX |Y =y ↔ (x) Infarctus du myocarde Loi conditionnelle estimée de l’issue Y sachant l’index systolique X. Distribution conditionnelle estimée : pY |X =x (y ) " 1 2 3 4 5 décès 0.952 0.895 0.524 0.1 0.05 survie 0.0476 0.105 0.476 0.9 0.95 Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 16/48 Loi conditionnelle pY |X =x : autre prédicteur Infarctus du myocarde Loi conditionnelle estimée de l’issue Y sachant la pression ventriculaire X. Distribution conditionnelle estimée : pY |X =x (y ) " 1 2 3 4 5 décès 0.312 0.48 0.435 0.562 0.714 survie 0.688 0.52 0.565 0.438 0.286 On remarque que les probabilités estimées des deux issues sont très proches pour plusieurs valeurs de la X , notamment x = 2, 3, 4. Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 17/48 Estimation du classifieur de Bayes On peut maintenant définir un classifieur estimé g"(x) en reportant la distribution conditionnelle estimée dans la définition de g(x) : g "(x) : " g (x)) ↭ " pY |X =x (" pY |X =x (y ), ↗y → Y. Infarctus du myocarde Classifieur de Bayes pour Y X = index systolique : x 1 2 3 4 5 g "(x) décès décès décès survie survie X = pression ventriculaire : x 1 2 3 4 5 g "(x) survie survie survie décès décès Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 18/48 Taux d’erreur d’un classifieur Définition 2 (Taux d’erreur empririque) Le taux d’erreur empirique est la proportion d’observations pour lesquelles la prédiction g "(xi ) di!ère de la réponse yi observée : 1 taux d’erreur empirique de g "= |{i : g "(xi ) ↑= yi }|. n ↔ On compare, sur les données disponibles, les prédictions g "(xi ) avec les réponses yi. Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 19/48 Taux d’erreur d’un classifieur Infarctus du myocarde Prédiction de l’issue (1=décès, 0=survie) à partir de l’index systolique. pY (0) = 0.495, pY (1) = 0.505. xi pX |Y " pY |X " g "(xi ) yi i IndSys pX |Y =1 (x) " " pX |Y =0 (x) pY |X =x (1) " " pY |X =x (0) Prédiction Issue 1 3 0.216 0.2 0.524 0.476 décès survie 2 3 0.216 0.2 0.524 0.476 décès décès 3 1 0.392 0.02 0.952 0.0476 décès décès 4 3 0.216 0.2 0.524 0.476 décès survie 5 3 0.216 0.2 0.524 0.476 décès décès 6 2 0.333 0.04 0.895 0.105 décès décès Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 20/48 Taux d’erreur empirique du classifieur Infarctus du myocarde Taux d’erreur empirique du classifieur pour l’issue Y. X = index systolique X = pression ventriculaire issue issue prédiction décès survie prédiction décès survie décès 48 13 décès 24 13 survie 3 37 survie 27 37 taux d’erreur = 0.158 taux d’erreur = 0.396 Le classifieur fondé sur l’index systolique commet 16 erreurs (sur 101 patients) en prédisant à tort 3 survies et 13 décès. Ses prédictions sont donc pessimistes. Les prédictions du classifieur fondé sur la pression ventriculaire semblent très peu fiables. Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 21/48 Cours 9 : Classification supervisée « paramétrique » Plan du cours 1 Objectif et modèle 2 Classifieur de Bayes 3 Classification à partir d’une prédicteur qualitatif Estimation du classifieur de Bayes 4 Classification à partir d’un prédicteur quantitatif Formule de Bayes Classifieur de Bayes Classifieur de Bayes estimé 5 Classification à partir de plusieurs prédicteurs Modèle, formule de Bayes et classifieur Classifieur de Bayes naïf 6 Nécessité d’un échantillon test Échantillon supplémentaire Validation croisée Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 22/48 Prédicteur quantitatif On reprend le raisonnement adopté pour un prédicteur qualitatif à la di!érence près que la loi conditionnelle n’est plus une loi discrète, mais une densité : pX |Y =y (x) ↔ fX |Y =y (x). Exemple. On considère une variable Y à deux modalités Y = {0, 1} de loi ω0 = pY (0) = P{Y = 0}, ω1 = 1 ↘ ω0 = pY (1) = P{Y = 1}. une variable X dont les lois conditionnelles sont des lois normales : X | Y = 0 ≃ N (µ0 , ε02 ), X | Y = 1 ≃ N (µ1 , ε12 ) C’est-à-dire fX |Y =0 (x) = ϑ(x; µ0 , ε02 ), fX |Y =1 (x) = ϑ(x; µ1 , ε12 ) en notant ϑ(x; µ, ε 2 ) la densité d’une loi normale N (µ, ε 2 ). Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 23/48 Loi conditionnelle du prédicteur : exemple Exemple fictif. Densités conditionnelles fX |Y : Loi de Y : pY (0) = ω0 = 0.6, pY (1) = ω1 = 0.4 Lois conditionnelles de X : (X | Y = 0) ↑ N (µ0 = 0, ε02 = 1) (X | Y = 1) ↑ N (µ1 = 2, ε12 = 1.22 ) fX |Y =0 (x) fX |Y =1 (x) ! " 1 (x ↔ µ)2 ϑ(x; µ, ε 2 ) = ↓ exp ↔ , ε 2ω 2ε 2 Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 24/48 Formule de Bayes On peut établir une formule de Bayes analogue à celle donnée dans le cas discret. Proposition 3 (Formule de Bayes (version continue)) pY (y )fX |Y =y (x) pY |X =x (y ) = !. y ↔ ↗Y pY (y )fX |Y =y ↔ (x) ↔ Exemple. Dans le cas de lois conditionnelles normales, on obtient ω0 ϑ(x; µ0 , ε02 ) pY |X =x (0) = ω0 ϑ(x; µ0 , ε02 ) + ω1 ϑ(x; µ1 , ε12 ) ω1 ϑ(x; µ1 , ε12 ) pY |X =x (1) = ω0 ϑ(x; µ0 , ε02 ) + ω1 ϑ(x; µ1 , ε12 ) Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 25/48 Loi conditionnelle du prédicteur : exemple Formule de Bayes : cas de deux lois normales ω0 = pY (0) =.6, ω1 = pY (1) =.4. pY |X =x (0) pY |X =x (1) Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 26/48 Classificateur de Bayes On peut alors définir le même classificateur de Bayes que dans le cas discret : g(x) : pY |X =x (g(x)) ↗ pY |X =x (y ), ↘y → Y Exemple fictif Loi de Y : pY (0) = 0.6, pY (1) = 0.4 Lois conditionnelles de X : (X | Y = 0) ↑ N (0, 1) (X | Y = 1) ↑ N (2, 1.22 ) Seuil de classification : pY |X =x (0) = pY |X =x (1) pour x ↘ = 1.25. Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 27/48 Estimation des lois conditionnelles : exemple Mesures morphologiques n = 200 individus Variables : x = taille, poids, pointure, y = sexe Données : i Taille Poids Pointure Sexe 1 185 70 41 M 2 173 65 43 M 3 163 60 39 F 4 175 59 40 F 5 170 56 39 F 6 180 80 41 F... Taille Poids Pointure Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 28/48 Estimation des lois conditionnelles Comme dans le cas des variables discrètes, il nous faut estimer les densités conditionnelles fX |Y =y (x). Si on a fait l’hypothèse que la loi f est une loi paramétrique, il nous su"t d’estimer les paramètres de cette loi, par exemple par la méthode du maximum de vraisemblance. Exemple. Si on suppose que fX |Y =0 (x) = ϑ(x; µ0 , ε02 ), fX |Y =1 (x) = ϑ(x; µ1 , ε12 ) on connaît les estimations des di!érents paramètres : N0 N1 "0 = ω , "1 = ω , n n 1 # 1 # "0 = µ xi , "1 = µ xi , N0 N1 i:yi =0 i:yi =1 1 # 1 # "02 = ε " 0 )2 , (xi ↘ µ "12 = ε " 1 )2. (xi ↘ µ N0 N1 i:yi =0 i:yi =1 On estimer les distributions conditionnelles en remplaçant les paramètres par leurs valeurs estimées " fX |Y =0 (x) = ϑ(x; µ "02 ), "0 , ε " fX |Y =1 (x) = ϑ(x; µ "12 ). "1 , ε Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 29/48 Estimation des lois conditionnelles Mesures morphologiques : distributions estimées "0 = 0.55, ω "1 = 0.45 ω " µ F M " ε F M Taille 166 179 Taille 6.01 7.26 Poids 55.8 69.8 Poids 6.2 8.65 Pointure 38.4 42.5 Pointure 1.32 1.54 Taille Poids Pointure Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 30/48 Classifieur de Bayes estimé De même on obtient un estimateur du de la probabilité conditionnelle pY |X =x en remplaçant toutes les quantités intervenant dans la formule de Baye donnée à la proposition 3 : pY (y )" " fX |Y =y (x) pY |X =x (y ) = ! ". y ↗Y ↔ pY (y ↔ )" " fX |Y =y ↔ (x) Exemple. Dans le cas de lois conditionnelle normales, on obtient "0 ϑ(x; µ ω "02 ) "0 , ε pY |X =x (0) = " "0 ϑ(x; µ ω "02 ) + ω "0 , ε "1 ϑ(x; µ "12 ) "1 , ε "1 ϑ(x; µ ω "12 ) "1 , ε pY |X =x (1) = " "0 ϑ(x; µ ω "02 ) + ω "0 , ε "1 ϑ(x; µ "12 ) "1 , ε Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 31/48 Classifieur de Bayes estimé Mesures morphologiques : probabilités conditionnelles estimées Taille Poids Pointure Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 32/48 Classifieur de Bayes estimé On applique le classifieur aux données disponibles. Mesures morphologiques : prédiction du sexe (1 = F, 0 = M) à partir de la taille pY (0) = 0.5, pY (1) = 0.5. xi pX |Y pY |X yi i Taille fX |Y =1 (x) fX |Y =0 (x) pY |X =x (1) pY |X =x (0) Prediction Sexe 1 185 5e-04 0.0377 0.0125 0.9875 M M 2 173 0.0344 0.0404 0.4601 0.5399 M M 3 163 0.058 0.0053 0.9162 0.0838 F F 4 175 0.0222 0.0482 0.3156 0.6844 M F 5 170 0.0538 0.0268 0.6675 0.3325 F F 6 180 0.0046 0.0541 0.0785 0.9215 M F Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 33/48 Classifieur de Bayes estimé Mesures morphologiques : taux d’erreur empiriques des classifieurs Taille Poids Pointure F M F M F M F 98 18 F 99 14 F 102 7 M 12 72 M 11 76 M 8 83 taux d’erreur = 0.15 taux d’erreur = 0.125 taux d’erreur = 0.075 Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 34/48 Cours 9 : Classification supervisée « paramétrique » Plan du cours 1 Objectif et modèle 2 Classifieur de Bayes 3 Classification à partir d’une prédicteur qualitatif Estimation du classifieur de Bayes 4 Classification à partir d’un prédicteur quantitatif Formule de Bayes Classifieur de Bayes Classifieur de Bayes estimé 5 Classification à partir de plusieurs prédicteurs Modèle, formule de Bayes et classifieur Classifieur de Bayes naïf 6 Nécessité d’un échantillon test Échantillon supplémentaire Validation croisée Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 35/48 Classification à partir de plusieurs prédicteurs Données = {(xi , yi )}1↫i↫n , yi → {0, 1} xi contient p prédicteurs : xi = [xi1 xi2... xip ]↬ Infarctus du myocarde p = 7 : x1 = fréquence cardiaque, x2 = index cardiaque, x3 = index systolique, x4 = pression diastolique, x5 = pression artérielle pulmonaire, x6 = pression ventriculaire, x7 = résistance pulmonaire Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 36/48 Classification à partir de plusieurs prédicteurs Données = {(xi , yi )}1↫i↫n , yi → {0, 1} xi contient p prédicteurs : xi = [xi1 xi2... xip ]↬ Infarctus du myocarde p = 7 : x1 = fréquence cardiaque, x2 = index cardiaque, x3 = index systolique, x4 = pression diastolique, x5 = pression artérielle pulmonaire, x6 = pression ventriculaire, x7 = résistance pulmonaire Mesures morphologiques p=3: x1 = taille, x2 = poids, x3 = pointure Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 36/48 Modèle, formule de Bayes et classifieur Modèle. On considère que les données observées (xi , yi ) sont des réalisations i.i.d.de variable aléatoires (X , Y ), où X = (X1 , X2 ,... Xp ). Formule de Bayes pour des prédicteurs discrets. La formule de Bayes reste valable pY (y )pX |Y =y (x) pY |X =x (y ) = ! y ↔ ↗Y pY (y )pX |Y =y ↔ (x) ↔ mais la loi conditionnelle pX |Y =y (x) = P{X1 = x1 , X2 = x2 ,... Xp = xp | Y = y } porte sur les p prédicteurs à la fois. Si on considère p prédicteurs binaires, le vecteur x peut prendre 2p valeurs. Il faut donc estimer 2p probabilités conditionnelles pour chaque valeur y. Formule de Bayes pour des prédicteurs continus. La formule de Bayes reste également valable pY (y )fX |Y =y (x) pY |X =x (x) = !. y ↔ ↗Y pY (y )fX |Y =y ↔ (x) ↔ mais elle fait intervenir la densité conditionnelle de tous les prédicteurs fX |Y =y (x) = fX1 ,X2 ,...Xp |Y =y (x1 , x2 ,... xp ) Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 37/48 Classifieur de Bayes naïf Le classifieur de Bayes dit naïf repose sur une simplification de ces lois conditionnelles en faisant l’hypothèse que les prédicteurs sont indépendants conditionnellement à la variable Y c’est-à-dire que leur loi jointe (conditionnellement à Y ) est le produit de leur loi (conditionnelle à Y ). Prédicteurs discrets : p $ pX |Y =y (x) = pXj |Y =y (xj ). j=1 Prédicteurs continus : p $ fX |Y =y (x) = fXj |Y =y (xj ). j=1 Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 38/48 Classifieur de Bayes naïf En résumé Formule de Bayes : ω1 fX |Y =1 (x1 ,... xp ) pY |X =x (1) = ω0 fX |Y =0 (x1 ,... xp ) + ω1 fX |Y =1 (x1 ,... xp ) Formule de Bayes ’naïve’ : %p ω1 j=1 fXj |Y =1 (xj ) pY |X =x (1) ⇐ %p %p ω0 j=1 fXj |Y =0 (xj ) + ω1 j=1 fXj |Y =1 (xj ) Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 39/48 Classifieur de Bayes naïf Mesures morphologiques Corrélations entre les variables : Taille-Poids Taille-Pointure Poids-Pointure F 0.596 0.574 0.552 M 0.727 0.682 0.66 Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 40/48 Classifieur de Bayes naïf On peut évaluer le taux d’erreur empirique du classifieur combinant l’ensemble des prédicteurs de la même manière que celle des classifieurs fondés sur un seul prédicteur. Mesures morphologiques p = 3 prédicteurs y=F y=M g "(x) = F 103 9 g "(x) = M 7 81 Soit un taux d’erreur de 0.08. Infarctus du myocarde p = 7 prédicteurs y = décès y = survie g "(x) = décès 44 4 g "(x) = survie 7 46 Soit un taux d’erreur de 0.109. Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 41/48 Cours 9 : Classification supervisée « paramétrique » Plan du cours 1 Objectif et modèle 2 Classifieur de Bayes 3 Classification à partir d’une prédicteur qualitatif Estimation du classifieur de Bayes 4 Classification à partir d’un prédicteur quantitatif Formule de Bayes Classifieur de Bayes Classifieur de Bayes estimé 5 Classification à partir de plusieurs prédicteurs Modèle, formule de Bayes et classifieur Classifieur de Bayes naïf 6 Nécessité d’un échantillon test Échantillon supplémentaire Validation croisée Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 42/48 Nécessité d’un échantillon test Un classifieur est généralement conçu à des fins prédictives. On prédit la classe Y d’une nouvelle observation (individu, patient,...) pour lequel on n’observerait que les prédicteurs X1 ,... Xp. La procédure présentée jusqu’ici permet de définir un classifieur à partir d’une estimation de la loi jointe de X et de Y. Un autre échantillon de données fournirait une autre estimation de cette loi et donc, possiblement, un autre classifieur. Le taux d’erreur empirique de ce classifieur estimé est évalué précisément sur les données qui ont servi à établir ce classifieur. Cette situation n’est pas conforme à la situation prédictive dans laquelle il s’agit de prédire Y pour une nouvelle observation. Définition 3 On appelle données d’apprentissage ou d’entraînement (training set) l’ensemble des observations qui ont servi à estimer le classifieur g ". Par opposition, on appelle données test (test set) tout ensemble de données n’ayant pas contribué à l’estimation du classifieur g ". Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 43/48 Échantillon supplémentaire On peut disposer de données supplémentaires en nombre su"sant pour évaluer correctement le taux d’erreur. Cas lorsque le nombre de données est su"samment grand pour qu’on puisse mettre de côté un nombre de données test important, tout en en conservant un nombre su"sant pour l’ensemble d’apprentissage. Mesures morphologiques On dispose de m = 200 individus supplémentaires sur lesquels on a mesuré les p = 3 prédicteurs (X1 = taille, X2 = poids, X3 = pointure) et dont on connaît le sexe (variable Y ). Mesures morphologiques : prédiction du sexe à partir des p = 3 prédicteurs Données d’entraînement (n = 200) Données test (m = 200) F M F M F 103 9 F 91 10 M 7 81 M 8 91 taux d’erreur = 0.08 taux d’erreur = 0.09 Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 44/48 Validation croisée Cas où le nombre de données n’est su"samment grand pour opérer cette séparation avec un nombre su"sant de données dans chaque catégorie (apprentisage et test). La validation croisée consiste à : séparer aléatoirement le jeux de données entre apprentissage et test un grand nombre de fois estimer le taux d’erreur pour chaque séparation. Le taux d’erreur réel est alors estimé en moyennant les taux obtenus sur toutes les séparations. Infarctus du myocarde On dispose de n = 101 patients. On utilise m = 81 patients pour l’estimation du classifieur et on conserve n ↘ m = 20 patients pour évaluer son taux d’erreur empirique. On e!ectue cette opération B = 100 fois. Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 45/48 Validation croisée Infarctus du myocarde Prédiction de l’issue à partir de l’index systolique. Données d’entraînement (m = 81) Données test (n ↘ m = 20) décès survie décès survie décès 0.439 0.0909 décès 0.418 0.097 survie 0.0646 0.406 survie 0.092 0.392 taux d’erreur = 0.155 taux d’erreur = 0.189 Infarctus du myocarde Prédiction de l’issue à partir de la pression ventriculaire. Données d’entraînement (m = 81) Données test (n ↘ m = 20) décès survie décès survie décès 0.281 0.168 décès 0.24 0.213 survie 0.22 0.331 survie 0.281 0.265 taux d’erreur = 0.389 taux d’erreur = 0.494 Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 46/48 Validation croisée Infarctus du myocarde Écarts entre les taux d’erreurs estimés sur données d’apprentissage et données test. FreqCard IndCard IndSys PresDias PAPulm PVent ResPulm apprentissage 0.351 0.157 0.155 0.257 0.287 0.388 0.147 test 0.452 0.181 0.189 0.261 0.298 0.494 0.178 Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 47/48 Essentiel du cours 9 Définitions Propositions Le classifieur de Bayes de la variable Y à partir de Formule de Bayes (version discrète) la variable qualitative X est la fonction qui associe P{Y = y } P{X = x | Y = y } P{Y = y | X = x} = ! à chaque valeur x → X la valeur de Y la plus P{Y = y ↘ } P{X = x ↘ | Y = y ↘ } y ↘ →Y probable conditionnellement à X = x : ou encore g: X ↑ Y pY (y )pX |Y =y (x) x ↓↑ g(x) tel que : pY |X =x (y ) = ". pY (y ↘ )pX |Y =y ↘ (x) ↔y → Y, pY |X =x (g(x)) ↭ pY |X =x (y ) y ↘ →Y Le taux d’erreur est la proportion d’observations Si les n observations sont indépendantes, pour pour lesquelles la prédiction g(xi ) di!ère de la vraie chaque couple (x, y ) de X ≃ Y, la fréquence jointe Fxy , Nxy yi observée : PXY (x, y ) = Fxy = 1 n taux d’erreur de g = |{i : g(xi ) ↗= yi }|. n est un estimateur sans biais de pXY (x, y ). Formule de Bayes (version continue) On appelle données d’apprentissage ou d’entraînement (training set) l’ensemble des pY (y )fX |Y =y (x) observations qui ont servi à estimer le classifieur g !. pY |X =x (y ) = ". y ↘ →Y pY (y ↘ )fX |Y =y ↘ (x) On appelle données test (test set) tout ensemble de données n’ayant pas contribué à l’estimation du classifieur g !. Jean-Noël Vittaut — Cours 9 : Classification supervisée « paramétrique » — Sciences des données — 2024–2025 48/48