Statistique Inférentielle - Master Enseignement des Mathématiques (PDF)

CTU, Master Enseignement des Mathématiques Statistique Inférentielle Jean-Yves DAUXOIS Université de Franche-Comté Année scolaire 2011-2012 Ce polycopié contient le cours, les sujets d’exercice et leurs corrigés ainsi que les sujets des devoirs proposés. Les énoncés des exercices sont donnés en fin de chapitre auxquelles ils font référence. Il est vivement conseillé d’essayer de faire sérieusement les exercices, sans aller trop rapidement voir leurs corrections détaillées en fin de polycopié. On sait en effet que, pour qu’une correction soit efficace, il faut qu’elle vienne après une période de recherche personnelle de la solution. Les devoirs, quant à eux, ne sont pas des exercices supplémentaires (ces derniers accompagnés de leurs corrections sont déjà assez nombreux !). Pour qu’ils apportent réellement autre chose que les exercices, ils doivent être faits dans les conditions d’un devoir surveillé ou d’un examen. En conséquence, il vous est vivement conseillé de faire les devoirs et de m’envoyer votre copie (éventuellement les unes après les autres). En retour vous recevrez votre copie corrigée et également une correction type du devoir. Le premier des devoirs peut être résolu dès que l’on est parvenu à la fin de la seconde section du Chapitre 5. Le second est lui réalisable après avoir travaillé l’ensemble du Chapitre 5. Les trois autres, même s’ils peuvent être “attaqués” plus tôt, ne seront réalisables qu’une fois assimilé l’ensemble des notions. Ils peuvent fournir de bons exercices de révision en perspective de l’examen. Enfin, ce polycopié contient certainement de nombreuses coquilles et mérite encore d’être amélioré. Merci d’avance aux lecteurs attentifs de transmettre leur remarques, suggestions ou indications sur la localisation des coquilles. Un petit mail à l’adresse [email protected] et l’amélioration est prise en compte... Bon courage ! Table des matières Partie 1. Introduction et Modèle Statistique 5 Chapitre 1. Introduction 7 Chapitre 2. Modèle Statistique 11 1. Définition 11 2. Modèle d’échantillonnage 15 3. Vraisemblance 15 4. Familles Exponentielles 16 5. Modèle position-échelle 17 6. Exercices 18 Partie 2. Estimation ponctuelle 21 Chapitre 3. Statistique et Estimateur 23 Chapitre 4. Construction d’estimateurs 27 1. Estimateurs empiriques (des moments) 27 2. Méthode de substitution 29 3. Méthode des moments 29 4. Maximum de vraisemblance 30 5. Exercices 33 Chapitre 5. Qualité d’un estimateur 37 1. Estimateur convergent 37 2. Estimateur sans biais 39 3. Risque d’un estimateur 40 4. Information de Fisher 43 5. Borne de Cramer-Rao (ou Fréchet-Darmois-Cramer-Rao) 46 6. Exercices 48 Chapitre 6. Amélioration d’estimateurs 51 1. Statistique exhaustive 51 2. Statistique exhaustive minimale 54 3. Théorème de Rao-Blackwell 54 4. Théorème de Lehmann-Scheffé 56 5. Cas des familles exponentielles 57 6. Exercices 57 3 Chapitre 7. Comportement asymptotique d’un estimateur 59 1. Normalité asymptotique 59 2. Estimateurs empiriques des moments 60 3. Estimateur du maximum de vraisemblance 60 4. La δ-méthode ou l’étude asymptotique d’un estimateur obtenu par la méthode de substitution 61 5. Estimateurs par la méthode des moments 62 6. Exercices 63 Partie 3. Intervalles de confiance 65 Chapitre 8. Intervalles de confiance exacts 67 Chapitre 9. Intervalles de confiance asymptotiques 71 Chapitre 10. Exercices sur les intervalles de confiance exacts et asymptotiques 73 Partie 4. Correction des exercices 75 Correction des exercices du Chapitre 2 77 Correction des exercices du Chapitre 4 85 Correction des exercices du Chapitre 5 99 Correction des exercices du Chapitre 6 119 Correction des exercices du Chapitre 8 129 Partie 5. Devoirs 135 Partie 1 Introduction et Modèle Statistique CHAPITRE 1 Introduction Considérons un problème de Fiabilité où l’on étudie la durée de vie X d’un matériel. Il est raisonnable d’admettre que celle-ci est aléatoire et X est alors une variable aléa- toire (v.a.) de fonction de répartition (f.d.r.) F. Supposons que l’on soit précisément intéressé par l’évaluation de la probabilité que le matériel soit en marche après un temps t0 de fonctionnement, c’est à dire évaluer F̄ (t0 ) = P (X > t0 ) = 1 − F (t0 ). Pour cela on observe le fonctionnement n matériels Pnsimilaires et on relève leurs temps de panne respectifs: x1 ,... , xn. On note Kn = i=1 1lxi ≤t0 le nombre de matériels tombées en panne au temps t0. Il en reste donc n − Kn encore en marche à cet instant. Il est assez naturel d’estimer la probabilité F̄ (t0 ) par : n b̄ (t ) = nombre de cas favorables = n − Kn = 1 X F 0 1l{xi >t0 }. nombre de cas possibles n n i=1 Posons maintenant une hypothèse supplémentaire. On suppose (on sait ou on a pu vérifier) que la loi de X est une loi exponentielle E(λ), mais dont on ignore le paramètre λ. Calculons l’espérance de X. On a Z +∞ 1 +∞ −u Z −λx Γ(2) E(X) = xλe dx = ue du = , 0 λ 0 λ où Z +∞ Γ(α) = uα−1 e−u du 0 est la fonction Gamma. On sait que Γ(n) = (n − 1)!, ce qui nous donne ici E(X) = 1/λ. Il est assez naturel d’estimer l’espérance de X par la moyenne empirique des temps observés, i.e. par n 1X x̄ = xi. n i=1 Ainsi λ peut être estimé par : 1 n λ̂ = = Pn. x̄ i=1 xi 7 8 Chapitre 1. Introduction Un calcul simple montre que Z +∞ F̄ (t0 ) = λe−λx dx = exp(−λt0 ) t0 et on peut donc estimer la probabilité que le matériel fonctionne durant le temps t0 par : F ē (t ) = exp(−λ̂t ). 0 0 Les estimations précédentes sont appelées estimations ponctuelles. On constate en particulier que plusieurs estimateurs ont été proposés pour F̄ (t0 ). Ils conduisent à des estimations différentes de la même quantité pour un seul lot de matériel testé. Mais on remarque également qu’un même estimateur peut mener à différentes estimations si on considère plusieurs lots de matériels. Les valeurs observées x1 ,... , xn n’ont en effet aucune raison d’être les mêmes. Ainsi on se pose naturellement les questions suivantes. Comment peut-on comparer différents estimateurs ? Quelle(s) définition(s) donner de la qualité d’un estimateur ? Comment mesurer l’erreur commise par un estimateur (puisqu’en particulier elle varie d’une observation à l’autre) ? Toutes ces question seront abordées dans la Partie 2 de ce cours. Ce qui précède montre que l’estimation ponctuelle a un inconvénient majeur, celui de se tromper presque toujours. Au moins dans le cas de v.a. absolument continues, ce qui était le cas précédemment, il apparaît clairement que l’on est presque sûr de ne pas “tomber” sur la valeur théorique que l’on cherche à estimer. C’est pourquoi on préfère parfois donner un intervalle plutôt qu’une valeur. On parle d’intervalle de Confiance ou parfois de fourchette d’estimation. Bien sûr il reste une erreur possible. On donnera alors l’intervalle en fonction de l’erreur que l’on s’autorise (ou que l’on nous autorise). Plus on souhaitera que la probabilité d’erreur soit petite, plus grand sera l’intervalle. Et inversement plus la probabilité d’erreur que l’on s’autorise est grande, plus on pourra donner un intervalle étroit. L’estimation par intervalles de confiance fait l’objet de la Partie 3 de cours. Il reste un troisième axe fondamental de la Statistique Inférentielle que nous n’abor- derons pas dans ce cours. Il est de nature assez différente des deux précédents et consiste à pouvoir se donner des outils statistiques pour décider entre deux hypothèses différentes. Ainsi, si l’on considère à nouveau l’exemple précédent sur la fiabilité d’un matériel, on peut être assez rapidement amené à répondre à des questions comme les suivantes. La fiabilité du matériel F̄ (t0 ) en un instant t0 fixé (par exemple 2000h) est- elle supérieure ou pas à 0,99 ? Appartient-elle à l’intervalle [0.975, 0.985] (il ne s’agit pas ici du même problème que celui du paragraphe précédent sur la notion d’intervalle de confiance comme nous le verrons en étudiant plus en détails ces notions) ? L’hypothèse de loi exponentielle pour la durée de vie X du matériel est-elle raisonnable ou pas ? Ou encore si l’on dispose de deux versions du matériel : l’un est-il plus fiable que l’autre en un instant t0 ? Autrement dit, en notant respectivement F1 et F2 les fonctions de répartitions de la durée de vie de chaque matériel, a-t-on F1 (t0 ) ≤ F2 (t0 ) ou le contraire ? Jean-Yves Dauxois c Juillet 2011 0. 9 La théorie des tests d’hypothèses permet de répondre, entre autres, à toutes ces questions. Dans ce domaine les erreurs sont également possibles : celles de choisir l’une des deux hypothèses alors que c’est l’autre qui est vraie. L’objectif est alors naturellement de chercher à réduire au maximum ces deux erreurs mais nous verrons rapidement que cela n’est pas possible conjointement. Ici aussi se posera également la question de l’optimalité (dans un sens à définir) de la procédure de test choisi. D’une manière générale. Statisticien confronté à des données : brutes (résultat du contrôle qualité d’un produit, taille d’individus, âge de la mère à la naissance du premier enfant, concentra- tion en ozone de l’atmosphère etc...) ou résultats d’expériences (expériences biologiques, pharmaceutiques, agronomiques etc...). Travail du statisticien. Extraire de l’information (résumée et pertinente) de ces données (comme par exemple la taille moyenne des individus). Modéliser la part d’aléa (par exemple déterminer la loi de la durée de vie X du matériel). Tirer des conclusions sur la population totale à partir d’observations sur un échantillon). Mais il peut aussi avoir à (donner les moyens pour) prendre des décisions (comme par exemple l’activation du plan antipollution en raison d’une trop grande concentration d’ozone). Effectuer des prévision (prévision du temps en météorologie, prévision du cours d’une action en finance). Jean-Yves Dauxois c Juillet 2011 CHAPITRE 2 Modèle Statistique L’objet de ce chapitre est de présenter le socle sur lequel vont s’appuyer toutes les techniques statistiques présentées dans les parties ou chapitres suivants. Ainsi nous présenterons la notion fondamentale de modèle statistique et en donnerons quelques cas particuliers importants que nous retrouverons dans les développements ultérieurs. Nous présenterons aussi une notion très liée à la notion de modèle statistique : la vraisemblance. Elle est également très importante en statistique. 1. Définition Exemple 2.1. Un problème de Fiabilité et modèle de Bernoulli Revenons à notre problème introductif de Fiabilité du Chapitre précédent et à sa première partie sur l’estimation ponctuelle. On a cherché à connaître la vraie valeur de la fonction de répartition F̄ (t0 ) de la durée de vie du matériel en un instant t0. Il est intéressant de décrire ce problème d’une autre manière. Utilisons une v.a. Y à valeurs {0, 1} pour modéliser l’état du matériel au temps t0. On note {Y = 1} si le matériel est en marche et {Y = 0} s’il est en panne. On a p0 = P (Y = 1) = F̄ (t0 ) et P (Y = 0) = 1 − p0. La v.a. Y est de loi de Bernoulli de paramètre p0 , où p0 a une valeur inconnue dans [0, 1]. On a donc fait comme si l’on avait une infinité de lois possibles pour Y : toutes les lois de Bernoulli B(1, p), avec p dans [0, 1]. Et le problème était alors de trouver la vraie valeur p0 , à partir des P“résultats” observés pour les n machines testées, notés y1 ,... , yn. On a estimé p0 par ( yi )/n. On parle de modèle et estimation paramétriques : restait seulement à estimer un paramètre. C’est essentiellement le cadre considéré par ce cours dans sa partie estimation ponctuelle. Notons la présence des ensembles suivants : E=espace des observations possibles={0, 1} ; E=tribu des événements sur E=P(E), ensemble des parties de E ; Une famille de Probabilités constituée par toutes les lois de Bernoulli, P = {B(1, p) : p ∈ [0, 1]}. Nous verrons qu’ils définissent un modèle paramétrique qui dans le cas présent est appelé modèle de Bernoulli. En revanche, si l’on s’intéresse à l’estimation de F̄ (t) pour tout t dans R+ , il faudrait estimer une infinité de paramètres : toutes les valeurs prises par la fonction F̄. On parle alors d’estimation non-paramétrique. C’est un sujet que nous ne ferons qu’aborder, essentiellement quand nous traiterons le sujet des tests non-paramétriques. 3 11 12 Chapitre 2. Modèle Statistique Nous constatons une différence avec un modèle probabiliste (E, E, P ). Dans modèle probabiliste il y a une seule probabilité et les seules questions qui se posent sont de l’ordre du calcul (que l’on sait ou ne sait pas faire). Avec un modèle statistique (E, E, P), ces mêmes questions peuvent éventuellement apparaître dans un deuxième temps, mais avant il faut gérer la présence d’un ensemble de probabilités. Autrement dit la proba- bilité sous jacente au phénomène est pas connue ou pas entièrement (c’est surtout ce cas là que l’on traite dans ce cours). Le Statisticien cherchera à la déterminer, l’estimer. Ce modèle (E, E, P) = (E, E, {B(1, p) : p ∈ [0, 1]}) peut être utilisé pour modéliser d’autres phénomènes, situations. Exemples. 1) Jeu de pile ou face. Le problème est de connaître la probabilité p d’obtenir pile (par exemple), ce qui revient à admettre que le dé peut être pipé. On note Y = 1 si on obtient pile, Y = 0 sinon on obtient une face. Dire que la pièce peut être pipée, revient à dire que le résultat d’un lancer Y est de loi de Bernoulli B(1, p) avec p inconnu dans [0, 1]. On fait n lancers, résultats notés y1 ,... , yn et on cherchera à estimer p. 2) Sondage d’intention de vote au second tour des élections présidentielles. On suppose que seulement deux candidats A et B se présentent à une élection. On note p la proportion de votant pour le candidat A et 1 − p pour B. En notant {Y = 1} l’événement l’électeur vote pour A, et {Y = 0} s’il vote pour B, le vote peut être modélisé par une v.a. Y de loi de Bernoulli B(1, p), avec encore une fois p qui peut prendre n’importe quelle valeur dans [0, 1]. On sonde n électeurs sur leurs intentions, résultats notés y1 ,... , yn et on cherche à estimer p. Définition 2.1. On appelle modèle statistique, la donnée d’un espace des ob- servations E, d’une tribu E d’événements sur E et d’une famille de probabilités P sur l’espace probabilisable (E, E). On le note (E, E, P) ou, quand il n’y a pas de risque de confusion, plus simplement P. On supposera que la vraie loi sous-jacente au phénomène que l’on étudie appartient au modèle statistique que l’on s’est donné. Il existe des outils pour vérifier si cette hypothèse est raisonnable ou pas. Mais nous ne les présenterons pas dans le cadre de ce cours, car ils font appels à la théorie des tests qui n’est pas au programme de cet enseignement. On note X la v.a. qui modélise le phénomène aléatoire que l’on étudie. Autrement dit la v.a. X engendre les observations dont on dispose. Elle est à valeurs dans (E, E) et sa loi de probabilité P inconnue est dans la famille P. On appellera parfois X v.a. générique du modèle statistique. Définition 2.2. On dit qu’un modèle statistique est paramétrique s’il existe un entier d et un sous ensemble Θ de Rd tels que la famille de probabilités P puisse être paramétrée par Θ, i.e. tels que l’application : Θ → P θ 7→ Pθ Jean-Yves Dauxois c Juillet 2011 1. Définition 13 est surjective. On note P = {Pθ : θ ∈ Θ}. Dans le cas contraire on parle de modèle non-paramétrique. Le modèle de Bernoulli utilisé dans la modélisation du fonctionnement du matériel au temps t0 , pour le lancer de la pièce de monnaie ou encore le sondage d’intention de vote au second tour est un exemple de modèle paramétrique. Le paramétrage n’est pas forcément unique. Dans exemple précédent de Bernoulli, on peut paramétrer par la probabilité que le matériel soit en panne au temps t0 , c’est à dire 1 − p, ou bien encore par toute fonction (bijective) de p. Comme par exemple par η = ln(p/(1 − p)), ce qui veut dire que p = eη /(1 + eη ). Dans ce dernier cas le modèle statistique s’écrit : (E, E, P) = (E, E, {B(1, eη /(1 + eη )) : η ∈ R}) Nous verrons un peu plus loin (dans la partie sur les familles exponentielles) que cette paramétrisation n’est pas aussi farfelue qu’on aurait pu le penser de prime abord. Remarquons que l’on peut toujours paramétrer la famille P, ne serait-ce qu’en prenant Θ = P et donc l’application identité entre les deux espaces. Pour que l’on parle de modèle paramétrique, il faut que l’espace Θ soit de dimension finie, d’où l’hypothèse qu’il soit inclus dans un Rd. Exemple 2.2. Un problème de contrôle de la Qualité. Considérons une entreprise de fabrique de vis. On constate que les mesures du diamètre X d’une vis varient d’une pièce à l’autre. Cet aléa peut être dû au procédé de fabrication et/ou aux éventuelles erreurs de mesure. Supposons que l’on ne connaisse pas la valeur moyenne (rigoureusement l’espérance) du diamètre µ. Cherchons à préciser un modèle statistique adapté à une telle situation. Il est souvent raisonnable d’admettre que la loi de X est normale. En effet de manière non rigoureuse on peut supposer que l’aléa est “symétrique et décroissant autour de la moyenne”. On modélise donc souvent cette variation sous la forme : X = µ + ε, où ε est de loi N (0, σ 2 ). Autrement dit, on a X ∼ N (µ, σ 2 ). On suppose dans un premier temps σ 2 connu. Pour modéliser cette situation on a donc recours au modèle statistique : (E = R, E = BR , P = {N (µ, σ 2 ) : µ ∈ R}). Dans ce cas, on Θ = R et θ = µ. Si σ 2 est lui aussi inconnu, alors le modèle devient (R, BR , P = {N (µ, σ 2 ) : µ ∈ R, σ 2 > 0}) Jean-Yves Dauxois c Juillet 2011 14 Chapitre 2. Modèle Statistique et l’on a : Θ = R × R+ 2 ∗ et θ = (µ, σ ). Le paramètre est dit bi-dimensionnel. On peut aussi construire un modèle où l’espérance est connue et c’est la variance qui est inconnue. 3 Définition 2.3. Un modèle paramétrique (E, E, P) est dit identifiable si la fonc- tion θ 7→ Pθ de la Définition 2.2 est de plus injective, i.e. si θ1 6= θ2 ⇒ Pθ1 6= Pθ2. Dans la plupart des cas le modèle est identifiable, quitte à prendre une autre paramétrisation. On supposera dans la suite que le modèle statistique est identifiable. Abus de langage et de notation. Si la v.a. X est absolument continue, la densité de Pθ est notée fθ. C’est une fonction intégrable de R (ou une partie de R) vers R+. Si la v.a. X est discrète, on appellera également densité la fonction fθ définie en tout x de l’espace E, où la X prend ses valeurs, par : fθ (x) = Pθ (X = x). On peut en effet montrer grâce à la théorie de la mesure, que dans ce dernier cas la loi de X est absolumentR continue par rapport à la mesure de comptage sur E. Les intégrales de la forme x · · · dx utilisées dans le cas P de v.a. absolument continues seront alors remplacées par des sommes R de la forme x · · ·. Ainsi, Ppar exemple, Pl’espérance s’écrit dans le cas continu xfθ (x)dx et dans le cas discret x xfθ (x) = x xPθ (X = x). Définition 2.4. On appelle support de la loi Pθ l’ensemble : supp(Pθ ) = {x ∈ E : fθ (x) > 0}. On constate qu’il est dénombrable dans le cas de v.a. discrètes et infini non dénom- brable dans le cas de v.a. absolument continues. Ce support peut dépendre de θ. Il en est ainsi par exemple dans le cas du modèle uniforme {U[0,θ] ; θ > 0} Exemple 2.3. Dans le cas de l’Exemple 2.1, on a : fθ (x) = px (1 − p)1−x , pour tout x ∈ supp(Pθ ) = {0, 1}. Dans le cas de l’Exemple 2.2, on a : (x − µ)2 1 fθ (x) = √ exp − , σ 2π 2σ 2 pour x dans supp(Pθ ) = R. 3 Jean-Yves Dauxois c Juillet 2011 3. Vraisemblance 15 2. Modèle d’échantillonnage Pour étudier un phénomène aléatoire, on a souvent intérêt à observer plusieurs réalisations indépendantes de celui-ci. C’est ce que l’on a fait dans l’exemple du premier chapitre. On parle alors d’échantillon ou d’échantillonnage. Définition 2.5. On appelle n-échantillon de la loi Pθ , la donnée d’un vecteur X = (X1 ,... , Xn ) constitué de n v.a. indépendantes et identiquement distribuées (i.i.d.) de loi Pθ. On appelle modèle d’échantillonnage, le modèle (E n , E ⊗n , P n = {Pθ⊗n : θ ∈ Θ}), où E ⊗n est la tribu produit (engendrée par les pavés) sur E n et Pθ⊗n = Pθ ⊗ · · · ⊗ Pθ est la probabilité produit sur (E n , E ⊗n ) qui est la loi du vecteur X = (X1 ,... , Xn ) (Cf. cours de Probabilités). Toutes les v.a. ont même loi, donc même valeur de θ. Un échantillon est un vecteur aléatoire. Sa réalisation, fruit de n observations indépendantes du même phénomène, est notée x = (x1 ,... , xn ). On fera toujours cette distinction entre v.a. et sa réalisation en utilisant majuscules ou minuscules. Un modèle d’échantillonnage est donc un modèle statistique particulier, où l’espace des observations est de la forme E n , muni de sa tribu produit classique et de probabilités de la forme Pθ⊗n. Aussi parfois on parlera dans ce cas simplement de modèle statistique. L’important est de bien avoir en tête quelle est la nature des observations : par exemple v.a.r., vecteur aléatoire (mais avec composantes non nécessairement indépendantes, ni de même loi) ou encore échantillon... Grâce à l’indépendance et l’identique distribution, la densité de l’échantillon sous la loi Pθ est alors : n Y x = (x1 ,... , xn ) 7→ fθ (xi ), i=1 n pour tout x de E. Si on considère le produit de droite non plus comme une fonction de x mais comme une fonction du paramètre θ, pour un x = (x1 ,... , xn ) fixé, on parle de vraisemblance. 3. Vraisemblance Définition 2.6. Dans un modèle statistique paramétrique (E, E, P), on appelle vraisemblance de l’observation x la fonction L(x; ·) : Θ → R+ θ 7→ L(x; θ) = fθ (x). Jean-Yves Dauxois c Juillet 2011 16 Chapitre 2. Modèle Statistique Bien sûr, dans le cas d’un modèle d’échantillonnage, la vraisemblance de l’échantillon observé x = (x1 ,... , xn ) s’écrit sous la forme n Y L(x1 ,... , xn ; θ) = fθ (xi ). i=1 C’est donc la loi conjointe du n-échantillon évaluée aux valeurs observées et consid- érée comme fonction du paramètre θ. 4. Familles Exponentielles Un modèle paramétrique important en Statistique est celui des familles exponen- tielles. Il recouvre de nombreux modèle paramétriques classiques : normal, binomial, poisson, gamma etc... Définition 2.7. Un modèle statistique (E, E, P) sur un espace des observations E est dit famille exponentielle générale s’il existe un entier p, des fonctions η, T , C et h tels que les densités puisse s’écrire, pour tout θ de Θ, sous la forme : fθ (x) = ehη(θ),T (x)i C(θ)h(x), avec les contraintes que T soit une fonction mesurable à valeurs dans Rp ; η soit une fonction à valeurs dans Rp ; C soit une fonction réelle positive qui ne dépend pas x ; h soit une fonction borélienne positive qui ne dépend pas de θ. Le vecteur aléatoire T (X) est appelé statistique canonique du modèle. Si la fonction T est l’identité, la famille exponentielle est dite naturelle. On parle de forme canonique d’une famille exponentielle générale quand les den- sités de probabilités ont la forme fθ (x) = ehθ,T (x)i C(θ)h(x), pour tout θ de Θ, ce qu’il est toujours possible d’obtenir quitte à reparamétriser la famille par θ0 = η(θ). Dans ce cas le paramètre θ de la famille exponentielle est appelé paramètre canonique. Exemple 2.4. Revenons sur le modèle de Bernoulli. La densité s’écrit : x x 1−x p p fp (x) = = p (1 − p) = (1 − p) = exp x ln (1 − p) 1−p 1−p = exp (hη(p), T (x)i) C(p)h(x), avec p η(p) = ln , T (x) = x, C(p) = (1 − p) et h(x) = 1. 1−p Jean-Yves Dauxois c Juillet 2011 5. Modèle position-échelle 17 Le modèle de Bernoulli est donc une famille exponentielle naturelle puisque T = Id. De plus, le modèle Bernoulli paramétré en fonction de η (E, E, P) = (E, E, {B(1, eη /(1 + eη )) : η ∈ R}) est sous forme canonique. Modèle échantillonnage construit à partir d’une famille exponentielle générale cano- nique reste une famille exponentielle générale canonique. En effet si X = (X1 ,... , Xn ) est un échantillon de loi de densité fθ (x) = ehθ,T (x)i C(θ)h(x), alors le vecteur aléatoire X a pour densité n hθ, n P Y fθ (x1 ,... , xn ) = e i=1 T (xi )i n C (θ) h(xi ) i=1 Pn et i=1 T (Xi ) est la statistique canonique du nouveau modèle. On en déduit l’expression de la vraisemblance pour un échantillon x = (x1 ,... , xn ) d’une famille exponentielle générale. Proposition 2.8. La vraisemblance pour un échantillon x = (x1 ,... , xn ) d’une famille exponentielle générale canonique est la fonction : n hθ, n P Y T (xi )i n θ 7→ L(x1 ,... , xn ; θ) = e i=1 C (θ) h(xi ). i=1 5. Modèle position-échelle Définition 2.9. Considérons un vecteur aléatoire X de loi P connue sur (Rn , BRn ) et A un sous espace de Rn. Pour tout a dans A et tout b dans R+ , on note Pa,b la loi du vecteur Y = a + bX. Le modèle paramétrique PA,b = {Pa,b : a ∈ A, b ∈ R+ } est appelé modèle position-échelle engendré par P (ou par X). Le paramètre a est appelé paramètre de position et b paramètre d’échelle. Si b est fixé (par exemple à 1) on parle de modèle de position. Dans le cas où A ne contient que le vecteur nul de Rn , on parle de modèle échelle. Exemple 2.5. Le Modèle gaussien unidimensionnel Reprise de l’Exemple 2.2. Le modèle P = {N (µ, σ 2 ) : µ ∈ R} est un modèle position engendré par la loi N (0, σ 2 ). Il correspond aux différentes lois du modèle pour le diamètre X de la vis. Rappelons que X = µ + ε, où µ varie dans R et ε est de loi N (0, σ 2 ). Jean-Yves Dauxois c Juillet 2011 18 Chapitre 2. Modèle Statistique Le modèle P = {N (µ, σ 2 ) : µ ∈ R, σ 2 > 0} est un modèle position-échelle engendré par la loi N (0, 1). Le diamètre X de la vis peut en effet s’écrire X = µ + σε, où ε est de loi N (0, 1). 3 6. Exercices Exercice 1 (Familles Exponentielles) On considère les modèles suivants : Modèle Binomial {B(m, p) : p ∈ [0, 1]} ; Modèle de Poisson {P(λ) : λ > 0} ; Modèle gaussien à variance fixée {N (µ, σ 2 ) : µ ∈ R} ; Modèle gaussien à paramètre bi-dimensionnel {N (µ, σ 2 ) : µ ∈ R, σ 2 > 0} ; β α α−1 −βx Modèle Gamma {G(α, β) : α > 0, β > 0} = {fα,β (x) = Γ(α) x e 1lR+ (x) : α > 0, β > 0} ; Modèle uniforme {U[0,θ] : θ > 0} ; 1 Modèle de Cauchy {fθ (x) = π(1+(x−θ) 2 ) : θ ∈ R} ; Pk Modèle Multinomial {M(n, p1 ,... , pk ) : 0 < pi < 1, ∀i = 1,... , k et i=1 pi = 1}. Pour tous ces modèles, répondre aux questions suivantes. 1) Quelle est l’expression de la densité fθ (x) ? 2) Le modèle constitue-t-il une famille exponentielle générale ? Naturelle ? Quel est le paramètre canonique du modèle ? 3) Quelle est la vraisemblance d’un échantillon x = (x1 ,... , xn ) ? Exercice 2 (Modèles position-échelle) 1) Construire un modèle position-échelle à partir de la loi exponentielle E(1). Pré- ciser la forme des f.d.r. des lois de ce modèle ainsi que leurs densités. 2) Montrer que le modèle uniforme {U[a,b] : −∞ < a < b < +∞} est un modèle position-échelle. Exercice 3 (Statistiques d’ordre) Soit X1 ,... , Xn des v.a.r. définies sur un même espace probabilisé (Ω, A, P ), in- dépendantes et de même loi absolument continue par rapport à la mesure de Lebesgue de densité f. Pour tout ω dans Ω, on peut ordonner les réels X1 (ω),... , Xi (ω),... , Xn (ω) sous la forme X(1) (ω) ≤ X(2) (ω) ≤ · · · ≤ X(i) (ω) ≤ · · · ≤ X(n) (ω). Jean-Yves Dauxois c Juillet 2011 6. Exercices 19 L’application X(i) : ω ∈ Ω → X(i) (ω) ainsi définie pour chaque i est une v.a.r. dite ième statistique d’ordre. 1) Calculer la loi de X(n) = sup{X1 ,... , Xn } (f.d.r. et densité). 2) Calculer la loi de X(1) = inf{X1 ,... , Xn } (f.d.r. et densité). 3) Calculer la loi du couple (X(1) , X(n) ). En déduire celle de l’étendue R = X(n) −X(1) (on donnera sa f.d.r et sa densité en fonction de F et f ). 4) Soit Ny le nombre de Xi inférieurs à y. Quelle est la loi de Ny ? Que dire des événements {Ny ≥ k} et {X(k) ≤ y} ? En déduire la f.d.r. de X(k). 5) On pourrait du résultat précédent tirer la densité de la v.a. X(k). Mais c’est fastidieux. Il y a bien plus simple en attaquant le problème directement, ce que l’on propose de faire maintenant. On pourra utiliser le résultat suivant : Si f est continue sur un intervalle [a, b], alors, pour tout x dans cet intervalle, on a : P (X ∈]x, x + h]) f (x) = lim+ h→0 h Calculer la densité de X(k). 6) Montrer que si E(X) existe alors E(X(k) ) aussi. 7) Calculer la densité du vecteur (X(1) ,... , X(n) ). (Ind. on pourra calculer P ((X(1) ,... , X(n) ) ∈ B), pour tout borélien B de BRn ). Jean-Yves Dauxois c Juillet 2011 Partie 2 Estimation ponctuelle Reprenons l’exemple inaugural, vu au Chapitre 1, sur estimation de F̄ (t0 ), à partir d’un échantillon x1 ,... , xn de temps observés. On est parti de cet échantillon, avec ces n temps relevés, pour finalement utiliser seulement le nombre de temps observés supérieurs à t0. Ce fut également le cas dans l’écriture de ce modèle avec les y en fin de ce Chapitre. On a donc naturellement réduit l’information apportée par l’échantillon, pour ne garder que ce qui nous semblait utile dans l’objectif d’estimer F̄ (t0 ), où encore p0 dans la seconde écriture de ce problème. C’est là la notion de Statistique : réduire l’information apportée par un échantillon. On parlera naturellement d’estimateur quand elle sera utilisée pour estimer le paramètre inconnu. Notons enfin que, toujours dans cet exemple, nous avons proposé plusieurs estimateurs et que naturellement se pose la question de la qualité et des propriétés d’un estimateur, de savoir comment comparer des estimateurs entre eux ou encore savoir comment améliorer un estimateur. C’est là le programme de cette partie. CHAPITRE 3 Statistique et Estimateur Comme nous l’avons dit une Statistique est une réduction de l’information apportée par un échantillon. Plus précisément voici sa définition. Définition 3.1. Soit (E n , E ⊗n , P n = {Pθ⊗n : θ ∈ Θ}) un modèle d’échantillonnage. On appelle statistique la v.a. T (X) = T (X1 ,... , Xn ) où T est une fonction mesurable connue de (E n , E ⊗n , P n = {Pθ⊗n : θ ∈ Θ}) vers un espace probabilisable (F, F) : En → F T :. x = (x1 ,... , xn ) 7→ T (x1 ,... , xn ) Insistons bien sur le fait qu’une statistique est une v.a. Les valeurs qu’elle prendra dépendront des valeurs prises par l’échantillon. Si le modèle statistique est non trivial (i.e. non réduit à une seule probabilité) alors la loi de la statistique T (X), où X = (X1 ,... , Xn ), est inconnue. Cela vient de la non connaissance de la loi de l’échantillon. En revanche la fonction T est, elle, connue. Reprenons l’exemple de l’estimation de la fiabilité vu au début du chapitre précédent. La fonction n 1X T : (x1 ,... , xn ) → 1l[t ,+∞[ (xi ) n i=1 0 est parfaitement connue. En revanche, la loi de la statistique T (X1 ,... , Xn ) n’est pas entièrement connue puisque l’on sait seulement que la loi de nT (X1 ,... , Xn ) est une Binomiale B(n, F̄ (t0 ), où la valeur de F̄ (t0 ) est inconnue. Souvent l’espace d’arrivée de T est de dimension inférieure et plus simple que E n (signe d’une effective réduction de l’information). Dire que la statistique est connue, signifie en particulier que la fonction connue T ne doit pas dépendre du paramètre (inconnu) θ (ou de la loi P dans P). En revanche, la loi de la statistique T (X) dépendra en général du paramètre du modèle. Une statistique dépend de la taille n de l’échantillon, et on notera parfois Tn (X) pour le souligner. Par abus de langage on appellera également statistique la suite T (X) = (Tn (X))n∈N de statistiques quand la taille de l’échantillon augmente. On a déjà vu dans l’exemple inaugural qu’un problème en statistique est d’estimer un paramètre θ. On peut aussi vouloir estimer g(θ), l’image de θ par une fonction g. Pour rester le plus général, on considérera dans la suite le cas général de l’estimation de g(θ). Pour ce faire, on utilise alors une statistique qui peut alors porter le nom d’estimateur. 23 24 Chapitre 3. Statistique et Estimateur Définition 3.2. On appelle estimateur de g(θ), toute statistique T (X) de (E n , E ⊗n ) à valeurs dans g(Θ). La seule contrainte apportée est donc que la statistique prenne ses valeurs dans g(Θ). Pour un même problème d’estimation, on pourra considérer de nombreux estimateurs. Cela dit, tous les estimateurs ne sont pas forcément judicieux. Notation. Quand il s’agit d’estimer le paramètre θ on note souvent θ̂ son estimateur et θ̂n quand on souhaite préciser la taille n de l’échantillon. Pour l’estimation de g(θ) on utilise parfois aussi la notation g(θ). d Exemple 3.1. Considérons le modèle d’échantillonnage tiré du modèle paramétrique uniforme : + (R , BR+ , {U[0,θ] : θ > 0}). Les densités dans ce modèle sont donc de la forme : 1 fθ (x) = 1l[0,θ] (x), θ + pour θ ∈ R. Supposons que l’on cherche à estimer le paramètre θ à partir d’un échantillon X1 ,... , Xn tiré de ce modèle. Plusieurs estimations sont possibles : Assez naturellement on pense en premier lieu à θ̂1 = max(X1 ,... , Xn ). On sent naturellement (et on pourra le vérifier plus tard) qu’il s’approche en croissant de θ quand la taille de l’échantillon augmente. Mais seulement, il a le désavantage d’être toujours inférieur à la “vraie” valeur θ. On peut essayer de remédier à ce problème en proposant d’autres estimateurs. On peut se dire que les réalisations de l’échantillon vont se répartir de manière à constituer n + 1 intervalles de longueurs (très) approximativement égales. D’où l’idée de considérer θ̂1 n+1 θ̂2 = θ̂1 + = θ̂1. n n On peut aussi remarquer que la distance qui sépare θ1 = max(X1 ,... , Xn ) de θ devrait être environ égale à celle qui sépare 0 de min(X1 ,... , Xn ). On peut donc proposer l’estimateur θ̂3 = min(X1 ,... , Xn ) + max(X1 ,... , Xn ). On peut aussi P adopter une démarche radicalement différente basée sur l’intuition que X̄ = ( ni=1 Xi )/n devrait être un bon estimateur du centre du support de la loi uniforme, à savoir θ/2. Aussi, on peut s’intéresser à l’estimateur : θ̂4 = 2X̄. On pourrait proposer de manière assez irraisonnée (puisque non basée sur l’échantillon) θ̂5 = 2011 ou tout autre valeur. Il y aurait bien d’autres possibilités à explorer... 3 Deux questions se posent à la suite de cet exemple. Existe-t-il des méthodes générales pour construire de (bons) estimateurs ? Et ensuite comment les comparer Jean-Yves Dauxois c Juillet 2011 0. 25 ou savoir quel est le meilleur ? Ces questions font respectivement l’objet des deux sections suivantes. Jean-Yves Dauxois c Juillet 2011 CHAPITRE 4 Construction d’estimateurs 1. Estimateurs empiriques (des moments) On a déjà vu dans exemple introductif et l’Exemple 3.1, comment estimer l’espérance mathématique d’une v.a. Étudions davantage cet estimateur qui est à la base de nom- breuses méthodes statistiques. Soit donc X une v.a. générique d’un modèle d’échantillonnage (E n , E ⊗n , P n = ⊗n {Pθ : θ ∈ Θ}). C’est à dire que X1 ,... , Xn est un échantillon de même loi que X. Notons Eθ (·) et Varθ (·) respectivement les opérateurs espérance et variance sous la loi Pθ , en supposant que ces quantités sont bien définies. Pour simplifier les notations, on notera mθ = Eθ (X) et σθ2 = Varθ (X). Définition 4.1. On appelle moyenne empirique, la statistique X̄ définie, pour une taille n d’échantillon, par : n 1X X̄n = Xi. n i=1 Quand on peut écrire l’espérance de la v.a. générique X en fonction du paramètre du modèle, i.e. quand il existe une fonction g telle que mθ = g(θ) (ce qui est souvent le cas), alors on pourra donner le titre d’estimateur à X̄. On dira alors qu’il estime mθ. Proposition 4.2. La moyenne empirique est telle que Eθ (X̄n ) = mθ σ2 Var(X̄n ) = θ. n Preuve. Immédiate par linéarité de l’espérance et grâce à l’indépendance entre les termes pour le calcul de la variance. 2 Le premier point de la proposition montre que l’estimateur X̄ est, dans un certain sens, un “bon” estimateur de l’espérance mθ puisqu’il est égal en espérance à ce qu’il cherche à estimer. On parlera d’estimateur sans biais. Nous y reviendrons au chapitre suivant. Une généralisation évidente de ce qui précède est donnée par l’estimation empirique d’un moment de X d’ordre quelconque. Notons mθ (p) = Eθ (X p ) le moment d’ordre p de X sour la loi Pθ , en supposant que celui-ci existe. Par analogie avec ce qui précède, on peut définir l’estimateur empirique du moment d’ordre p. 27 28 Chapitre 4. Construction d’estimateurs Définition 4.3. On appelle estimateur empirique du moment d’ordre p, la statis- tique n 1X p m̂θ (p) = X. n i=1 i On peut aussi s’intéresser à l’estimation de la variance σθ2. Le raisonnement est le même. On sait que l’on peut écrire : σθ2 = Eθ (X 2 ) − E2θ (X) = mθ (2) − (mθ (1))2. D’où l’idée d’estimer σθ2 par n 1X 2 Sn2 2 = m̂θ (2) − (m̂θ (1)) = X − X̄n2. n i=1 i Un calcul élémentaire montre que Sn2 s’écrit aussi sous la forme : n 1X 2 Sn2 = Xi − X̄n. n i=1 C’est sous cette forme qu’est plus connu cet estimateur. Définition 4.4. On appelle estimateur de la variance empirique, la statistique Sn2 définie pour une taille n d’échantillon par : n 1X 2 Sn2 = Xi − X̄n. n i=1 Cette méthode d’estimation empirique des moments est très générale. Elle peut, par exemple, s’appliquer pour l’estimation de la fonction de répartition. Il suffit en effet de remarquer que l’on peut écrire Fθ (x) = Pθ (X ≤ x) = Eθ (1l{X≤x} ) = E(Y ), avec Y = 1l]−∞,x] (X). On peut donc estimer Fθ (x) par n n 1X 1X F̂θ (x) = Yi = 1l]−∞,x] (Xi ) n i=1 n i=1 et on retrouve l’estimateur de la fonction de répartition empirique. Jean-Yves Dauxois c Juillet 2011 3. Méthode des moments 29 2. Méthode de substitution Principe de la méthode. Supposons que l’on sache estimer le paramètre θ d’un modèle statistique. On note θ̂n cet estimateur. Et supposons également que l’on soit intéressé par l’estimation de l’image g(θ) de ce paramètre par une application g (connue). La méthode de substitution (ou de “plug-in” en anglais), consiste à utiliser l’estimateur g(θ̂n ). On verra ultérieurement que si la fonction g est continue on pourra aisément obtenir des informations sur la qualité de cet estima- teur à partir de celles de θ̂n. Cette méthode a aussi été déjà utilisée, de manière assez naturelle, dans l’exemple introductif pour l’estimation de F̄ (t0 ) par exp(−λ̂t0 ). À partir d’un estimateur de λ nous avons obtenu un estimateur de F̄ (t0 ) qui est une fonction de λ. Un autre exemple d’utilisation de cette méthode est le suivant. On a vu comment estimer la variance σθ2 = Varθ (X) d’une v.a.r. par Sn2. Si l’on veut estimer son écart- type, on peut prendre v u n p u1 X 2 σ̂θ = Sn2 = t Xi − X̄n. n i=1 3. Méthode des moments Principe de la méthode. Supposons qu’il existe une fonction h bi- jective et continue de Θ ⊂ Rp vers h(Θ) ⊂ Rp , une fonction mesurable ϕ de E vers Rp telle que Eθ (ϕ(X)) existe et toutes les deux telles que l’on ait : h(θ) = Eθ (ϕ(X)), pour tout θ de Θ. La méthode des moments consiste alors à estimer θ par n ! 1 X θ̂n (X) = h−1 ϕ(Xi ). n i=1 Cette méthode a également déjà été utilisée dans l’exemple introductif où nous avons proposé un estimateur du paramètre λ du modèle exponentiel. Cette méthode peut être vue comme un mélange des deux précédentes méthodes. Exemple 4.1. Modèle de la loi exponentielle. L’équation 1 E(X) = λ Jean-Yves Dauxois c Juillet 2011 30 Chapitre 4. Construction d’estimateurs s’écrit sous la forme h(λ) = Eθ (ϕ(X)) avec h(x) = 1/x et ϕ est l’identité sur R+. En estimant λ par ! n 1 X 1 λ̂ = h−1 Xi = , n i=1 X̄n on retrouve l’estimateur utilisé dans l’exemple introductif sur la fiabilité des matériels. 3 Exemple 4.2. Modèles gaussiens unidimensionnels. Considérons les modèles statistiques introduits pour des problèmes de contrôle de la qualité dans l’Exemple 2.2. Dans le premier modèle, P = {N (µ, σ 2 ) : µ ∈ R} l’estimation par la méthode des moments redonne l’estimateur intuitif de µ par X̄n , en prenant h et ϕ égales aux fonctions identité puisque µ = E(X). Dans le second modèle, P = {N (µ, σ 2 ) : µ ∈ R, σ 2 ∈ R+ }, on peut écrire la relation h(θ) = Eθ (ϕ(X)) en prenant θ = (µ, σ 2 ), h(θ) = (µ, σ 2 + µ2 ) et ϕ(x) = (x, x2 ) application de R vers R × R+. En effet on sait que l’on a E(X 2 ) = Var(X) + E2 (X). Comme h−1 (u, v) = (u, v − u2 ), on obtient comme estimateur du paramètre multidimensionnel θ par la méthode des moments : n ! −1 1X −1 X̄ n X̄ n θ̂n (X) = h ϕ(Xi ) = h 1 Pn 2 = 1 Pn 2 2. n i=1 n i=1 Xi n i=1 Xi − X̄n On retrouve les estimateurs vus par la méthode des moments empiriques. 3 On parle de la méthode des moments, mais il faut bien retenir que l’unicité porte sur la méthode (qui est très générale) et non sur le nombre d’estimateurs d’un même paramètre que l’on peut obtenir par cette méthode. Nous verrons dans un exercice que, par exemple, dans le modèle de la loi exponentielle (comme dans d’autres), la méthode des moments permet d’obtenir de nombreux autres estimateurs du paramètre λ. On s’inspirera en particulier des relations E(X 2 ) = 2/λ2 et F̄ (t0 ) = P (X > t0 ) pour obtenir deux autres estimateurs par cette méthode des moments. 4. Maximum de vraisemblance Pour introduire cette approche, considérons deux urnes contenant toutes les deux des boules bleues et rouges mais en proportion différentes : proportion p1 = 90% de boules bleues dans la première et proportion p2 = 15% de boules bleues dans la seconde. On tire au hasard une boule dans une des deux urnes sans savoir de laquelle il s’agit. On constate que la boule est bleue. Naturellement on parierait plutôt que la boule tirée est issue de l’urne 1. On a pris l’urne qui maximise la probabilité de l’événement que l’on a obtenu : “avoir une boule bleue”. On a choisi la situation la plus vraisemblable. On va voir que c’est celle qui maximise la vraisemblance. En effet, le modèle est ici : {B(p); p ∈ {0.9, 0.15}}, Jean-Yves Dauxois c Juillet 2011 4. Maximum de vraisemblance 31 de v.a. générique X où {X = 1} signifie que la boule tirée est bleue et {X = 0} signifie qu’elle est rouge. La vraisemblance d’un tirage d’une boule bleue est donc L(1; p) = p pour p dans {0, 9; 0, 15}. En prenant la valeur de p = 0.9 qui maximise la vraisemblance, on décide donc que la boule provient de l’urne 1. Si la boule avait été rouge, on aurait évidemment choisi l’autre urne, ce qui maximise également la vraisemblance qui est alors : L(0, p) = 1 − p. Généralisons un peu. Supposons que l’on ait une infinité d’urnes avec toutes les proportions possibles p de boules bleues comprises entre 0 et 1. On effectue n tirages i.i.d. dans une même urne (inconnue) et on note respectivement X1 ,... , Xn le résul- tat de chaque tirage (xi = 1 si la boule tirée est bleue et 0 sinon). En s’inspirant de la méthode adoptée ci-dessus, on peut choisir d’estimer p par la valeur qui maxi- mise la vraisemblance de l’événement observé qui est le vecteur x = (x1 ,... , xn ). La vraisemblance est n Y Pn Pn L(x1 ,... , xn ; p) = pxi (1 − p)1−xi = p i=1 xi (1 − p)n− i=1 xi i=1 et l’estimateur p̂ est donc défini par p̂ = ArgmaxL(x; p). p La fonction logarithme étant croissante, on peut écrire n n ! ! X X p̂ = Argmax ln(p) xi + n− xi ln(1 − p). p i=1 i=1 Pn Pn La fonction p 7→ ϕ(p) = ln(p) xi + (n − i=1 xi ) ln(1 − p) admet pour dérivée i=1 Pn n − ni=1 xi P 0 i=1 xi ϕ (p) = − p 1−p et dérivée seconde Pn n − ni=1 xi P 00 i=1 xi ϕ (p) = − − p2 (1 − p)2 qui est négative puisque les xi sont dans {0, 1}. La fonction ϕ est donc concave et son maximum atteint en la valeur p̂ qui annule la dérivée première, i.e. Pn n − ni=1 xi P i=1 xi = p̂ 1 − p̂ Pn ce qui donne p̂ = x̄ = ( i=1 xi )/n. Remarquons que l’on obtiendrait le même estima- teur en utilisant la méthode des moments puisque E(X) = p. Mais il n’y a pas aucune raison que cette méthode conduise toujours aux mêmes estimateurs. On peut généraliser cette méthode pour un modèle statistique quelconque. Définition 4.5. Soit (E, E, P = {Pθ : θ ∈ Θ}) un modèle statistique paramétrique et X sa v.a. générique. On appelle estimateur du maximum de vraisemblance la Jean-Yves Dauxois c Juillet 2011 32 Chapitre 4. Construction d’estimateurs statistique θ̂(X) où θ̂ est une application : E → Θ θ̂ : x 7→ θ̂(x) telle que L(x; θ̂(x)) ≥ L(x; θ) pour tout θ ∈ Θ. On note θ̂(x) = ArgmaxL(x; θ). θ Dans le cas d’un modèle d’échantillonnage la variable générique est X = (X1 ,... , Xn ) et l’Estimateur du Maximum de Vraisemblance est θ̂(X) = ArgmaxL(X; θ). θ Il est bien évident que d’une part l’estimateur du maximum de vraisemblance n’existe pas toujours et que, d’autre part, s’il existe rien ne garantie qu’il soit unique. Si la fonction vraisemblance est concave, on sait que le maximum est unique et atteint en la valeur qui annule la dérivée première (cas unidimensionnel) ou le gradient (cas multidimensionnel). Insistons bien sur le fait que cette méthode ne peut être utilisée que si l’hypothèse de concavité est vérifiée. Un contre-exemple est donné par le modèle de la loi uniforme que nous traiterons en exercice. Comme la vraisemblance est souvent sous la forme d’un produit (modèle d’échantil- lonnage) il est généralement plus aisé (pour les dérivations) de travailler avec la log- vraisemblance définie comme le logarithme népérien de la vraisemblance. La fonction ln étant croissante, l’estimateur obtenu en maximisant la log-vraisemblance est iden- tique à l’estimateur du maximum de vraisemblance. Si l’on porte notre intérêt sur l’estimation de g(θ) image de θ par une fonction g connue, alors la propriété suivante peut être utile. Proposition 4.6. (Propriété d’invariance du maximum de vraisemblance). Soit θ̂(X) un estimateur du maximum de vraisemblance dans un modèle paramétrique (E, E, P = {Pθ : θ ∈ Θ}). Soit g une fonction bijective, mesurable et connue de Θ vers Θ0 = g(Θ). L’estimateur du maximum de vraisemblance de η = g(θ) dans le modèle {Pη : η ∈ Θ0 }, paramétré par η, est alors η̂ = g(θ̂(X)). La démonstration de cette proposition est évidente (basée sur la bijectivité de la nouvelle paramétrisation). On peut en fait montrer (c’est plus délicat) que ce résultat est vrai pour une fonc- tion g mesurable quelconque et on posera donc comme définition que l’estimateur du maximum de vraisemblance de g(θ) est g(θ̂(X)). Jean-Yves Dauxois c Juillet 2011 5. Exercices 33 5. Exercices Exercice 1 (Modèle Gamma et Méthode des moments) On considère le Modèle Statistique de la loi Gamma (R+ , BR+ , {G(α, β) : α > 0, β > 0}). On rappelle que la densité d’une v.a. X de loi G(α, β) est : β α α−1 −βx fα,β (x) = x e 1lR+ (x). Γ(α) 1) Calculer Eα,β (X) et V arα,β (X). 2) Par la méthode des moments, donner un estimateur du paramètre bidimensionnel (α, β) du modèle, basé sur l’observation d’un échantillon X1 ,... , Xn. 3) Déterminer des estimateurs de α et β en utilisant conjointement des estimateurs empiriques des moments et la méthode de substitution. Exercice 2 (Modèle de la loi exponentielle et Méthode des moments) On a vu en cours que la méthode des moments permet d’obtenir un estimateur du paramètre λ dans un modèle de la loi exponentielle : λ̂ = 1/X̄n basé sur la relation E(X) = 1/λ. L’intérêt de cet exercice est de montrer que cette méthode permet la construction de plusieurs estimateurs de ce même paramètre λ. 1) On suppose qu’une v.a.r. X suit une loi exponentielle E(λ). Calculer E(X 2 ). 2) Écrire la fiabilité F̄ (t0 ) = P (X > t0 ) sous forme d’une espérance. 3) On considère le modèle de la loi exponentielle (R+ , BR+ , {E(λ) : λ > 0}). En vous inspirant des résultats des deux questions précédentes et en utilisant à chaque fois la méthode des moments, proposer deux autres estimateurs du paramètre λ. Exercice 3(Maximum de vraisemblance pour un modèle gaussien) 1) On considère le modèle gaussien {N (µ, σ 2 ) : µ ∈ R}. Donner l’estimateur du maximum de vraisemblance du paramètre µ basé sur une observation x1 ,... , xn d’un échantillon issu de ce modèle. 2) On considère maintenant le modèle gaussien avec paramètre bidimensionnel, i.e. {N (µ, σ 2 ) : µ ∈ R, σ 2 > 0}. Donner l’estimateur du maximum de vraisemblance du paramètre θ = (µ, σ 2 ), pour le modèle d’échantillonnage associé. Exercice 4 (Maximum de vraisemblance pour un modèle de loi uniforme) On considère le modèle uniforme {U[0,θ] : θ > 0}. 1) Montrer que la vraisemblance associée à un échantillon x1 ,... , xn observé dans ce modèle est : 1 L(x1 ,... , xn ; θ) = n 1lx(1) ≥0 1lx(n) ≤θ θ où x(1) et x(n) sont respectivement les observations des statistiques d’ordre X(1) et X(n). 2) Donner l’estimateur du maximum de vraisemblance du paramètre θ. Jean-Yves Dauxois c Juillet 2011 34 Chapitre 4. Construction d’estimateurs Exercice 5 (Modèles de la loi exponentielle et de la loi de Poisson en Fiabilité) Partie 1 On s’intéresse à la durée de vie X d’un matériel électronique. Il est raisonnable de considérer que cette durée de vie est aléatoire et que sa loi est exponentielle (il existe des méthodes statistiques, mais que nous ne verrons pas dans le cadre de ce cours, pour vérifier cette hypothèse). En revanche, on ignore la valeur du paramètre λ de cette loi. 1) Écrire le modèle statistique engendré par X. Donner également le modèle d’échantillonnage associé. 2) Donner l’estimateur du maximum de vraisemblance pour une observation x1 ,... , xn d’un échantillon X1 ,... , Xn de durées de vie de ces matériels. 3) Donner une estimation par maximum de vraisemblance de la quantité α = P (X > t0 ), où t0 est un temps fixé. 4) Quels estimateurs de λ et de α obtient-on si on utilise la méthode des moments ? Partie 2 Supposons maintenant que les observations de ces durées de vie soient obtenues grâce à l’expérience suivante. Au temps t = 0, on dispose un matériel sur un banc d’essai. Quand celui-ci tombe en panne, on remplace immédiatement (ou on ne compte pas le temps de remplacement) le matériel défectueux par un matériel identique mais neuf. Et ainsi de suite jusqu’au temps t0. On note alors K le nombre de pannes relevées dans l’intervalle [0, t0 ]. 5) Calculer la probabilité que K soit nul. 6) On note Tk le temps écoulé jusqu’à la kème panne observée. C’est à dire que Tk = X1 + · · · + Xk. Montrer que la loi de la v.a.r. Tk est une Gamma G(k, λ) (Ind. On pourra utiliser la transformée de Laplace ou la fonction caractéristique). 7) Exprimer l’événement K = k en fonction d’événements liant les v.a.r. Tk et Xk+1. En déduire que la loi de K est une loi de Poisson, dont on déterminera la valeur du paramètre. Partie 3 On suppose que l’on réalise n fois cette expérience et on note K1 ,... , Kn les nombres de pannes observées dans chaque intervalle [0, t0 ]. 8) Donner le modèle statistique associé à ces observations. 9) Donner par la méthode du maximum de vraisemblance un autre estimateur du paramètre λ, basé cette fois sur les observations k1 ,... , kn. 10) Qu’obtient-on comme estimateur de λ si, dans ce modèle, on utilise la méthode des moments ? Exercice 6 (Maximum de vraisemblance) Pour les modèles suivants, donner l’estimateur du maximum de vraisemblance as- socié à l’observation d’un échantillon X1 ,... , Xn. Jean-Yves Dauxois c Juillet 2011 5. Exercices 35 1) Modèle de la loi exponentielle décalée : (R+ , BR+ , {Et0 (λ) : λ > 0, t0 ∈ R}). On rappelle que la densité de la loi exponentielle décalée Et0 (λ) est : fλ,t0 (x) = λ exp(−λ(x − t0 ))1l[t0 ,+∞[ (x). 2) Modèle de la loi Bêta à un seul paramètre : (R+ , BR+ , {Beta(1, θ) : θ > 1}). On rappelle que la densité de la loi Beta(a, b) est : 1 fa,b (x) = xa−1 (1 − x)b−1 1l[0,1] (x), β(a, b) où β(a, b) est la valeur de la fonction Eulérienne Bêta prise en a et b. Ind. On pourra montrer en premier lieu que la densité pour le modèle considéré est : fθ (x) = θ(1 − x)θ−1 1l[0,1] (x). Jean-Yves Dauxois c Juillet 2011 CHAPITRE 5 Qualité d’un estimateur On a vu plusieurs techniques pour construire des estimateurs. Même si la présenta- tion n’est pas exhaustive (par manque de temps...), abordons maintenant le problème de l’évaluation de la qualité d’un estimateur et la comparaison d’estimateurs entre-eux. Le but étant bien sûr de prendre le meilleur (s’il en existe un meilleur). On l’a vu, un estimateur T (X) de g(θ) est une v.a. Pour chaque échantillon observé, l’estimateur prendra de nouvelles valeurs. Il faut donc, pour parler de la qualité d’un estimateur, tenir compte de son comportement aléatoire. A priori donc, l’estimateur ne donnera pas toujours (en fait même rarement) la bonne valeur g(θ). Dans le cas où T (X) est absolument continu, il sera même p.s. toujours différent de la valeur fixe g(θ). Il est à noter que la présence d’erreur n’est pas toujours la conséquence des variations aléatoires de l’estimateur. Ainsi, si l’on revient sur l’estimateur du maximum de vraisemblance dans un modèle de Bernoulli (Cf. Section 4.4), on a vu que qu’il a pour expression x̄. L’estimateur ne donnera donc jamais des valeurs en dehors de l’ensemble : {0, 1/n, 2/n,... , (n − 1)/n, 1}. Il ne donnera donc jamais la bonne valeur p si cette dernière n’est pas dans cet ensemble. Naturellement, on voudra qu’un estimateur possède quelques unes (à défaut de toutes) des qualité suivantes. Quand la taille d’échantillon augmente, l’estimateur a tendance à se rapprocher (dans un sens à définir) de la valeur g(θ) qu’il estime. On parlera dans ce cas d’estimateur convergent ou consistant. Même si l’estimateur commet une erreur d’estimation à chaque fois, “en moyenne” (en fait en espérance) il ne se trompe pas. On dira dans un tel cas que l’estimateur est sans biais. L’estimateur doit être le plus précis possible : les variations de l’estimateur au- tour de g(θ) doivent être réduites, voire les plus petites possible. On mesurera cette précision au moyen de la notion de fonction de risque. Il y aurait d’autres critères, mais nous n’aurons pas le temps de les étudier. 1. Estimateur convergent Lorsque l’on augmente la taille de l’échantillon, on augmente la quantité d’informa- tion dont on dispose sur le phénomène aléatoire que l’on étudie. Aussi, il est assez naturel de souhaiter qu’un estimateur ait tendance à s’approcher de la valeur qu’il estime, lorsque la taille de l’échantillon croît. 37 38 Chapitre 5. Qualité d’un estimateur Définition 5.1. Un estimateur T (X) = (Tn (X))n∈N de g(θ) est dit (faiblement) convergent ou consistant si la suite (Tn (X))n∈N converge en probabilité (sous la loi Pθ ) vers g(θ), i.e. θ P Tn (X) −→ g(θ), quand n → +∞. Si T (X) et g(θ) sont dans R, la définition de la convergence de l’estimateur signifie que l’on a, pour tout ε > 0 : P (|Tn (X) − g(θ)| > ε) −→ 0, quand n → +∞. Si T (X) et g(θ) sont dans Rp , la définition de la convergence de l’estimateur s’écrit à partir de la notion précédente sous la forme : θ P ||Tn (X) − g(θ)|| −→ 0, quand n → +∞ et où || · || est une norme quelconque dans Rp. On peut montrer aisément que cela est équivalent à avoir la convergence en probabilité pour chaque coordonnée. On peut bien sûr considérer d’autres types de convergence, comme la convergence p.s. ou la convergence dans Lp , pour p fixé. Dans ces cas, on dira respectivement que l’estimateur est fortement convergent ou consistantou Lp -convergent ou consis- tant. Exemple 5.1. Estimateurs de la moyenne empirique et de la variance empirique. Soit un modèle paramétrique P = {Pθ : θ ∈ Θ} quelconque tel que l’espérance (en supposant qu’elle existe) de sa variable générique X s’écrive sous la forme Eθ X = g(θ). C’est par exemple trivialement le cas de l’Exemple 2.2 des modèles gaussiens unidimensionnels. On a introduit dans la Définition 4.1 la moyenne empirique X̄n et vu qu’elle est un estimateur naturel de Eθ X. Par la loi des grands nombres il apparaît clairement que sous de bonnes hypothèses cet estimateur est consistant et même fortement convergent. On peut également démontrer (en supposant que les moments d’ordre 2 existent) qu’il est L2 -convergent, en remarquant que l’on a Eθ X̄n = g(θ) et Varθ (X̄n ) = σθ2 /n qui tend vers 0 quand n → +∞. Supposons toujours que la variance de X existe et s’écrive sous la forme Varθ (X) = h(θ) dans ce modèle. On peut montrer que, sous certaines conditions, l’estimateur Sn2 de la variance empirique, vu dans la Définition 4.4, est un estimateur consistant de Varθ (X). En effet, en utilisant l’écriture n 1X 2 Sn2 = X − X̄n2. n i=1 i Jean-Yves Dauxois c Juillet 2011 2. Estimateur sans biais 39 et en supposant par exemple l’existence de moment d’ordre 4 pour la v.a.r. X (ce qui permet d’appliquer également la loi des grands nombres pour la moyenne empirique des Xi2 , pour i = 1,... , n), on obtient, grâce à la loi des grands nombres et au théorème de Slutsky (transformation continue), la convergence P Sn2 −→ θ Eθ (X 2 ) − E2θ (X) = Varθ (X), quand n → +∞. 3 2. Estimateur sans biais Un autre critère de qualité d’un estimateur est celui de biais. On l’a vu un estimateur est une v.a. et à ce titre il varie donc (plus ou moins) autour de sa valeur centrale que représente son espérance. Il sera naturellement préférable que cette valeur centrale soit fixée sur la valeur g(θ) qu’il estime. Intuitivement, cela revient à demander que la moyenne prise par l’estimateur sur un grand nombre d’échantillons soit égale la “cible” g(θ). Définition 5.2. Le biais d’un estimateur T (X) = (Tn (X))n∈N de g(θ) est la fonc- tion bT définie sur Θ par : bT (θ) = Eθ (T (X)) − g(θ), pour tout θ dans Θ et à condition que Eθ (T (X)) existe. Il est dit sans biais si cette fonction est identiquement nulle, i.e. si l’on a : Eθ (T (X)) = g(θ), pour tout θ dans Θ. Pour les cas où T (X) et g(θ) sont à valeurs dans Rk , on rappelle que l’espérance d’un vecteur aléatoire est le vecteur de ses espérances. Un estimateur non biaisé ne commet pas d’erreur systématique. A l’inverse, un estimateur sera dit biaisé positivement (resp. négativement) si la fonction biais est positive (resp. négative). Le biais est généralement une fonction de la taille n de l’échantillon et on peut, si nécessaire la noter bn,T dans ce cas. Aussi, si certains estimateurs se trouvent être biaisés pour toute taille finie d’échantillon, on peut espérer qu’ils soient non biaisés asymptotiquement, c’est à dire quand n tend vers +∞. Définition 5.3. Un estimateur T (X) = (Tn (X))n∈N de g(θ), où Tn (X) est inté- grable pour tout n, est dit asymptotiquement sans biais si l’on a bn,T (θ) = Eθ (Tn (X)) − g(θ) −→ 0, quand n → +∞ et ce pour tout θ dans Θ. Exemple 5.2. Estimateurs de la moyenne empirique et de la variance empirique (suite de l’Exemple 5.1). Jean-Yves Dauxois c Juillet 2011 40 Chapitre 5. Qualité d’un estimateur On a vu que les estimateurs de la moyenne empirique et de la variance empirique sont consistants. Qu’en est-il de leurs biais ? On a déjà vu dans la Proposition 4.2 que : Eθ (X̄n ) = Eθ (X). La moyenne empirique est donc un estimateur sans biais de l’espérance d’une v.a.r. Intéressons nous maintenant à l’estimateur de la variance empirique. Remarquons en premier lieu que l’on peut écrire : n n 1X 1X (Xi − X̄)2 = (Xi − Eθ (X) + Eθ (X) − X̄)2 n i=1 n i=1 n n 1X 1X = (Xi − Eθ (X))2 + (Eθ (X) − X̄)2 n i=1 n i=1 n 2(Eθ (X) − X̄) X + (Xi − Eθ (X)) n i=1 n 1X = (Xi − Eθ (X))2 + (Eθ X − X̄)2 − 2(Eθ (X) − X̄)2 n i=1 n 1X = (Xi − Eθ (X))2 − (X̄ − Eθ (X))2. n i=1 Ainsi il vient : n 1X Eθ Sn2 = Eθ (Xi − Eθ (X))2 − Eθ (X̄ − Eθ (X))2 = Varθ (X) − Varθ (X̄) n i=1 σθ2 n−1 2 = σθ2 − = σθ. n n L’estimateur de la variance empirique est donc un estimateur biaisé. En revanche, il est clairement asymptotiquement sans biais. Mais on peut aisément déduire de cet estimateur un estimateur non biaisé de la variance σθ2. 3 Définition 5.4. On appelle estimateur de la variance empirique modifiée l’estimateur n ∗ 1 X Sn2 = (Xi − X̄)2. n − 1 i=1 Cet estimateur est sans biais et consistant d’après la consistance de Sn2. 3. Risque d’un estimateur Une autre manière de mesurer la qualité d’un estimateur est d’évaluer sa précision. Dans cet objectif on peut faire appel à la théorie de la décision. En effet une estimation Jean-Yves Dauxois c Juillet 2011 3. Risque d’un estimateur 41 peut être vue comme le choix d’une valeur d (qui sera donnée par la réalisation de la statistique T (X)) dans l’ensemble g(Θ) pour estimer la valeur inconnue g(θ). Pour prendre une telle décision, on se donne en premier lieu un critère mesurant et pénalisant l’écart entre la valeur choisie d et la vraie valeur g(θ). On parle de fonction de coût. Définition 5.5. On appelle fonction de coût (ou de perte) toute fonction L de g(Θ) × Θ vers R+ , mesurable en sa première coordonnée, qui en (d, θ) donne le coût L(d, θ) de décider d alors que la vraie valeur est g(θ). De nombreux choix de fonctions de coût sont possibles. Dans un premier temps, on peut penser à des fonctions de la distance entre la décision d et la vraie valeur g(θ). Ainsi si g(Θ) est dans R, on peut utiliser le coût absolu L(d, θ) = |d − g(θ)|, le coût quadratique L(d, θ) = (d − g(θ))2 ou encore tout coût de la forme h(|d − g(θ)|) ou h est une fonction positive mesurable quelconque. Si g(Θ) est dans Rk , on pourra prendre des coûts de la forme h(||d − g(θ)||) où h est encore une fonction positive mesurable et || · || une norme sur Rk. On parlera, par exemple, de coût quadratique si L(d, θ) = ||d − g(θ)||22 où || · ||2 est la norme euclidienne dans Rk. On peut aussi considérer la fonction de coût définie par L(d, θ) = (d − g(θ))(d − g(θ))0 qui est à valeur dans l’espace des matrices symétriques positives. On parle dans ce cas de coût quadratique multidimensionnel. Tous les coûts précédents ont une propriété commune importante, celle d’être symé- trique. On pénalise autant une surévaluation de g(θ) qu’une sous-évaluation. On pourrait aussi considérer des fonctions de coût non symétriques, mais ce ne sera pas le cas dans le cadre de ce cours. Nous avons déjà vu que la décision que l’on prendra est donnée par la réalisation T (x) d’une statistique T (X). Le coût associé à cette décision est L(T (x), θ) et varie donc d’un échantillon à l’autre. Cette notion ne peut, à elle seule, définir la qualité d’un estimateur. Elle serait sinon dépendante du hasard lié à l’échantillon observé. C’est pourquoi on utilise une notion de coût moyen, que l’on appelle également risque. Définition 5.6. On appelle risque d’un estimateur T (X) = (Tn (X))n∈N de g(θ) associé à la fonction de coût L, la fonction R de Θ vers R̄+ définie par R(T (X), θ) = Eθ (L(T (X), θ)), pour tout θ de Θ, sous réserve que cette espérance existe. Quand la fonction de coût est quadratique on parle de risque quadratique. Jean-Yves Dauxois c Juillet 2011 42 Chapitre 5. Qualité d’un estimateur Terminologie. Le risque quadratique est parfois appelé erreur quadratique moyenne ou MSE pour Mean Square Error en anglais. On considérera essentiellement le risque quadratique dans la suite. Proposition 5.7. Soit T (X) = (Tn (X))n∈N un estimateur de g(θ) ∈ R, de carré intégrable pour la loi Pθ. Dans le cas d’un risque quadratique on a : R(T (X), θ) = Varθ (T (X)) + b2T (θ). Pour un estimateur sans biais, le risque quadratique est donc égal à sa variance. Preuve. Elle est aisée. Il suffit de développer R(T (X), θ) = Eθ (T (X) − g(θ))2 = Eθ (T (X) − Eθ (T (X)) + Eθ (T (X)) − g(θ))2 qui donne la somme de la variance avec le carré du biais, le terme double produit s’annulant. 2 Exemple 5.3. Estimateurs de la moyenne empirique (suite des exemples 5.1 et 5.2). On a vu que, dans un modèle paramétrique où la variable générique X est telle que Eθ (X) = g(θ), l’estimateur de la moyenne empirique X̄n est un estimateur sans biais de Eθ (X). Son risque quadratique, qui est donc égal à sa variance, est : σθ2 R(X̄n , θ) = Varθ (X̄n ) = , n d’après le résultat vu dans la Proposition 4.2. 3 On peut maintenant comparer la précision de deux estimateurs. Définition 5.8. Soient S(X) et T (X) deux estimateurs de g(θ). On dit que T (X) est préférable à S(X) si l’on a : R(T (X), θ) ≤ R(S(X), θ), pour tout θ de Θ et avec une inégalité stricte pour au moins un θ de Θ. La fonction de risque étant une fonction de θ, il n’est pas toujours possible de dire quel est l’estimateur préférable entre deux estimateurs donnés : leurs fonctions de risque peuvent se croiser. La notion précédente introduit donc seulement un ordre partiel. Quand les estimateurs sont sans biais, l’estimateur T (X) est préférable à S(X) si sa variance est inférieure à celle de S(X). Définition 5.9. Un estimateur T (X) de g(θ) est dit admissible (resp. T -admissible) s’il n’existe pas d’estimateur de g(θ) qui lui soit préférable (resp. dans une classe d’estimateurs T de g(θ)). Jean-Yves Dauxois c Juillet 2011 4. Information de Fisher 43 Ainsi on peut, par exemple, s’intéresser aux estimateurs admissibles dans la classe des estimateurs sans biais de g(θ). Par ailleurs, un estimateur non admissible n’a aucun intérêt. On préférera utiliser l’estimateur qui lui est préférable et qui est admissible. Définition 5.10. Un estimateur T (X) de g(θ) est dit otpimal (resp. T -optimal) s’il est préférable à tous les estimateurs de g(θ) (resp. dans une classe d’estimateurs T de g(θ)). Sauf dans les cas triviaux, il n’existe pas d’estimateur optimal dans la classe de tous les estimateurs possibles. En revanche, si l’on restreint la classe des estimateurs que l’on considère (par exemple les estimateurs sans biais, linéaires etc...) on peut parfois trouver des estimateurs optimaux intéressants. 4. Information de Fisher Nous venons de voir la notion de risque qui mesure la qualité d’un estimateur de g(θ). Elle mesure la qualité d’un estimateur. Naturellement se pose la question de l’existence d’une borne inférieure pour ce risque. Autrement dit, existe-t-il une fonction Binf (θ), éventuellement dépendante de la taille n de l’échantillon observé, telle que l’on ait pour tout estimateur T (X) de g(θ) : R(T (X), θ) ≥ Binf (θ), pour tout θ de Θ ? On verra que, sous certaines conditions, une telle borne existe et est appelée borne de Cramer-Rao. Elle fait intervenir la notion d’information apportée par un modèle, appelée information de Fisher. Pour simplifier les notations, on suppose dans ce paragraphe que le paramètre θ est dans R. Les résultats resteront vrais avec les adaptations nécessaires au cas où θ est multidimensionnel (ces adaptations seront évoquées en fin de paragraphe). On note L0 (x; θ) (resp. L00 (x; θ)) la dérivée première (resp. seconde) en θ de la fonction vraisemblance L(x; θ), pour la valeur x de l’observation dans le modèle paramétrique considéré. Dans la suite on supposera que le modèle paramétrique (E, E, {Pθ : θ ∈ Θ}), de v.a. générique X, vérifie les hypothèses suivantes. H1 L’espace des paramètres Θ est un ouvert. H2 Les lois Pθ ont toutes même support, qui ne dépend donc pas de θ. H3 Les dérivées premières et secondes L0 (x; θ) et L00 (x; θ) de la vraisemblance exis- tent pour tout x dans E. H4 Les fonctions L0 (x; θ) et L00 (x; θ), vues cette fois-ci comme fonction de la va- riable x (c’est à dire les densités), sont intégrables pour tout θ de Θ et on peut Jean-Yves Dauxois c Juillet 2011 44 Chapitre 5. Qualité d’un estimateur toujours intervertir intégrale et dérivation : Z Z ∂ L(x; θ)dx = L0 (x; θ)dx, ∂θ A ZA ∂2 Z L(x; θ)dx = L00 (x; θ)dx, ∂θ2 A A pour tout A dans E. Considérons la v.a. ∂ L0 (X, θ) S(X, θ) = ln L(X; θ) = , ∂θ L(X, θ) qui, en tant que fonction de θ, est parfois appelée fonction score. Sous les hypothèses précédentes, cette v.a. est centrée. On a en effet : Z Z Z ∂ 0 ∂ Eθ (S(X, θ)) = ln L(x; θ)L(x; θ)dx = L (x; θ)dx = L(x; θ)dx = 0, E ∂θ E ∂θ E puisque la dernière intégrale vaut 1 par définition d’une densité. Posons maintenant l’hypothèse supplémentaire : H5 la fonction score est de carré intégrable. Définition 5.11. On appelle information de Fisher la variance du score, i.e. 2 ! ∂ I(θ) = Varθ (S(X, θ)) = Eθ ln L(X; θ). ∂θ On peut établir une autre écriture de l’information de Fisher. Proposition 5.12. L’information de Fisher est aussi égale à 2 ∂ ∂ I(θ) = −Eθ S(X, θ) = −Eθ ln L(X; θ). ∂θ ∂θ2 Preuve. On remarque que l’on peut écrire : ∂ ∂ L0 (x, θ) L00 (x, θ) (L0 (x, θ))2 L00 (x, θ) S(x, θ) = = − = − S(x, θ)2 ∂θ ∂θ L(x, θ) L(x, θ) (L(x, θ))2 L(x, θ) Ainsi, on a : 00 ∂ L (X, θ) Eθ S(X, θ) = Eθ − I(θ). ∂θ L(X, θ) En remarquant que 00 ∂2 Z Z L (X, θ) 00 Eθ = L (x, θ)dx = 2 L(x, θ)dx = 0, L(X, θ) E ∂θ E justifiée par l’hypothèse H4, on a bien le résultat annoncé. 3 Exemple 5.4. Information de Fisher dans le cas d’un modèle gaussien réel avec variance σ 2 connue. Jean-Yves Dauxois c Juillet 2011 4. Information de Fisher 45 On considère le modèle : P = {N (µ, σ 2 ) : µ ∈ R}., où σ 2 est supposé connu. La log-vraisemblance pour l’observation x est : √ (x − µ)2 ln L(x; µ) = − ln(σ 2π) −. 2σ 2 D’où : x−µ ∂ 1 S(x, µ) = 2 et S(x, θ) = − 2. σ ∂µ σ Cette dernière fonction étant constante en x, l’information de Fisher dans ce modèle est donc 1 I(µ) = 2. σ On trouve bien sûr le même résultat en écrivant 2 ! σ2 2 X −µ Eµ S (X, µ) = Eµ =. σ2 σ4 On remarque que l’information de Fisher est d’autant plus grande que σ 2 est petit. 3 Considérons maintenant l’information de Fisher dans un modèle d’échantillonnage, où l’on a donc observé un échantillon X1 ,... , Xn de v.a. i.i.d. de même loi que X. On a alors n Y n X L(x1 ,... , xn ; θ) = L(xi ; θ) et ln L(x1 ,... , xn ; θ) = ln L(xi ; θ). i=1 i=1 En différenciant deux fois par rapport à θ, on obtient : n n ∂ ∂2 X ∂2 X ∂ S(X1 ,... , Xn ; θ) = 2 ln L(X1 ,... , Xn ; θ) = ln L(X i ; θ) = S(Xi ; θ), ∂θ ∂θ i=1 ∂θ2 i=1 ∂θ ce qui prouve la proposition suivante. Proposition 5.13. L’information de Fisher pour un modèle d’échantillonnage, i.e. pour l’échantillon X1 ,... , Xn est n fois celle de la variable générique X de cet échan- tillon. C’est à dire que l’on a : In (θ) = nI(θ) où In (θ) est l’information de Fisher de l’échantillon X1 ,... , Xn et I(θ) celle de X. Exemple 5.5. Information de Fisher pour un échantillon dans le cas d’un modèle gaussien réel avec variance σ 2 connue (suite de l’Exemple 5.4). Jean-Yves Dauxois c Juillet 2011 46 Chapitre 5. Qualité d’un estimateur D’après le résultat de l’Exemple 5.4 et la proposition précédente, l’information de Fisher pour un échantillon dans ce modèle est n In (θ) = nI(θ) = 2. σ 3 Remarque. Dans le cas où le paramètre θ est multidimensionnel. Les fonctions L0 (x; θ) et L00 (x; θ) sont en fait le gradient et la matrice Hessienne de la fonction vraisemblance L(x; θ). Le score est un vecteur aléatoire, composition du gradient de la log-vraisemblance et de la v.a. générique X. On a S(X, θ) = ∇θ ln L(X, θ). L’information de Fisher est une matrice et correspond à la matrice de covari- ance du score S(X, θ). C’est également l’opposé de l’espérance de la matrice Hessienne de la log-vraisemblance en X. On a I(θ) = ΣS(X,θ) = −Eθ ∇2 ln L(X, θ). 5. Borne de Cramer-Rao (ou Fréchet-Darmois-Cramer-Rao) Théorème 5.14. Soit un modèle paramétrique (E, E, {Pθ , θ ∈ Θ}), où Θ est dans R, de v.a. générique X, et vérifiant les hypothèse H1-H4 du paragraphe précédent (on peut ajouter l’hypothèse H5 si l’on souhaite pouvoir utiliser l’autre expression de l’information de Fisher). Soit dans ce modèle un estimateur T (X) sans biais et de carré intégrable de g(θ) ∈ R. Supposons que la fonction x 7→ T (x)L0 (x; θ) soit intégrable sur E et que l’on puisse intervertir dérivation et intégrale, i.e. : Z Z ∂ T (x)L(x; θ)dx = T (x)L0 (x; θ)dx. ∂θ E E Supposons enfin que l’information de Fisher I(θ) soit strictement positive pour tout θ de Θ. Alors la fonction g est dérivable et l’on a pour tout θ dans Θ : (g 0 (θ))2 Var(T (X)) ≥. I(θ) La borne (g 0 (θ))2 /I(θ) est appelée borne de Cramer-Rao (ou Fréchet-Darmois-Cramer- Rao). Remarque. L’hypothèse d’intégrabilité de la fonction T (·)L0 (·; θ) et d’inversion possible entre dérivation et intégrale, est assurée dès qu’il existe une fonction h inté- grable qui majore T (·)L0 (·; θ), i.e. telle que : Z 0 |T (x)L (x; θ)| ≤ h(x), ∀x ∈ E et h(x)dx < +∞. E Jean-Yv

Statistique Inférentielle - Master Enseignement des Mathématiques (PDF)

Document Details

Tags

Related

Summary

Full Transcript