Cours d'Estimation Statistique - Année 3, Semestre 6 - PDF
Document Details
Uploaded by VisionaryVerisimilitude
École Supérieure d'Ingénieurs Léonard de Vinci
2024
Laetitia DELLA MAESTRA
Tags
Summary
This document is a chapter from a course on statistical estimation, specifically for third-year, sixth-semester students. It discusses the problem of inferring properties of a population from a sample and describes how to estimate population parameters. Two examples illustrating estimation for different variable types are presented. The document defines and differentiates between qualitative and quantitative variables, further classifying them into discrete and continuous types.
Full Transcript
6 février 2024 Statistiques Année 3 Semestre 6 Laetitia DELLA MAESTRA Enseignant-chercheur en Mathématiques [email protected] - Bureau L405 Chapitre I : Estimation statistique Partie A : Problématique, Objectifs & Variables Problématique : On dispose de données numériques (provenant d...
6 février 2024 Statistiques Année 3 Semestre 6 Laetitia DELLA MAESTRA Enseignant-chercheur en Mathématiques [email protected] - Bureau L405 Chapitre I : Estimation statistique Partie A : Problématique, Objectifs & Variables Problématique : On dispose de données numériques (provenant de mesures physiques, de comptages, de sondages, etc...) évaluant une propriété appelée variable (ou caractère) , concernant un échantillon lesquels porte l’étude, (= sample) d’individus, des "objets" sur tirés au sort dans une population beaucoup plus importante, la population globale (qui elle est l’ensemble de tous les individus, de tous les objets sur lesquels porte l’étude, pouvant être tirés au sorts) On étudiera ici une seule variable V. soit de type qualitatif binaire, soit quantitative, discrète ou continue. On suppose à partir de maintenant que la série de valeurs est contenue dans un objet Python appelé serie et de type pandas.Series. 2/102 Objectifs de l’Estimation Statistique On souhaite inférer des propriétés sur la population globale, en particulier estimer les principaux paramètres de cette population (paramètres de position : par ex espérance, paramètres de dispersion : par ex variance) en contrôlant la marge d’erreur, et de manière plus générale estimer la forme globale de la répartition des valeurs dans la population initiale. répondre à des questions que l’on peut se poser sur la population globale (cf. Chapitre 2 sur les Tests statistiques), tout en contrôlant le risque de se tromper. 3/102 Remarque sur l’échantillonnage En pratique, il est souvent difficile de considérer la population dans sa totalité. On choisit alors un groupe d’individus dans la population suivant un processus de sélection précis. Ce groupe est appelé échantillon. Le nombre d’individus dans l’échantillon est noté n. Processus de sélection : on supposera toujours qu’un échantillon est constitué de la manière suivante : on choisit les mêmes individus un à un, au hasard et avec remise et il est possible qu’un même individu soit sélectionné plusieurs fois chaque individu a la même probabilité qu’un autre d’être sélectionné. Lorsque n est faible par rapport au nombre N d’individus dans la population (typiquement n < 10% N), il est raisonnable d’admettre qu’un choix sans remise est assimilable à un choix avec remise. Nous nous placerons donc la plupart du temps (mais pas toujours) ds le cadre statistique suivant. 4/102 Nous avons mesuré un certain caractère sur un échantillon de taille n d’une population d’un nombre N individus, avec n très petit par rapport à N. Nous disposons donc d’une série de n valeurs x = (x1 ,... , xn ), où xi représente la valeur du caractère mesurée sur le i ème individu de l’échantillon. Nous supposons que : x est une réalisation du vecteur aléatoire X = (X1 ,... , Xn ) où Xi est la v.a.r. correspondant à la valeur du caractère du i ème individu X1 ,... , Xn sont i.i.d., autrement dit ↝ pr tt i ∈ J1, nK, la valeur du caractère du i ème individu est indépendante de la valeur du caractère des autres individus, c-à-d que la valeur du caractère du i ème individu n’est pas influencée par la valeur du caractère des autres individus ↝ et pr tt i ∈ J1, nK la valeur du caractère du i ème individu est de même loi, c-à-d a le même "comportement aléatoire", que la valeur du caractère du j ème individu pr tt j ∈ J1, nK tq j ≠ i. Passons maintenant à la classification de la nature de ces caractères. 5/102 Types de variables Quantitative : variable numérique exprimant une quantité/une mesure/un taux, et pour laquelle faire une moyenne a un sens Discrète : variable numérique dont les valeurs possibles appartiennent à un ensemble fini ↝ nombre aléatoires de choses ou d’évènements comptés dans un certain laps de temps/dans un certain espace circonscrit Exemples : "nombre aléatoire d’unités indivisibles contenu dans quelque chose" : nombre de pannes d’un appareil ménager, nb de visiteurs dans un musée en un an, nb de personnes entrées dans un magasin en une journée, nb de jours mis pour faire des travaux, nb de calories qu’une personne a absorbé en une journée, nb de bouchées mises pour finir son assiette au cours d’un repas, nb de pas effectué par une personne (active, bien portante) en une journée ; nb de cheveux sur la tête d’une personne (non chauve), nb de mots dans la copie d’un élève, nb de taches sur un dalmatien, nb de pixels dans une image, niveaux de couleur RGB dans une image digitale,... ; tout ce qui est le résultat d’un "jeu de hasard" ou d’un jeu de type casino : lancers de pièces (nb de Pile dans une série de lancers de pièce), tirages dans un jeu de cartes (nb de Carreaux sur 3 cartes tirées au hasard dans un paquet de cartes), tirage dans une urne (nb de boules rouges tirées dans une urne contenant des boules rouges et des boules bleues dans une certaine proportion initiale), roulette, machine à sous, blackjack, poker, tous les jeux de type marche aléatoire (on déplace un pion de 1 en 1 vers la gauche ou vers la droite suivant le résultat d’un Pile ou Face) 6/102 Continue : variable numérique pouvant prendre des valeurs arbitraires dans un ensemble continu (seule la précision de l’appareil de mesure/l’unité choisie/le nombre de chiffres significatifs choisi est limitante) Exemples : montants : prix, dépenses, revenus,...... Rq : l’unité d’un montant en euros est le centime, ce qui en fait a priori une grandeur "discrète" (il n’y a pas de montant possible entre 0.01 et 0.02 euros), mais si l’on change d’unité (de devise) on obtient a priori une grandeur "continue" : par ex, 1 euro = 1,0954713... USD (14/01/24 à 00h00). Donc par convention, en dehors des situations de taux/montants exposées dans le cas discret ci-dessus, on considèrera un montant comme étant une variable continue. toutes les grandeurs physiques : longueur (ex : la taille ou la circonférence d’un arbre)/surface/volume/durée (si précision suffisante) (ex : temps dans une file d’attente, temps de parole à l’Assemblée Nationale au milieu du brouhaha, temps de fonctionnement d’une ampoule électrique) /masse (ex : d’une personne, d’un animal, d’un hamburger)/intensité/une pression (pression sanguine d’une personne, pression des pneus d’un véhicule...)/un débit, l’endroit précis où arrive un (petit) projectile (fléchette, flèche, balle, etc...)... ↝ De manière générale, toutes les grandeurs physiques varient entre les individus, et varient pour un même individu, au cours du temps, ou même de manière "infinitésimale" à deux instants très proches, avec la précision de l’appareil de mesure choisi : on pourra donc toujours les considérer comme ayant un caractère intrinséquement aléatoire. 7/102 Discret ou Continu ? Remarques : ⋆ Variable quantitative discrète ou continue ? En informatique, une variable n’est jamais vraiment continue ! Pour représenter une variable continue, il faudrait pouvoir stocker en mémoire un nombre avec une infinité de chiffres après la virgule, ce qui n’est pas possible (et de tte manière il n’existe pas d’appareil de mesure permettant d’atteindre une telle précision...). Comment différencier alors variable quantitative discrète et continue ? Convention : si le nombre de valeurs prises est supérieur à 10% de la taille de la population étudiée, et que ce nombre est a priori limité uniquement par la précision de l’appareil de mesure utilisé/de l’unité utilisée alors la variable est continue. Dans les faits, si une variable discrète prend un très grand nombre de valeurs (typiquement, supérieur au seuil de 10% de la taille de la population étudiée, si la taille de la population est grande, disons supérieure à 100) , on la traitera de la même manière qu’une variable continue, càd en procédant à des regroupements en tranches de valeurs prises. 8/102 Types de variables (suite) Qualitative : variable représentant une catégorie (= categorical variable) possiblement codée numériquement mais pr laquelle les opérations numériques usuelles (moyenne,...) n’ont pas de sens Binaire = Dichotomique = Booléenne : variable qui ne peut prendre que deux "valeurs" (vrai/faux, oui/non, 1/0, présence/absence, réussite/échec,...) Nominale : variable qui représente une catégorie sans notion d’ordre/de hiérarchie Exemples : couleur, forme, lieu (adresse, code postal), activité/profession, matière, espèce, numéro/identifiant attribué au hasard... Ordinale : variable qui représente une catégorie avec une notion d’ordre/de hiérarchie Exemples : date, niveau (insuffisant/AB/B/TB/excellent ; pas satisfait/satisfait/très satisfait, bébé/enfant/ado/adulte, petit(S)/moyen(M)/grand(L),...), numéro (de client classé par date d’enregistrement), grade/échelon, tranches/intervalles ordonnés... On appelle modalités l’ensemble des "valeurs" prises par une variable qualitative. Dans ce Chapitre 1, les seules variables qualitatives que nous considèrerons seront les variables binaires, et nous les assimilerons à des variables discrètes. 9/102 Remarques : Discret ou Continu ? Remarque : (Lien entre "discret" et "continu" : discret quand le nombre de joueurs est petit et le temps entre deux parties est grand, continu quand le nombre de joueurs est grand et le temps entre deux parties est petit) ↝ (Continu) cela conduit lorsque les pas ne sont pas de 1 mais d’une longueur infinitésimale au concept de mouvement browninen (à l’origine déplacement "chaotique" des particules de pollen à la surface de l’eau) Les "jeux" où interviennent un grand nombre de joueurs poursuivant chacun une stratégie et intéragissant entre eux : marchés financiers ↝ évolution du prix des actifs, des taux, etc... ↝ Discret quand le nb de jours est petit, et les échanges rares, continu quand le nombre de joueurs devient très grand et les échanges très courants 10/102 Partie B : Découverte d’un jeu de données & Choix d’un modèle Nous étudions, dans ce Chapitre 1, une variable V, soit quantitative, discrète ou continue, soit qualitative binaire, mais que nous assimilerons alors à une variable discrète à deux issues. Nous présentons maintenant deux situations "concrètes" pour lesquelles nous allons procéder à une Estimation statistique. 11/102 Premier exemple : un syndic gérant un grand nombre d’immeubles hausmanniens parisiens identiques, voyant les problèmes d’ascenseurs s’accumuler dans son parc immobilier, décide d’essayer d’en savoir plus pour pouvoir adapter en conséquences les contrats d’entretien souscrits. Il sélectionne au hasard vingt des immeubles qu’il gère et comptabilise, sur une période d’un an et pour chacun de ces immeubles, le nombre de pannes de l’ascenseur de l’immeuble en question. Voici la série des valeurs relevées : [4 2 7 5 5 5 5 6 3 5 4 5 2 7 2 9 9 3 5 1] Le syndic souhaiterait à présent s’appuyer sur ces valeurs pour répondre aux questions suivantes : Combien de fois par an un ascenseur tombe-t-il en panne en moyenne ? Quelle est la probabilité qu’il ne tombe pas en panne une seule fois au cours de l’année ? Quelle est la probabilité qu’il tombe plus de 7 fois en panne par an ? Et de manière plus générale : quelle est la distribution de probabilité du nombre de pannes par an d’un de ces ascenseurs ? 12/102 Second exemple : Une usine fabrique en série des pièces pour des moteurs électriques dont le diamètre est censé faire 6 millimètres. Face à des réclamations des clients auxquels sont destinés ces pièces, le responsable de l’usine décide de procéder à un audit du mode de fabrication : il sélectionne au hasard n = 25 pièces et mesure leur diamètre. Il obtient les valeurs suivantes : [6.16 6.01 6.02 5.99 5.8 6.01 5.85 6.02 5.94 6.11 5.98 6. 5.89 6.06 5.98 6.06 6.08 6.08 5.98 5.81 5.88 6.08 6.1 6.13 5.95] Cela ne l’étonne pas que les valeurs ne soient pas exactement de 6, étant donné qu’il y a toujours une petite imprécision dans la fabrication due à de multiples facteurs (inhomogénéité de la matière dans laquelle est fabriquée la pièce, précision finie de la machine la fabricant, etc...). Il souhaiterait déterminer un seuil de diamètre correspondant à l’écart vis-à-vis de 6 à partir duquel il semble plus judicieux de supprimer la pièce en question plutôt que de la vendre. Ce seuil ne doit ni être trop petit car cela entraînerait des pertes importantes pour l’usine, ni trop grand car cela réduirait à néant les efforts mis en place pour contenter les clients. Pour cela il voudrait estimer la déviation vis à vis de 6 de l’ensemble des pièces produites. 13/102 Etape 1 de l’étude de la série de valeurs : Répondre aux questions suivantes : comment les données ont-elles été obtenues ? dans quel contexte ? (c’est essentiel pour l’interprétation des données !) ds le 1er ex : "étude de terrain" (comptabilisation) ; ds le 2ème ex : "étude de terrain" (mesures) ; qui sont les individus ? : ds le 1er ex : les ascenseurs des immeubles sélectionnés ; ds le 2ème ex : les pièces fabriquées par l’usine ; quelle est la taille de l’échantillon càd le nombre d’individus ? ↝ serie.size ds le 1er ex : n = 20 ds le 2ème ex : n = 25 ↝ si le nb d’individus est "plutôt petit", par ex n ≤ 30, nous nous contenterons d’une étude statistique non-asymptotique ; tandis que si le nombre d’individus est "plutôt grand", par ex n > 30, nous pourrons également faire une étude statistique asymptotique. 14/102 quelle est la variable d’intérêt ? ds le 1er ex : le nombre de panne d’un ascenseur sur un an ; ds le 2ème ex : la taille d’une pièce en millimètres ; Quel est son type ? ds le 1er ex : quantitatif discret (nombre sur un an) ; ds le 2ème ex : quantitatif continu (mesure physique) ; 15/102 quel est le support de la série de valeurs prises ici par cette variable ? autrement dit quelles sont les valeurs prises par cette variable dans la série ? ↝ Valeurs prises : serie.valuecounts().index Rq : serie.valuecounts() renvoie à la fois les valeurs prises, et le nombre de fois où chaque valeur est prise (c-à-d l’effectif) ds le 1er ex : les valeurs distinctes sont 1, 2, 3, 4, 5, 6, 7, 9 ds le 2ème ex : quasiment toutes les valeurs sont distinctes, la valeur minimale est 5.8 et la valeur maximale est 6.16 ; quel est le support "général" de cette variable ? autrement dit, de manière générale par rapport au contexte, quelles sont les valeurs qui pourraient être prises par cette variable ? ds le 1er ex : disons si l’on se limite à une panne de l’ascenseur par jour, tous les entiers entre 0 et 365 ds le 2ème ex : on ne peut pas le savoir avec précision, mais il paraît raisonnable de penser que le support est compris strictement entre 5 et 7, et que la variable peut prendre toutes les valeurs de ce support ; 16/102 Etape 2 : de l’étude statistique de la série de valeurs : Effectifs & Fréquences (cumulé(e)s et/ou par classes) Diagrammes en bâtons/Histogrammes & Fonction de répartition empirique ↝ On cherche à représenter graphiquement les données de manière à comprendre comment se répartissent les valeurs au sein de la série, et pouvoir ensuite partir à la recherche d’une loi de probabilité sous-jacente aux données Pour cela nous avons besoin de répondre aux questions suivantes : Quels sont : les effectifs (resp. fréquences) de ces valeurs, si la variable est discrète (et ne prend qu’un petit nb de valeurs si la taille de la population est grande) les effectifs par classe (resp. fréquences par classe) de ces valeurs, si la variable est continue (ou discrète mais prenant un grand nb de valeurs pour une taille de population importante) Quelle(s) représentation(s) graphique(s) des données choisir de manière à maximiser la lisibilité des données et l’utilité de cette rep. graph. pour la comparaison avec des lois de probabilités ? Dans toute cette Etape 2, on note serie = x = (x1 ,... , xn ) 17/102 Effectifs & Fréquences (Cumulés) : var. discrète Si notre variable est discrète (et ne prend qu’un petit nombre de valeurs) , on note n0 ∈ J1, nK le nombre de valeurs distinctes parmi les valeurs x1 ,... , xn Rq : on suppose donc que n0 ≤ 10% × n si n > 100 ↝ pr obtenir n0 : serie.valuecounts().size ou len(serie.valuecounts()) v1 ,... , vn0 ces valeurs distinctes ordonnées càd tq v1 <... < vn0 ↝ nous avons déjà vu que le vecteur (v1 ,... , vn0 ) est obtenu par : serie.valuecounts().sortindex().index pr tt k ∈ J1, n0 K , l’effectif (= frequency) ek de la valeur vk (resp. la fréquence (= proportion = rate) fk de la valeur vk ) est le nb de fois où la valeur vk apparaît dans la série (resp. le nb de fois où la valeur vk apparaît dans la série divisé par le nombre total d’observations) : n ek ∶= ∑ 1{vk } (xi ) = Card( {i ∈ J1, nK ; xi = vk } ) , i=1 fk ∶= ↝ pr obtenir le vecteur des effectifs (e1 ,... en0 ) : serie.valuecounts().sortindex() ↝ pr obtenir le vecteur des fréquences (f1 ,... fn0 ) : serie.valuecounts(normalize=True).sortindex() 18/102 ek n pr tt k ∈ J1, n0 K , l’effectif cumulé (= cumulative frequency) ẽk de la valeur vk (resp. la fréquence cumulée (= cumulative proportion) f˜k de la valeur vk ) est le nb de fois où apparaît dans la série une valeur inférieure ou égale à vk (resp. ce nb de fois divisé par le nombre total d’observations n) : k ẽk ∶= ∑ eℓ , f˜k ∶= ℓ=1 ẽk n k = ∑ fℓ ℓ=1 (en particulier, ẽn0 = n et f˜n0 = 1) ↝ pr obtenir le vecteur des effectifs cumulés (ẽ1 ,... ẽn0 ) : serie.valuecounts().sortindex().cumsum() ↝ pr obtenir le vecteur des fréquences cumulées (f˜1 ,... f˜n0 ) : serie.valuecounts(normalize=True).sortindex().cumsum() Rq : les effectifs & effectifs cumulés (resp. les fréquences & fréquences ) cumulées) sont à valeurs ds J0, nK ⊂ N (resp. {0, n1 , n2 ,... , n−1 n , 1} ⊂ [0, 1] Premier ex : [4 2 7 5 5 5 5 6 3 5 4 5 2 7 2 9 9 3 5 1] (ascenseurs) n = 20, n0 = 8, v1 = 1 < v2 = 2 < v3 = 3 < v4 = 4 < v5 = 5 < v6 = 6 < v7 = 7 < v8 = 9 19/102 Rq : Nous pouvons reformuler sous forme d’application et généraliser les effectifs sous forme d’application de Rn → J0, nKR par : n Seff ∶ (x1 ,. , xn ) ∈ Rn ↦ (Seff (x1 ,. , xn ) ∶ v ∈ R ↦ ∑ 1{v } (xi ) ) i=1 ∀v ∈ R, si ∃k ∈ J1, n0 K tq v = vk , alors Seff (x1 ,. , xn )(v ) = ek , et, si v ∈ R/ {v1 ,. , vn0 }, alors Seff (x1 ,. , xn )(v ) = 0 les fréquences R sous forme d’application de Rn → {0, n1 , n2 ,... , n−1 , 1} n Sfreq ∶ (x1 ,. , xn ) ∈ Rn ↦ (Sfreq (x1 ,. , xn ) ∶ v ∈ R ↦ 1 n par : n ∑ 1{v } (xi ) ) i=1 ∀v ∈ R, si ∃k ∈ J1, n0 K tq v = vk , alors Sfreq (x1 ,. , xn )(v ) = fk , et, si v ∈ R/ {v1 ,. , vn0 }, alors Sfreq (x1 ,. , xn )(v ) = 0 les effectifs cumulés sous forme d’application de Rn → J0, nKR par : Seffcum ∶ (x1 ,. , xn ) ∈ Rn n ↦ (Seffcum (x1 ,. , xn ) ∶ v ∈ R ↦ ( ∑ 1]−∞;v ] (xi )) 1{x1 ,...,xn } (v ) ) i=1 ∀v ∈ R, si ∃k ∈ J1, n0 K tq v = vk , alors Seffcum (x1 ,. , xn )(v ) = ẽk , et, si v ∈ R/ {v1 ,. , vn0 }, alors Seffcum (x1 ,. , xn )(v ) = 0 les fréquences cumulées Sfreqcum ∶ (x1 ,. , xn ) ∈ Rn R , 1} sous forme d’application de Rn → {0, n1 , n2 ,... , n−1 n par : n ↦ (Sfreqcum (x1 ,. , xn ) ∶ v ∈ R ↦ ( n1 ∑ 1]−∞;v ] (xi )) 1{x1 ,...,xn } (v ) ) i=1 ∀v ∈ R, si ∃k ∈ J1, n0 K tq v = vk , alors Sfreqcum (x1 ,. , xn )(v ) = f˜k , et, si v ∈ R/ {v1 ,. , vn0 }, alors Sfreqcum (x1 ,. , xn )(v ) = 0 20/102 Diagramme en bâtons : variable discrète Diagrammes en bâtons (= bar chart) des effectifs/effectifs cumulés/fréquences/ fréquences cumulées : sur l’axe des abscisses, on place les valeurs prises par la variable ; pour chaque valeur, on trace une barre verticale dont la hauteur en ordonnée correspond soit à l’effectif/l’effectif cumulé/la fréquence/la fréquence cumulée de cette valeur. ↝ commande sns.barplot(nativescale=True) avec en entrée : ⋆serie.valuecounts().sortindex() si l’on veut les effectifs ⋆serie.valuecounts().sortindex().cumsum() si l’on veut les effectifs cumulés, ⋆serie.valuecounts(normalize=True).sortindex() si l’on veut les fréquences ⋆serie.valuecounts(normalize=True).sortindex().cumsum() si l’on veut les fréquences cumulées On peut aussi utiliser la commande sns.countplot(nativescale=True) (attention : version v.0.13.0 de Seaborn) avec ⋆ stat="count" si l’on veut les effectifs, ⋆ stat="proportion" si l’on veut les fréquences 21/102 Premier ex : [4 2 7 5 5 5 5 6 3 5 4 5 2 7 2 9 9 3 5 1] (ascenseurs) Nb de valeurs dans la série = Nb d’individus = Taille de l’échantillon ↝ n = 20 Valeurs distinctes v1 = 1 < v2 = 2 < v3 = 3 < v4 = 4 < v5 = 5 < v6 = 6 < v7 = 7 < v8 = 9 , d’où nb de valeurs distinctes ↝ n0 = 8 22/102 Partition en classes : variable continue Si notre variable est continue (ou discrète mais prenant un grand nombre de valeurs et que la population totale est grande) , on va alors regrouper les valeurs possibles de cette variable dans des classes (= bins) ↝ on parlera de partition en classes (= binning, bucketing ou aggregation) car on va découper l’intervalle [min(x ) ; max(x )] en une réunion finie d’intervalles (les classes) deux à deux disjoints. On choisit pour cela : K ∈ N⋆ le nombre de classes I1 ,... , IK des intervalles de R "ordonnés par ordre croissant" K tel que : ⋃ Ik = [min(x ) ; max(x )] et 1 ≤ k ≠ k ′ ≤ K ⇒ Ik ∩ Ik ′ = ∅ k=1 ↝ la famille d’intervalles (Ik )k∈J1,K K est une partition de [min(x ) ; max(x )] Si l’on définit deux intervalles supplémentaires I0 et IK +1 resp. strictement à gauche et strictement à droite de (Ik )k∈J1,K K tq K +1 ⋃ Ik = R, la famille d’intervalles (Ik )k∈J0,K +1K est alors une partition de R tout entier. k=0 23/102 Le choix d’une partition en classes "adaptée aux données" est complexe et déterminant pour l’interprétation ensuite des indicateurs numériques et des graphiques... Deux choix de partition différents peuvent conduire à des résultats très différents. Dans ce cours, nous nous restreindrons au cas de partitions constituées d’intervalles de même longueur. Il ne reste donc à choisir que le nombre K d’intervalles, ou ce qui revient au (max(x)−min(x)) même le pas (= step) : h = K Convention : nous considérerons (par simplicité, parce que c’est le choix par défaut dans Python) I1 comme fermé càd I1 = [min(x ) ; min(x ) + h] I2 ,... , IK comme semi-fermés à droite : Ik =]min(x ) + (k − 1) × h ; min(x ) + k × h] Remarque : et donc I0 =] − ∞ ; min(x )[ et IK +1 =]max(x ) ; +∞[ Comment choisir K ? 24/102 Choix usuels pour le pas h, conduisant au nombre de classes (max(x)−min(x)) K =⌈ ⌉ (↝ K = np.ceil((max(x) - min(x)) / h) ) : h h ∶= (max(x)−min(x)) √ n ↝ h = (max(x) - min(x)) / np.sqrt(n) Second ex (diamètres) : √ n = 25, max(x ) = 6.16, min(x ) = 5.8, max(x ) − min(x ) = 0.36, n = 5, 0.36 d’où h = 0.36 5 = 0.072 et K = ⌈ 0.072 ⌉ = ⌈5⌉ = 5 (max(x)−min(x)) h = hSturges ∶= (dit méthode de Sturges) log2 (n)+1 ↝ h = (max(x) - min(x)) / (np.log2(n) + 1) Second ex (diamètres) : log2 (n) ≃ 4.644 et max(x ) − min(x ) = 0.36, 0.36 0.36 d’où h ≃ 4.644+1 ≃ 0.064 et K ≃ ⌈ 0.064 ⌉ ≃ ⌈5.644⌉ = 6 h = hFreedman-Diaconis ∶= 2 IQR(x ) , n1/3 (dit méthode de Freedman-Diaconis) où IQR(x ) est l’écart inter-quartile de x : nous verrons plus loin la définition de IQR(x ) h = hopt ∶= max (hSturges ; hFreedman-Diaconis ) ( ↝ c’est la méthode par défaut de Python ) Second ex (diamètres) : h = 0.072 et K = 5 ↝ ce sont ces valeurs que l’on va utiliser 25/102 Partition en classes en Python : pour créer les classes : serieclasses = pandas.cut(np.sort(serie), bins=K, includelowest=True).categories Remarque : includelowest = True donne que la borne inférieure de la partition est un arrondi de min(x) - 0.1%.(max(x) - min(x) + 1 "unité" ) de manière à ce que min(x) soit bien pris en compte pour créer le vecteur breaks contenant les "bords" de la partition choisie (= bin edges) , càd en notant h le pas, breaks = (min(x ), min(x) + h,... , min(x) + K.h = max(x )) soit breaks = np.arange(min(x)-eps, max(x), step=h) avec eps marge très petite soit breaks = np.linspace(min(x)-eps, max(x), num=K+1) avec eps marge très petite soit seriebreaks = [] for k in range(len(serieclasses)): seriebreaks += [serieclasses[k].left] seriebreaks += [serieclasses[-1].right] Second ex (diamètres) : h = 0.072 et K = 5 , donc les bords des classes sont [5.8 5.872 5.944 6.016 6.088 6.16 ] et les classes sont [(5.799, 5.872], (5.872, 5.944], (5.944, 6.016], (6.016, 6.088], (6.088, 6.16]] 26/102 Effectifs & Fréquences (cumulés) par classe : variables continues Pour tout k ∈ J1, K K, nous définissons : l’effectif (= frequency) ek de la classe Ik (resp. la fréquence (= proportion = fk de la classe Ik ) comme le nb de valeurs de la série appartenant à Ik (resp. comme ce nb divisé par le nombre total d’observations) : rate) n ek ∶= ∑ 1Ik (xi ) = Card( {i ∈ J1, nK; xi ∈ Ik } ) , fk ∶= i=1 ek n ↝ le vecteur des effectifs (e1 ,... eK ) est obtenu par : serie.valuecounts(bins=K).sortindex() ↝ le vecteur des fréquences (f1 ,... fK ) est obtenu par : serie.valuecounts(bins=K, normalize=True).sortindex() 27/102 l’effectif cumulé (= cumulative frequency) ẽk de la classe Ik (resp. la fréquence cumulée (= cumulative proportion) f˜k de la classe Ik ) comme le nb de valeurs de la série appartenant à Ik ′ pour 1 ≤ k ′ ≤ k (resp. ce nb divisé par le nombre total d’observations n) : k ẽk ∶= ∑ eℓ , f˜k ∶= ℓ=1 ẽk n k = ∑ fℓ ℓ=1 (en particulier, ẽK = n et f˜K = 1) ↝ le vecteur des effectifs cumulés (ẽ1 ,... ẽK ) est obtenu par : serie.valuecounts(bins=K).sortindex().cumsum() ↝ le vecteur des fréquences cumulées (f˜1 ,... f˜K ) est obtenu par : serie.valuecounts(bins=K, normalize=True).sortindex().cumsum() Rq : les effectifs & effectifs cumulés (resp. les fréquences & fréquences ) cumulées) sont à valeurs ds J0, nK ⊂ N (resp. {0, n1 , n2 ,... , n−1 n , 1} ⊂ [0, 1] Second ex (diamètres) : 28/102 Rq : Nous pouvons reformuler sous forme d’application et généraliser les effectifs sous forme d’application de Rn → J0, nKR par : K Seffclasse ∶ (x1 ,. , xn ) ∈ Rn ↦ (Seffclasse (x1 ,. , xn ) ∶ v ∈ R ↦ ∑ ek 1Ik (v ) ) k=1 ∪ si v ∈ Ik , pr k ∈ J1, K K, alors Seffclasse (x1 ,. , xn )(v ) = ek , et, si v ∈ R/ K Ik , alors Seffclasse (x1 ,. , xn )(v ) = 0 k=1 les fréquences R sous forme d’application de Rn → {0, n1 , n2 ,... , n−1 , 1} n par : K Sfreqclasse ∶ (x1 ,. , xn ) ∈ Rn ↦ (Sfreqclasse (x1 ,. , xn ) ∶ v ∈ R ↦ ∑ fk 1Ik (v ) ) k=1 K si v ∈ Ik , pr k ∈ J1, K K, alors Sfreqclasse (x1 ,. , xn )(v ) = fk , et, si v ∈ R/ ∪ Ik , alors Sfreqclasse (x1 ,. , xn )(v ) = 0 k=1 les effectifs cumulés sous forme d’application de Rn → J0, nKR Seffclassecum ∶ (x1 ,. , xn ) ∈ Rn par : K ↦ (v ∈ R ↦ ∑ ẽk 1Ik (v ) ) k=1 K si v ∈ Ik , pr k ∈ J1, K K, alors Seffclassecum (x1 ,. , xn )(v ) = ẽk , et, si v ∈ R/ ∪ Ik , alors Seffclassecum (x1 ,. , xn )(v ) = 0 k=1 les fréquences cumulées R , 1} sous forme d’application de Rn → {0, n1 , n2 ,... , n−1 n Sfreqclassecum ∶ (x1 ,. , xn ) ∈ Rn par : K ↦ (v ∈ R ↦ ∑ f˜k 1Ik (v ) ) k=1 K si v ∈ Ik , pr k ∈ J1, K K, alors Sfreqclassecum (x1 ,. , xn )(v ) = f˜k , et, si v ∈ R/ ∪ Ik , alors Sfreqclassecum (x1 ,. , xn )(v ) = 0 k=1 29/102 Histogramme en densité : variables continues L’histogramme en densité de la série de valeurs x = (x1 ,... , xn ) pour la partition en classes (Ik )k∈J1,K K de [min(x ) ; max(x )] est défini par : K fk 1Ik (v ) ) ∣I k=1 k ∣ Sdens ∶ (x1 ,. , xn ) ∈ Rn ↦ (Sdens (x1 ,. , xn ) ∶ v ∈ R ↦ ∑ où fk (resp. ∣Ik ∣) est la fréquence (resp. la longueur) de l’intervalle Ik ↝ cela revient à "normaliser" l’histogramme de manière à son aire soit 1 autrement dit à ce que l’aire sous la courbe représentative de Sdens (x1 ,. , xn ) soit égale à 1 ↝ sns.histplot(x = serie, bins=K, stat="density") Rappel : Si l’on ne précise pas quelle est la partition en classes, ou quel est le nombre de classes, seaborn détermine lui-même une partition optimale ( correspondant au pas h = max(hSturges ; hFreedman-Diaconis ) ). Remarque : Une autre fonction, plt.hist(), en plus d’afficher l’histogramme renvoie aussi les bin edges et les counts permet On peut également tracer les histogrammes des effectifs & fréquences (cumulé(e)s) par classes à l’aide des commandes : effectifs par classe ↝ sns.histplot(x = serie, bins=K, stat="count") fréquences par classe ↝ sns.histplot(x = serie, bins=K, stat="proportion") effectifs cumulés par classe ↝ sns.histplot(x = serie, bins=K, stat="count", cumulative=True) fréquences cumulées par classe ↝ sns.histplot(x = serie, stat="proportion", bins=K, cumulative=True) 30/102 Second ex (diamètres) : n = 25, K = 5 [6.16 6.01 6.02 5.99 5.8 6.01 5.85 6.02 5.94 6.11 5.98 6. 5.89 6.06 5.98 6.06 6.08 6.08 5.98 5.81 5.88 6.08 6.1 6.13 5.95] ∣I1 ∣ =... = ∣I5 ∣ = 0.072, f1 = f2 = 0.12, f3 = 0.32, f4 = 0.28, f5 = 0.16 31/102 Fonction de répartition empirique Enfin il existe une représentation graphique, qui est définie pour toutes les variables quantitatives, qu’elles soient discrètes ou continues, et qui permet de palier au problème du choix de la partition en classes/du nombre de classes inhérents aux histogrammes. Il s’agit de : la fonction de répartition empirique (= empirical cumulative distribution function = ecdf, également appelé cumulative histogram) : c’est la fonction en escalier n ̂x ∶ v ∈ R ↦ 1 ∑1]−∞;v ] (xi ) ) Secdf ∶ (x1 ,... , xn ) ∈ Rn ↦ (F n i=1 ↝ sns.ecdfplot(serie) Principe : Pour la représenter, on parcourt l’axe horizontal, des petites valeurs vers les grandes valeurs. À chaque fois que l’on rencontre une valeur qui est présente dans notre série de valeurs, on monte du nombre de marches correspondant au nombre de fois où cette valeur apparaît dans la série divisé par la taille de la population n. Remarque : il s’agit d’une sorte de diagramme des fréquences cumulées, pour les valeurs elles-mêmes, et non par classes, pour lequel on aurait "comblé les trous" entre les valeurs. 32/102 Premier ex (ascenseurs) x(i) ̂x (x(i) ) F x(i) ̂ Fx (x(i) ) : 1 2 2 2 3 3 4 4 5 5 1 n 4 n 4 n 4 n 6 n 6 n 8 n 8 n 15 n 15 n 9 1 9 1 5 5 5 5 5 6 7 7 15 n 15 n 15 n 15 n 15 n 16 n 18 n 18 n Attention : le graphe de gauche n’est pas à proprement parler la courbe représentative d’une fonction à cause des segments verticaux ; dans le graphe de droite, la "vraie" fonction de répartition empirique est en rouge. 33/102 Second ex (diamètres) : [5.8, 5.81, 5.85, 5.88, 5.89, 5.94, 5.95, 5.98, 5.98, 5.98, 5.99, 6.0, 6.01, 6.01, 6.02, 6.02, 6.06, 6.06, 6.08, 6.08, 6.08, 6.1, 6.11, 6.13, 6.16] Attention, même rq que pour le cas discret : le graphe de gauche n’est pas à proprement parler la courbe représentative d’une fonction à cause des segments verticaux ; dans le graphe de droite, la "vraie" fonction de répartition empirique est en rouge. 34/102 Etape 3 de l’étude statistique de la série de valeurs : indicateurs numériques ↝ nous renvoyons au polycopié A2S4 Introduction aux Statistiques sur DeVinciLearning pour un exposé complet sur la question. Ici serie = x = (x1 ,... , xn ) "indicateurs d’ordre" : minimum de x , noté min(x ) = min(x1 ,... , xn ) ↝ serie.min() ; maximum de x , noté max(x ) = max(x1 ,... , xn ) ↝ serie.max() k ème plus petite valeur dans l’échantillon réordonné, notée x(k) ↝ np.sort(serie)[k-1] d’où en particulier x(1) = min(x ) et x(n) = max(x ) Rq : on peut aussi utiliser serie.sortvalues() Cette fct a pr paramètres par défaut inplace=False, ignoreindex=False, autrement dit la fct ne modifie pas x mais crée une nouvelle série avec les données triées et chaque valeur conserve son index d’origine ; d’où l’utilisation de inplace=False si l’on veut modifier x , et ignoreindex=True si l’on veut que la série triée soit indexée de 0 à n − 1. Ex de série de valeurs réordonnée : si x = (−2.18, 4.75, 0.97, −1.32, 3.14), on a : x(1) = −2.18 = x1 , x(2) = −1.32 = x4 , x(3) = 0.97 = x3 , x(4) = 3.14 = x5 , x(5) = 4.75 = x2 Par contre, si x = (−2.18, 4.75, 0.97, −1.32, 0.97), on a : x(1) = −2.18 = x1 , x(2) = −1.32 = x4 , x(3) = x(4) = 0.97 = x3 = x5 , x(5) = 4.75 = x2. 35/102 Retour au 1er exemple (les pannes d’ascenseurs) : numéro i xi x(i) numéro i xi x(i) 1 4 1 11 4 5 2 2 2 12 5 5 3 7 2 13 2 5 4 5 2 14 7 5 5 5 3 15 2 5 6 5 3 16 9 6 7 5 4 17 9 7 8 6 4 18 3 7 9 3 5 19 5 9 10 5 5 20 1 9 ↝ le nombre minimal de pannes sur un an pour un ascenseur est x(1) = 1 ; ↝ le nombre maximal de pannes sur un an pour un ascenseur est x(20) = 9 ; ↝ le 14ème plus petit nb de pannes sur un an pr un ascenseur est x(14) = 5 ; Retour au 2ème exemple (le diamètre des pièces usinées) : numéro i xi x(i) numéro i xi x(i) 1 6.16 5.8 14 6.06 6.01 2 6.01 5.81 15 5.98 6.02 3 6.02 5.85 16 6.06 6.02 4 5.99 5.88 17 6.08 6.06 5 5.8 5.89 18 6.08 6.06 6 6.01 5.94 19 5.98 6.08 7 5.85 5.95 20 5.81 6.08 8 6.02 5.98 21 5.88 6.08 9 5.94 5.98 22 6.08 6.1 10 6.11 5.98 23 6.1 6.11 ↝ le diamètre minimal d’une pièce est x(1) = 5.8 ; ↝ le diamètre maximal d’une pièce est x(25) = 6.16 ; ↝ le 11ème plus petit diamètre d’une pièce est x(11) = 5.99 ; 36/102 11 5.98 5.99 24 6.13 6.13 12 6. 6. 25 5.95 6.16 13 5.89 6.01 "indicateurs d’ordre" (suite) : quantile théorique de niveau α ∈]0, 1[ défini par ̂x (v ) ≥ α} ̂ qα ∶ x = (x1 ,... , xn ) ↦ ̂ qαx = ̂ qα (x ) ∶= inf {v ∈ R ; F ↝ np.quantile(serie, α, method=’invertedcdf’) premier quartile théorique défini par ̂x (v ) ≥ 1 } ̂ q 1 ∶ x = (x1 ,... , xn ) ↦ ̂ qαx = ̂ q 1 (x ) ∶= inf {v ∈ R ; F 4 4 4 troisième quartile théorique défini par ̂x (v ) ≥ 3 } ̂ q 3 ∶ x = (x1 ,... , xn ) ↦ ̂ qαx = ̂ q 3 (x ) ∶= inf {v ∈ R ; F 4 4 Premier ex 37/102 (ascenseurs) 4 : fonction quantile théorique Second ex 38/102 (diamètres) : fonction quantile théorique indicateurs de tendance centrale : moyenne usuelle (= arithmetic mean) Smoy ∶ x = (x1 ,... , xn ) ↦ 1 n , définie par n ∑ xi et que l’on notera x i=1 ↝ serie.mean() Premier ex (ascenseurs) : x = 4.7 Second ex (diamètres) : x = 5.9988 médiane théorique définie par Smedtheor ∶ x = (x1 ,... , xn ) ↦ ̂ q x1 2 ↝ np.quantile(serie, 1/2, method="invertedcdf") Premier ex (ascenseurs) : ̂ q x1 = 5 Second ex 2 (diamètres) :̂ q x1 = 6.01 2 Rq : lorsque n est impair, la médiane théorique coincide avec la médiane usuelle, ce qui n’est plus forcément le cas lorsque n est pair. 39/102 indicateurs de tendance centrale (suite) médiane (= median) usuelle, que l’on notera Med(x ) correspond donc à la valeur qui sépare la moitié inférieure et la moitié supérieure de la série réordonnée ↝ serie.median() si n est impair : Med(x ) ∶= x( n+1 ) , c-à-d la valeur du milieu de 2 la série réordonnée x( n ) +x( n +1) , c-à-d la moyenne des deux si n est pair : Med(x ) ∶= 2 2 2 valeurs du milieu de la série réordonnée Premier ex (ascenseurs) : Med(x ) = 5 Second ex (diamètres) : Med(x ) = 6.01 Rq : lorsque n est impair, la médiane théorique coincide avec la médiane usuelle, ce qui n’est plus le cas quand n est pair. Exemple de calculs de médiane : pour x = (−2.18, 4.75, 0.97, −1.32, 3.14), n = 5 est impair, donc Med(x ) = x( n+1 ) = x(3) = 0.97, et c’est aussi la médiane théorique ; 2 pour x = (−2.18, 4.75, 0.97, −1.32), n = 4 est pair, donc x( n ) +x( n +1) x +x (−1.32)+0.97 Med(x ) = 2 2 2 = (2) 2 (3) = = −0.175, alors que la 2 médiane théorique est −1.32 40/102 Indicateurs de dispersion : L’écart-type défini√ par n 1 2 Ssd ∶ x = (x1 ,... , xn ) ∈ Rn ↦ σ̂x ∶= n ∑ (xi − x ) (= standard deviation) i=1 ↝ serie.std(ddof=0) ou np.std(serie) La variance (= variance) définie par Svar ∶ x = (x1 ,... , xn ) ∈ Rn ↦ σ̂x2 ∶= 1 n n ∑ (xi − x )2 i=1 ↝ serie.var(ddof=0) L’étendue (= range) définie par Srange ∶ x = (x1 ,... , xn ) ∈ Rn ↦ max(x ) − min(x ) ↝ serie.max() - serie.min() ou np.ptp(serie) (ptp pour peak to peak) L’écart inter-quartile (HP) (= inter-quartile range also known as IQR) défini par SIQR ∶ x = (x1 ,... , xn ) ∈ Rn ↦ serie.quantile(3/4) serie.quantile(1/4) Il s’agit des quartiles usuels (obtenus grâce à des formules similaires à celle de la médiane usuelle) et non pas des quartiles théoriques vus précédemment. 41/102 Exemple de calculs de statistiques de dispersion : pour x = (−2.18, 4.75, 0.97, −1.32, 3.14) l’étendue est 4.75 − (−2.18) = 6.93 2 σ̂ (x ) = 2 car x = ((−2.18) − 1.072) (0.97 − 1.072) 2 + + 5 5 5 2 2 ((−1.32) − 1.072) (3.14 − 1.072) + + 5 5 (−3.252)2 3.6782 (−0.102)2 (−2.392)2 2.0682 + + + + = 5 5 5 5 5 34.11188 = 6.822376 = 5 (−2.18)+4.75+0.97+(−1.32)+3.14 5 σ̂(x ) ≃ 2.612 42/102 2 (4.75 − 1.072) = 1.072 Premier ex (ascenseurs) : l’étendue est de 8 la variance est d’environ : 4.853 l’écart-type est d’environ 2.203 (HP) l’écart inter-quartile est de 2.25 Second ex (diamètres) : l’étendue est de 0.36 la variance est d’environ : 0.0094 l’écart-type est d’environ 0.0967 (HP) l’écart inter-quartile est de 0.13 43/102 Propriétés de la moyenne & de la variance Pour α, β, γ ∈ R et x = (x1 ,. , xn ), y = (y1 ,. , yn ) ∈ Rn La moyenne est linéaire : αx + βy + γ(1,... , 1) = α x + β y + γ n n i=1 i=1 ∑ (xi − x ) = ∑ xi − nx = nx − nx = 0, et x − x (1,. , 1) = 0 ↝ on dit que x − x (1,. , 1) = (x1 − x ,... , xn − x ) est centrée 2 2 2 La variance est quadratique : σ̂αx +β(1,. ,1) = α σx 2 2 2 σαx +βy = α σx + 2 α β 1 n n ∑ (xi − x )(yi − y ) + β 2 σy2 i=1 2 2 Cela implique en particulier : σβ(1,. ,1) = 0 ; σx = 0 ⇔ x1 =... = xn ; et, si σ̂x2 ≠ 0 σ 2x = 1 ↝ on dit que σxx est réduite σx ↝ en combinant les deux, on a x −x (1,. ,1) σ̂x centrée-réduite Attention : ces propriétés sont à connaître par coeur ↝ erreur ⇒ −1/20 Remarque : x = argmin 44/102 u∈R 1 n n n 1 ∑ (xi n u∈R i=1 ∑ (xi − u)2 et σ̂x2 = min i=1 − u)2 Remarques : La moyenne est sensible aux valeurs extrêmes : x = argmin u∈R 1 n n ∑ (xi − u)2 , i=1 donc les valeurs éloignées de la moyenne ont un poids très important dans le calcul de x la médiane est plus robuste : un changement des valeurs extrêmes ne l’affecte pas et elle vérifie Med(x ) ∈ argmin σ̂(x ) est de la même unité que x ; u∈R 1 n n ∑ ∣xi − u∣ i=1 ↝ La commande serie.describe donne le résumé numérique suivant de la série de valeurs : le nombre d’individus, la moyenne, l’écart-type, le minimum et le maximum, les 1er & 3ème quartiles usuels, et la médiane usuelle Rq (HP) : Il y a encore un autre type d’indicateurs numériques, les indicateurs de forme : coefficient de symétrie (skewness), coefficient d’aplatissement (kurtosis) ; 45/102 ↝ Suivre les Etapes 1, 2, & 3 permet normalement d’éliminer certaines des lois de probabilité ci-dessous comme candidats potentiels pour la loi de probabilité sous-jacente de notre échantillon, c-à-d la loi de la variable considérée, en sachant que des valeurs qui ont une probabilité très petite de se réaliser pour ces lois peuvent être négligées (les lois écrites en petit sont bien sûr HP) Support discret à support fini : ↝ Bernoulli, Binomiale également : Uniforme discrète, Hypergéométrique, Zipf,... à support infini : ↝ Poisson, Géométrique, Support continu compact : ↝ Uniforme continue, Bêta,... semi-infini : R+ ↝ Exponentielle, Gamma, χ2 , Fisher également : Rayleigh, Pareto, Normale repliée, Log-Normale,... R : ↝ Normale, Student Cauchy, Laplace, Logistique,... 46/102 ,... Zêta, Binomiale Négative Premier ex (ascenseurs) : étant donné que l’on a affaire à un nombre de pannes d’un appareil sur une durée finie d’un an, on peut postuler que la loi sous-jacente est une loi de Poisson, puisque c’est précisément ces cas que modélise cette loi, et que l’on peut supposer que les ascenseurs d’un immeuble à l’autre se comportent de la même façon, et que le nb de pannes de l’ascenseur d’un immeuble n’influence pas le nb de pannes des ascenseurs des autres immeubles ↝ nous considérerons donc à présent que, pour cet exemple, les données x = (x1 ,... , xn ) sont une réalisation d’une observation X , n-échantillon i.i.d. de loi de Poisson P(λ) avec λ ∈ R⋆+ inconnu que l’on va donc chercher à estimer. Second ex (diamètres) : étant donné que l’on a affaire à des mesures du diamètre de pièces fabriquées en série, ce qui est donc une mesure physique avec une précision dépendant de l’appareil de mesure, que l’on sait que le diamètre est censé faire 6 millimètres, mais que des fluctuations autour de cette valeur sont possibles, et que l’on peut supposer que le processus de fabrication est censé être commun d’une pièce à l’autre, et qu’a priori la fabrication d’une pièce n’influence pas la fabrication des autres ↝ nous considérerons donc à présent que, pour cet exemple, les données x = (x1 ,... , xn ) sont une réalisation d’une observation X , n-échantillon i.i.d. de loi Normale N (6, σ 2 ) avec σ 2 ∈ R⋆+ inconnu que l’on va donc chercher à estimer. Remarque : les différents graphiques que nous avons tracés ne viennent pas infirmer ces deux hypothèses. 47/102 ↝ une fois que l’on a trouvé une famille potentielle de lois : si c’est une loi discrète, il faut : estimer les paramètres de la loi en déduire une estimation de la fonction de masse puis faire un test d’adéquation du χ2 (cf. Chapitre 2) si c’est une loi continue, il faut : estimer les paramètres de la loi en déduire une estimation de la densité tracer un diagramme quantile-quantile (q-q plot) tracer la fonction de répartition empirique, puis faire un test d’adéquation à une loi de Kolmogorov-Smirnov (KS) (cf. Chapitre 2) Rq : pour les lois normales (resp. exponentielles), on peut directement faire un test de KS d’adéquation à une famille de lois normales (resp. à une famille de lois exponentielles) ↝ cf. Feuille 2 de TD 48/102 Principe de l’Estimation Non-Paramétrique (HP) Dans le cas d’une variable quantitative continue, si l’on ne trouve pas de famille de lois de probabilité candidate pour être la loi de probabilité sous-jacente des données, il existe une méthode pour "lisser" l’histogramme et obtenir ainsi une approximation de la densité associée à la loi de la variable sans avoir fait d’hypothèse sur la loi de probabilité sous-jacente des données (autre qu’une certaine régularité de la densité) : 49/102 Partie B : Estimation ponctuelle Supposons donc à présent que l’on a une famille de lois de probabilité candidate pour être la loi de probabilité sous-jacente des données : on dit que l’on dispose alors d’un modèle pour nos données. On formalise cette notion de la manière générale suivante : Un modèle statistique est un triplet (E , E, F) où (E , E) est un espace probabilisable (E tribu sur l’ensemble E ) F est une famille de mesures de probabilités sur (E , E). Un modèle statistique (E , E, F) est dit paramétrique s’il existe : un ensemble connu Θ inclus dans Rp , pour un certain p ∈ N⋆ , une famille {Pθ }θ∈Θ de mesures de probabilités sur (E , E) paramétrée par Θ, tel que F = {Pθ }θ∈Θ. 50/102 Exemple de modèle statistique paramétrique "à 1 paramètre" (E , E) ∶= ( {0, 1} , P({0, 1}) ), F ∶= (Pθ )θ∈Θ où Θ ∶=]0, 1[⊂ R (p = 1), Pθ ∶= B(θ). Modèle statistique = ( {0, 1} , P({0, 1}), {B(θ)}θ∈]0,1[ ) ↝ ce modèle est appelé Modèle de Bernoulli Exemple de modèle statistique paramétrique "à 2 paramètres" (E , E) ∶= (R, B(R)), (E est la tribu des boréliens de R) F ∶= (P(µ,σ2 ) )(µ,σ2 )∈Θ où Θ ∶= R × R⋆+ ⊂ R2 (p = 2), P(µ,σ2 ) ∶= N (µ, σ 2 ). Modèle statistique = (R, B(R), {N (µ, σ 2 )}(µ,σ2 )∈R×R⋆ ) + ↝ ce modèle est appelé Modèle Gaussien 51/102 Premier ex (ascenseurs) ↝ modèle statistique paramétrique "à 1 paramètre" (E , E) ∶= (N, P(N)) F ∶= (Pλ )λ∈Θ où Θ ∶= R⋆+ ⊂ R (p = 1), Pλ ∶= P(λ). Modèle statistique = (N, P(N), {P(λ)}λ∈R⋆+ ) ↝ ce modèle est appelé Modèle de Poisson Second ex (diamètres) ↝ modèle statistique paramétrique "à 1 paramètre" (E , E) ∶= (R, B(R)) F ∶= (Pσ2 )σ2 ∈Θ où Θ ∶= R⋆+ ⊂ R (p = 1), Pσ2 ∶= N (6, σ 2 ). Modèle statistique = (R, B(R), {N (6, σ 2 )}σ2 ∈R⋆ ) + ↝ on peut appeler ce modèle "Modèle Gaussien d’espérance connue" 52/102 Un modèle statistique (E , E, F) qui ne peut pas se mettre sous forme paramétrique est dit (par défaut) non-paramétrique. ↝ (HP) dans ce cas, on se tournera plutôt vers des méthodes non-paramétriques utilisant la fonction de répartition empirique, ou, lorsque PF continue à densité, vers des méthodes d’estimation à noyaux de la densité (= kernel density estimation) Rq : étant donné qu’une loi de probabilité est caractérisée par sa fonction de répartition, on peut toujours "paramétrer" un ensemble de lois de probabilités par l’ensemble des fonctions de répartition associées, mais cet ensemble ne sera pas de dimension finie (au sens où il ne sera pas inclus dans un ensemble Rp ). Exemples de modèles statistiques non-paramétriques Exemple 1 : (E , E) ∶= (N, P(N)) et F ∶= ensemble des lois de probabilités sur (N, P(N)) admettant un moment d’ordre 1 fini. ↝ Modèle statistique = (N, P(N), F) Exemple 2 : (E , E) ∶= (R, B(R)) et F ∶= ensemble des lois de probabilités sur (R, B(R)) admettant un moment d’ordre 2 fini. ↝ Modèle statistique = (R, B(R), F) 53/102 un modèle statistique (E , E, F) sera toujours supposé identifiable au sens où F ne contiendra pas deux probabilités identiques Dans le cas d’un modèle paramétrique (E , E, F = {Pθ }θ∈Θ ) cela revient à supposer que, pour θ ≠ θ′ dans Θ, Pθ ≠ Pθ′ , et nous noterons dans ce cas le modèle (E , E, F = (Pθ )θ∈Θ ). Dans ce cours, Retour sur nos quatre exemples de modèles paramétriques Modèle de Bernoulli : ( {0, 1} , P({0, 1}), (B(θ))θ∈]0,1[ ) Modèle Gaussien : (R, B(R), (N (µ, σ 2 ))(µ,σ2 )∈R×R⋆ ) + Modèle de Poisson : (N, P(N), (P(λ))λ∈R⋆ ) + Modèle Gaussien d’espérance connue : (R, B(R), (N (6, σ 2 ))σ2 ∈R⋆ ) + 54/102 A partir de maintenant, nous noterons de manière générique un modèle statistique quelconque par : (E , E, F) et un modèle statistique paramétrique par : (E , E, F = (Pθ )θ∈Θ ) Si dans un exercice, l’énoncé vous expose une situation, et que l’on vous demande "quel est le modèle statistique paramétrique associé à cette situation ?" la réponse attendue est un triplet (E , E, F = (Pθ )θ∈Θ ) où E ensemble et E tribu sur E laisser la notation générique E pour les cas HP) F = (Pθ )θ∈Θ est une famille de lois de probabilités sur (E , E) paramétrée par un ensemble Θ 55/102 Nous avons donc formalisé la famille de lois de probabilités que nous avons choisie comme décrivant nos données, autrement dit comme potentielle loi sous-jacente de la population générale dont est extrait notre échantillon. Inversement, nous allons maintenant formaliser le lien qui relie nos données à ce modèle statistique : Une observation pour un modèle statistique (E , E, F) est une variable aléatoire X , à valeurs dans E , et dont la loi appartient à la famille F. Autrement dit, il existe un espace de probabilité sous-jacent (Ω, A, P) sur lequel est défini X , et tel que la loi de probabilité P ∶= LP (X ) de X sous P, soit dans F. Par abus de notation, nous écrirons parfois dans ce cas PP ou PF (avec F la fonction de répartition de la loi P) à la place de P. Cas particulier d’un modèle paramétrique où F = (Pθ )θ∈Θ : dans cette situation, cela signifie qu’il existe θ ∈ Θ tel que LP (X ) = Pθ , et, par abus de notation, nous écrirons alors parfois Pθ à la place de P. 56/102 Soit (E1 , E1 , F1 = (P1,θ )θ∈Θ ) modèle statistique muni d’une observation X1. A partir de (E1 , E1 , F1 = (P1,θ )θ∈Θ , X1 ), nous pouvons construire "trois niveaux du tandem (modèle statistique, observation) " : Premier niveau, dit "Modèle unité" ↝ c’est le modèle lui-même : (E , E) = (E1 , E1 ) , F = F1 = (P1,θ )θ∈Θ , X = X1 Deuxième niveau, dit "Modèle n-échantillon i.i.d." ↝ c’est le "n-ème produit tensoriel" du modèle (E , E) = (E1n , E1⊗n ) ⊗n ⊗n )θ∈Θ , et l’on utilisera la notation Pn,θ ∶= P1,θ F = (P1,θ i.i.d. X = (X1 ,... , Xn ) où X1 ,... , Xn ∼ P1,θ pr un certain θ ∈ Θ Vocabulaire : nous dirons au choix "l’observation est X = (X1 ,... , Xn ), ou "les observations sont X1 ,... , Xn " Troisième niveau, dit "Modèle échantillon infini i.i.d." E = E1N (la tribu associée est HP) ⊗N )θ∈Θ F = (P1,θ i.i.d. X = (Xi )i∈N⋆ où les (Xi )i∈N⋆ ∼ P1,θ pr un certain θ ∈ Θ Vocabulaire : nous dirons au choix "l’observation est X = (Xi )i∈N⋆ , ou "les observations sont les Xi , i ∈ N⋆ " 57/102 Attention ! cela ne représente absolument pas tous les modèles possibles. Exemple tiré de la Feuille 1 de TD : Modèle AR(1) Soit n ∈ N⋆ , et X0 , X1 ,... , Xn une suite finie de v.a.r. tel que X0 = 0 et, pour tout i ∈ J1, nK, Xi = θXi−1 + i , pour un certain θ ∈ R inconnu, et où ∼ N (0, σ 2 ), σ 2 ∈ R⋆+ connu. 1 ,... , n i.i.d. (On dit que (X0 , X1 , X2 ,... , Xn ) satisfait un modèle auto-régressif de degré 1.) Ds cette situation le modèle statistique est : (E , E) = (Rn+1 , B(Rn+1 ) ) F = (Pn;θ )θ∈Θ=R où, pour θ ∈ Θ = R, Pn;θ est la loi de probabilité du ⎧ X0 = 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ Xi = θXi−1 + i , pour i ∈ J1, nK (n + 1)-uplet (X0 , X1 ,... , Xn ) où ⎨ ⎪ 1 ,... , n i.i.d. ∼ N (0, σ 2 ) ⎪ ⎪ ⎪ 2 ⋆ ⎪ ⎪ ⎩ σ ∈ R+ connu Comme les Xi ne sont, a priori, par construction, pas indépendantes, on ne peut pas décomposer Pn;θ sous forme de produit tensoriel. L’observation est X = (X0 , X1 ,... , Xn ) 58/102 Ce dont nous disposons pour le moment : un modèle statistique paramétrique (E , E, F = (Pθ )θ∈Θ ) correspondant à la famille de lois potentielle de nos données, muni d’une observation X nos données, c-à-d notre série de valeurs x , que l’on considère comme une réalisation de l’observation X Notre objectif principal : estimer le paramètre θ du modèle correspondant le mieux à nos données, pr disposer ainsi de la loi Pθ censée décrire le mieux nos données et le comportement de la population générale dont est issu notre échantillon comparer de manière fine la fonction de répartition empirique (resp. la fonction de masse estimée, l’histogramme de densité) de nos données et la fonction de répartition de la loi Pθ (resp. sa fonction de masse, sa densité) ⋆ si elles correspondent bien, c’est que notre modèle est adapté à nos données et l’on peut s’arrêter là ; ⋆ si elles ne correspondent pas bien, c’est que le modèle que nous avons choisi ne correspondait pas assez, il ne reflétait pas assez bien le comportement de la population générale dont est issue notre échantillon ↝ il faut recommencer avec un autre modèle 59/102 Nos objectifs secondaires : parfois ce n’est pas le paramètre θ du modèle paramétrique en lui-même qui nous intéresse mais une fonction g(θ), par ex l’espérance ou la variance de la loi Pθ ↝ si l’on a déjà estimé θ, par une quantité disons θ̂, il suffit alors souvent de considérer g(θ̂) pour estimer g(θ) Cette situation s’étend au cadre de modèles non-paramétriques : Exemple 1 : (E , E) ∶= (N, P(N)) et F ∶= ensemble des lois de probabilités sur (N, P(N)) admettant un moment d’ordre 1 fini. ↝ Modèle statistique = (N, P(N), F) Exemple 2 : (E , E) ∶= (R, B(R)) et F ∶= ensemble des lois de probabilités sur (R, B(R)) admettant un moment d’ordre 2 fini. ↝ Modèle statistique = (R, B(R), F) Si un de ces modèles non-paramétriques (E , E, F) est muni d’une observation X , c-à-d que X v.a.r. à valeurs dans (E , E) tel que PX ∈ F, au lieu d’essayer de déduire la loi "complète" PX de l’observation X , on peut juste s’intéresser à l’estimation de "fcts de PX " : par ex E[X ] ou Var[X ] 60/102 Statistiques usuelles Pour cela, nous avons besoin d’outils, appelés statistiques (au sens littéral du terme !), et qui correspondent aux équivalents aléatoires des indicateurs numériques que nous avons vus précédemment. De manière formelle : pour un modèle statistique (E , E, F = (Pθ )θ∈Θ ) muni d’une observation X , on appelle statistique toute v.a.r. qui s’écrit comme fonction mesurable de l’observation X , c-à-d : T (X ) pour T ∶ E → R mesurable tout vecteur aléatoire qui s’écrit comme fonction vectorielle mesurable de l’observation X , c-à-d : T (X ) pour T ∶ E ↦ Rk (k ≥ 2) mesurable Nous donnons maintenant une liste de statistiques usuelles lorsque l’observation est de la forme d’un n-échantillon : X = (X1 ,... , Xn ). Nous avons déjà vu comment calculer ces valeurs sur une réalisation x = (x1 ,... , xn ) de l’observation X = (X1 ,... , Xn ), nous nous contentons donc ici de donner la formule de la variable aléatoire associée. 61/102 Statistiques d’ordre la k ème statistique d’ordre (k ∈ J1, nK) est S(k) ∶ X = (X1 ,. , Xn ) ↦ X(k) le vecteur réordonné est Sord ∶ X = (X1 ,. , Xn ) ↦ (X(1) ,. , X(n) ) le minimum est Smin ∶ X = (X1 ,... , Xn ) ↦ min(X1 ,... , Xn ) = X(1) le maximum est Smax ∶ X = (X1 ,. , Xn ) ↦ max(X1 ,... , Xn ) = X(n) la fonction de répartition empirique est 1 n Secdf ∶ X = (X1 ,... , Xn ) ∈ Rn ↦ (F̂ X ∶ v ∈ R ↦ ∑ 1]−∞;v ] (Xi ) ) n i=1 Nous noterons également F̂n ∶ v ∈ R ↦ F̂ X (v ) = (lorsqu’il n’y aura pas d’ambiguité sur l’obs. X = (X1 ,. , Xn ) concernée) 1 n n ∑ 1]−∞;v ] (Xi ) i=1 le quantile empirique de niveau α ∈]0, 1[ est ̂X (v ) ≥ α } ̂ qα ∶ X = (X1 ,. , Xn ) ↦ inf {v ∈ R ; F 62/102 Statistiques d’ordre (suite) ↝ La fonction de répartition empirique de X = (X1 ,... , Xn ) est donc la fonction aléatoire : 1 n F̂n ∶ v ∈ R ↦ ( F̂n (v ) ∶ ω ∈ Ω ↦ ∑ 1]−∞;v ] (Xi (ω)) ) n i=1 et donc, pour tout v ∈ R, F̂n (v ) est une v.a.r. La fonction de répartition empirique est très utile pour comparer la distribution empirique de nos données avec une loi de probabilité théorique, de fonction de répartition Fref , qu’elles seraient censées suivre. Pour cela, on utilise la statistique de Kolmogorov-Smirnov définie par ̂n (v ) − Fref (v )∣ T (X ) ∶= ∣∣F̂n − Fref ∣∣∞ = sup ∣F v ∈R Si X1 ,... , Xn i.i.d. de loi continue à densité, et Fref continue, on peut calculer explicitement T (X ) grâce à la formule j j −1 T (X ) = max ( max ( − Fref (X(j) ) ; Fref (X(j) ) − )) 1≤j≤n n n 63/102 Statistiques d’ordre (fin) Propriétés asymptotiques de la fonction de répartition empirique : i.i.d. D’après la Loi Forte des Grands Nombres, si X1 ,... , Xn ∼ PF (F f.d.r.) PF −p.s. ∀v ∈ R, F̂n (v ) → EPF −∞ ; v ] (X1 )] = PF (] − ∞ ; v ]) = F (v ) n→+∞ D’après le Théorème Central Limite, ∀v ∈ R, √ n(F̂n (v ) − F (v )) L sous PF → n→+∞ N (0, F (v )(1 − F (v ))) P−p.s. Théorème de Glivenko-Cantelli (HP) : ∣∣F̂n − F ∣∣∞ Ð→ 0 ou encore n→+∞ PF ( sup ∣F̂n (t) − F (t)∣ Ð→ 0) = 1 n→+∞ t∈R Théorème de Kolmogorov-Smirnov (HP, cf. Chap 2) : si F est continue √ L sur R, n ∣∣F̂n − F ∣∣∞ Ð→ K où K v.a.r. de loi de Kolmogorov-Smirnov n→+∞ Remarque : (HP) En fait, si F continue, K = sup ∣Bt ∣ où le processus (Bt )t∈[0,1] est un pont Brownien , et, si F f.d.r. t∈[0,1] quelconque, 64/102 √ n ∣∣F̂n − F ∣∣∞ L Ð→ sup ∣BF (t) ∣ n→+∞ t∈[0,1] Statistiques de tendance centrale la moyenne empirique : 1 n ∑ Xi n i=1 Sm ∶ X = (X1 ,... , Xn ) ↦ X ∶= la moyenne empirique d’ordre k (k ≥ 2) : 1 n k ∑X n i=1 i Smk ∶ X = (X1 ,... , Xn ) ↦ X k ∶= la médiane usuelle empirique ⎧ ⎪ ⎪ ⎪ ⎪ SMed ∶ X = (X1 ,... , Xn ) ↦ Med(X ) = ⎨ ⎪ ⎪ ⎪ ⎪ ⎩ X( n+1 ) si n est impair 2 X( n ) +X( n +1) 2 2 2 si n est pair la médiane théorique empirique : Smedtheor ∶ X = (X1 ,... , Xn ) ↦ ̂ q X1 2 65/102 Statistiques de dispersion l’écart-type empirique est ¿ Á1 n À ∑( Xi − X )2 Ssd ∶ X = (X1 ,... , Xn ) ↦ σ̂X ∶= Á n i=1 la variance empirique est 1 n Svar ∶ X = (X1 ,... , Xn ) ↦ σ̂X2 ∶= ∑( Xi − X )2 n i=1 l’étendue empirique est Srange ∶ X = (X1 ,... , Xn ) ↦ X(n) − X(1) L’écart inter-quartile empirique est SIQR ∶ X = (X1 ,... , Xn ) ↦ q̂ X3 − q̂ X1 4 66/102 4 Estimation statistique ponctuelle non-asymptotique Nous avons à présent un modèle statistique paramétrique (E , E, F = (Pθ )θ∈Θ ) muni d’une observation X. c-à-d tel qu’il existe θ ∈ Θ tq X est de loi Pθ , et nous disposons d’une liste de statistiques dont nous pouvons faire usage. Problématique : comment déterminer une approximation de la valeur du paramètre θ à partir d’une réalisation x de X ? Remarque : il arrive également que la valeur qui nous intéresse ne soit pas le paramètre θ en elle-même, mais plutôt une fonction de θ, comme c’est le cas par exemple de Eθ [X ] ou Varθ [X ] pour un gd nb de lois Pθ Nous allons nous intéresser dans ce Chapitre 1 à deux méthodes : la méthode des moments (la plus simple et "instinctive") La méthode du maximum de vraisemblance Nous verrons aux Chapitre 3 & 4 une autre méthode : la méthode des moindres carrés. 67/102 Méthode des moments (MM) Méthode des moments en dimension 1 : on suppose que pour tout θ ∈ Θ ⊂ R, on sait calculer explicitement mk (θ) ∶= Eθ [ X k ] pour un certain k ∈ N⋆ mk est une fonction bijective de Θ dans mk (Θ), c-à-d pour tout θ ∈ Θ, θ = mk−1 ( Eθ [ X k ] ) Alors, pour estimer le paramètre θ, on remplace Eθ [X k ] par le moment empirique associé, c-à-d le moment empirique d’ordre k : X k = 1 n n ∑ Xik i=1 On obtient donc l’estimateur par la méthode des moments (EMM) suivant de θ : θ̂nEMM = mk−1 ( X k ) Premier ex (ascenseurs) : pr tt λ ∈ Θ = R⋆+ , Eλ [X1 ] = λ , ↝ ̂ λnEMM ∶= X Second ex (diamètres) : µ ∈ R est connu, égal à 6, et pr tt σ 2 ∈ Θ = R⋆+ , Eσ2 [X1 ] = µ, Eσ2 [X12 ] = σ 2 + µ2 , donc l’estimateur par la méthode des moments de σ 2 est ↝ ̂ σn2 EMM ∶= X 2 − µ2 = 68/102 1 n n ∑ (Xi − µ)2 = i=1 1 n n ∑ (Xi − 6)2 i=1 Méthode des moments en dimension d ∈ N⋆ , d ≥ 2 : on suppose que pour tout θ = (θ1 ,... , θd ) ∈ Θ ⊂ Rd , on sait calculer explicitement mk1 (θ) ∶= Eθ [ X k1 ],... , mkd (θ) ∶= Eθ [ X kd ] pour certains k1 ,... , kd ∈ N⋆ tel que 1 ≤ k1 < k2 <... < kd mk1 ,...,kd = (mk1 ,... , mkd ) ∶ θ = (θ1 ,... , θd ) ∈ Θ ↦ (mk1 (θ),... , mkd (θ)) ∈ Rd est une fonction bijective de Θ dans mk1 ,...,kd (Θ), c-à-d pour tout θ ∈ Θ, −1 θ = (mk1 ,...,kd ) ( Eθ [ X k1 ],... , Eθ [ X kd ] ) Alors, pour estimer le paramètre θ, on remplace ( Eθ [ X k1 ],... , Eθ [ X kd ] ) par le vecteur des moments empiriques associé, càd ( X k1 = 1 n k1 1 n k ∑ Xi ,... , X kd = ∑ Xi d ) n i=1 n i=1 On obtient donc l’estimateur suivant de θ = (θ1 ,... , θd ) : −1 θ̂nEMM = (mk1 ,...,kd ) ( X k1 ,... , X kd ) 69/102 Exemple : reprenons le Modèle Gaussien, que l’on considère cette fois à deux paramètres (mais les calculs vont être les mêmes que précédemment) : (R, B(R), (N (µ, σ 2 )) θ=(µ,σ 2 )∈Θ=( R×R⋆+ ) ) on a m1 ∶ θ = (µ, σ 2 ) ↦ Eθ [X ] = µ, m2 ∶ θ = (µ, σ 2 ) ↦ Eθ [X 2 ] = µ2 + σ 2 , et, en inversant ce système on trouve µ = m1 (θ) et σ 2 = m2 (θ) − m1 (θ)2 , d’où, en notant m1,2 = (m1 , m2 ) ∶ θ = (µ, σ 2 ) ↦ (µ, µ2 + σ 2 ), on a −1 (m1,2 ) (u, v ) = (u, v − u 2 ) et −1 2 θ̂nEMM = (m1,2 ) (X , X 2 ) = (X , X 2 − (X ) ) = (X , σ̂X2 ) où rappelons que σ̂X2 = 1 n n ∑ ( Xi − X ) 2 i=1 Passons à la méthode du maximum de vraisemblance, mais avant présentons en quoi consiste une fonction de vraisemblance. 70/102 Fonction de vraisemblance Soit un modèle statistique paramétrique générique (E , E, F = (Pθ )θ∈Θ ) muni d’une observation X La fonction de vraisemblance (= likelihood) associée à une réalisation x de l’observation X est L(.; x ) ∶ θ ∈ Θ ↦ L(θ; x ) où L(θ; x ) = { pX ;θ (x ) = Pθ ({x }) = Pθ (X = x ) si X v.a.r. discrète fX ;θ (x ) si X v.a.r. continue à densité où nous avons défini pX ;θ (x ) (resp. fX ;θ (x ) ) comme la fonction de masse (resp. la densité ) de X au point x , sous l’hypothèse que X ∼ Pθ. Si le modèle est du type d’un n-échantillon, (E n , E ⊗n , (Pn;θ )θ∈Θ ) muni d’une observation X = (X1 ,... , Xn ) (pour l’instant, on ne suppose ni que les Xi , i ∈ J1, nK sont de même loi, ni qu’ils sont indépendants), nous pouvons réécrire la fonction de vraisemblance de la manière suivante. 71/102 Cas n-échantillon quelconque La fonction de vraisemblance associée à une réalisation x = (x1 ,. , xn ) de l’observation X = (X1 ,. , Xn ) est Ln (. ; (x1 ,. , xn )) ∶ θ ∈ Θ ↦ Ln (θ ; (x1 ,. , xn )) = ⎧ p (x ,. , xn ) = Pn;θ ( {(x1 ,. , xn )} ) = Pθ ((X1 ,. , Xn ) = (x1 ,. , xn )) ⎪ ⎪ ⎪ (X1 ,. ,Xn );θ 1 ⎨ si X1 ,. , Xn v.a.r. discrètes ⎪ ⎪ ⎪ f (x ,. , x ) si X ,. , X v.a.r. continues n 1 n ⎩ (X1 ,. ,Xn );θ 1 où nous avons défini p(X1 ,. ,Xn );θ (x1 ,. , xn ) (resp. f(X1 ,. ,Xn );θ (x1 ,. , xn ) ) comme la fonction de masse jointe (resp. la densité jointe) de X = (X1 ,. , Xn ) au point x = (x1 ,. , xn ), sous l’hypothèse que X = (X1 ,. , Xn ) ∼ Pn;θ Nous renvoyons au Modèle AR(1) de la Feuille 1 de TD pour un exemple de calcul de vraisemblance dans une telle situation de v.a.r. ni indépendantes, ni de même loi. 72/102 Cas n-échantillon indépendant (non i.d.) Supposons à présent que X1 ,... , Xn sont indépendantes, mais a priori pas identiquement distribuées. Dans ce cas, on a Pn;θ = PX1 ;θ ⊗ PX2 ;θ ⊗... ⊗ PXn ;θ , où PXi ;θ est la loi de Xi , et la fonction de vraisemblance associée à une réalisation x = (x1 ,. , xn ) de l’observation X = (X1 ,. , Xn ) se réécrit Ln (. ; (x1 ,. , xn )) ∶ θ ∈ Θ ↦ Ln (θ ; (x1 ,. , xn )) = n n n ⎧ ⎪ ⎪ ( ) p (x ) = P Pθ (Xi = xi ) {x } = ∏ ∏ ∏ i i X ;θ X ;θ ⎪ i i ⎪ ⎪ i=1 i=1 i=1 ⎪ ⎪ si X1 ,. , Xn v.a.r. discrètes ⎨ ⎪ n ⎪ ⎪ ⎪ ⎪ ∏ fXi ;θ (xi ) si X1 ,. , Xn v.a.r. continues ⎪ ⎪ ⎩ i=1 où nous avons défini pXi ;θ (xi ) (resp. fXi ;θ (xi ) ) comme la fonction de masse (resp. la densité) de Xi au point xi , sous l’hypothèse que Xi ∼ PXi ;θ 73/102 Cas n-échantillon i.i.d. Supposons enfin que X1 ,... , Xn sont i.i.d. ⊗n Dans ce cas, on a Pn,θ = P1,θ , où P1,θ est la loi commune de X1 ,... , Xn , et la fonction de vraisemblance associée à une réalisation x = (x1 ,. , xn ) de l’observation X = (X1 ,. , Xn ) se réécrit Ln (. ; (x1 ,. , xn )) ∶ θ ∈ Θ ↦ Ln (θ ; (x1 ,. , xn )) = n n n ⎧ ⎪ ⎪ ∏ pX1 ;θ (xi ) = ∏ P1;θ ( {xi } ) = ∏ Pθ (X1 = xi ) ⎪ ⎪ ⎪ i=1 i=1 ⎪ ⎪ i=1 si X1 ,. , Xn v.a.r. discrètes ⎨ ⎪ n ⎪ ⎪ ⎪ ⎪ ∏ fX1 ;θ (xi ) si X1 ,. , Xn v.a.r. continues ⎪ ⎪ ⎩ i=1 où nous avons défini pX1 ;θ (resp. fX1 ;θ ) comme la fonction de masse (resp. la densité) commune à X1 ,... , Xn , sous l’hypothèse que i.i.d. X1 ,... , Xn ∼ P1;θ = PX1 ;θ 74/102 Premier ex (ascenseurs) : soit x = (x1 ,. , xn ) ∈ (R⋆+ )n une réalisation de l’obs. X = (X1 ,. , Xn ), la fct de vraisemblance associée à cette réalisation est : ∀λ ∈ Θ = R⋆+ , n Ln (λ; (x1 ,... , xn )) = ∏ pXi ;λ (xi ) = i=1 n xi ∏ e −λ λxi ! i=1 =e n ∑ xi −nλ λi=1 n ∏ xi ! i=1 n n ∑ xi Comme ∏ xi ! ne dépend pas de λ, maximiser Ln (.; (x1 ,... , xn )) revient à maximiser λ ↦ e −nλ λi=1 i=1 Voici le graphe de cette fonction pour nos données x = (x1 ,... , xn ) Le maximum de la vraisemblance est atteint environ en 4.71 75/102 Second ex (diamètres) : soit µ ∈ R connu et x = (x1 ,. , xn ) ∈ Rn une réal. de l’obs. X = (X1 ,. , Xn ) ; la fct de vraisemblance associée à cette réal. est : n n σ 2 ∈ Θ = R⋆+ , Ln (σ 2 ; (x1 ,... , xn )) = ∏ fXi ;σ2 (xi ) = ∏ √ 1 2 e − 2σ2 (xi −µ) 2πσ i=1 = (2π)−n/2 (σ 2 )−n/2 e − 1 2 i=1 n 1 ∑ (xi −µ)2 2σ 2 i=1 1 n − 2 ∑ (xi −µ) Comme (2π)−n/2 ne dépend pas de σ 2 , maximiser Ln (.; (x1 ,... , xn )) revient à maximiser σ 2 ↦ (σ 2 )−n/2 e 2σ i=1 Voici le graphe de cette fonction pour nos données x = (x1 ,... , xn ) Le maximum de la vraisemblance est atteint environ en 0.009 76/102 2 Méthode du Maximum de Vraisemblance (MV) Principe de la Méthode du Maximum de Vraisemblance : Cas général : Etant donné une réalisation x de l’observation X , et un paramètre θ ∈ Θ quelconque, la vraisemblance du modèle (E , E, Pθ ) est la probabilité que ce modèle ait donné lieu aux données observées, c-à-d à la réalisation x. Etant donné que, parmi l’ensemble des modèles (E , E, Pθ ), θ ∈ Θ, on souhaite choisir le modèle (E , E, Pθ⋆ ) qui correspond le mieux aux données observées, on choisit la valeur du paramètre θ qui maximise la vraisemblance du modèle associée aux données x , autrement dit, l’on cherche θ⋆ ∈ Θ tel que L(θ⋆ ; x ) = max L(θ ; x ) θ∈Θ On a alors que θ⋆ dépend de x : θ⋆ = θ⋆ (x ) L’estimateur du maximum de vraisemblance est alors la statistique θ⋆ (X ) et on le note θ̂EMV 77/102 Cas n-échantillon quelconque : modèle du type (E n , E ⊗n , (Pn;θ )θ∈Θ ) Etant donné une réalisation x = (x1 ,. , xn ) de l’observation X = (X1 ,. , Xn ), et un paramètre θ ∈ Θ quelconque, la vraisemblance du modèle (E n , E ⊗n , Pn;θ ) est la probabilité que ce modèle ait donné lieu aux données observées, c-à-d à la réalisation x = (x1 ,... , xn ). Etant donné que, parmi l’ensemble des modèles (E n , E ⊗n , Pn;θ ), θ ∈ Θ, on souhaite choisir le modèle (E n , E ⊗n , Pn;θ⋆ ) qui correspond le mieux aux données observées, on choisit la valeur du paramètre θ qui maximise la vraisemblance du modèle associée aux données x , autrement dit l’on cherche θ⋆ ∈ Θ tel que Ln (θ⋆ ; (x1 ,. , xn )) = max Ln (θ ; (x1 ,. , xn )) θ∈Θ On a alors que θ⋆ dépend de x = (x1 ,... , xn ) : θ⋆ = θ⋆ (x ) = θ⋆ (x1 ,. , xn ) L’estimateur du maximum de vraisemblance est alors la statistique θ⋆ (X ) = θ⋆ (X1 ,. , Xn ) et on le note θ̂nEMV 78/102 Fonction de Log-Vraisemblance Dans certains cas, il est plus simple de maximiser le logarithme néperien de la fonction de vraisemblance plutôt que la fonction de vraisemblance elle-même. Nous définissons, la fonction de log-vraisemblance associée à la réalisation x = (x1 ,... , xn ) de l’observation X = (X1 ,... , Xn ) par ℓn (.; (x1 ,... , xn )) ∶ θ ∈ Θ ↦ ℓn (θ; (x1 ,... , xn )) = ln( Ln (θ; (x1 ,... , xn )) ) Attention : on ne définit la log-vraisemblance que pour les réalisations x = (x1 ,... , xn ) et les points θ ∈ Θ tel que Ln (θ; (x1 ,... , xn )) > 0. Etant donné que la fonction ln est strictement croissante de R⋆+ dans R, le maximum de ℓn (.; (x1 ,... , xn )) est également le maximum de Ln (.; (x1 ,... , xn )) 79/102 Conditions d’optimalité Ln (θ⋆ ; (x1 ,. , xn )) = max Ln (θ ; (x1 ,. , xn )) θ∈Θ équivaut à Ln (θ⋆ ; (x1 ,... , xn )) ≥ Ln (θ; (x1 ,... , xn )) ∀θ ∈ Θ Pour trouver un tel θ⋆ , on commence par chercher les points critiques c-à-d les points θ ∈ Θ tel que ∂θ Ln (θ; (x1 ,... , xn )) = 0 (ou ∇θ Ln (θ; (x1 ,... , xn )) = 0d,1 si Θ ⊂ Rd , d ≥ 2). Ensuite, si Θ ⊂ R, on dresse un tableau de variation en cherchant les points θ n (θ; (x1 ,... , xn )) ≥ 0 tq ∂L ∂θ si Θ ⊂ Rd , d ≥ 2, il n’y a plus de méthode générale, on peut étudier la convexite de la fonction en regardant la Hessienne, etc... cf. A2S3 APV (cela ne donne pas forcément des conditions suffisantes d’optimalité, ni des conditions d’unicité de l’optimum) Dans la plupart des cas ci-dessus, pour que le maximum existe, il faut que Θ vérifie des conditions topologiques supplémentaires.. ; 80/102 Premier ex : soit x = (x1 ,. , xn ) ∈ (R⋆+ )n une réalisation de l’obs. X = (X1 ,. , Xn ). Fct de vraisemblance associée à cette réalisation : pr tt λ ∈ Θ = R⋆+ n n i=1 i=1 Ln (λ; (x1 ,... , xn )) = ∏ pXi ;λ (xi ) = ∏ e −λ λxi xi ! =e n ∑ xi i=1 −nλ λ n ∏ xi ! i=1 Fct de log-vraisemblance associée à cette réalisation : pr tt λ ∈ Θ = R⋆+ n n i=1 i=1 ℓn (λ; (x1 ,... , xn )) = ln (Ln (λ; (x1 ,... , xn ))) = −nλ+( ∑ xi ) ln(λ)− ∑ ln(xi !) Dérivée par rapport à λ de la log-vraisemblance associée à cette réalisation : n pr tt λ ∈ Θ = R⋆+ ∂λ ℓn (λ; (x1 ,... , xn )) = −n + λ1 ∑ xi i=1 Unique point critique de la log-vraisemblance associée à cette réalisation : n ∂λ ℓn (λ; (x1 ,... , xn )) = 0 ⇔ −n + ∑ xi i=1 λ =0 ⇔ λ= 1 n n ∑ xi = x i=1 La fct de log-vraisemblance et la fct de vraisemblance, atteignent bien leur n maximum en λ̂n = λ̂n (x1 ,... , xn ) = x car ∂λ2 ℓn (λ; (x1 ,... , xn )) = − λ12 ∑ xi < 0 i=1 L’estimateur du maximum de vraisemblance est : λ̂EMV = λ̂EMV (X1 ,... , Xn ) ∶= X n n 81/102 Second ex : soit x = (x1 ,. , xn ) ∈ Rn une réalisation de l’obs. X = (X1 ,. , Xn ), et µ ∈ R connu Fct de vraisemblance associée à cette réalisation : pr tt σ 2 ∈ Θ = R⋆+ n n i=1 i=1 Ln (σ 2 ; (x1 ,... , xn )) = ∏ fXi ;σ2 (xi ) = ∏ √ 1 2 e − 2σ2 (xi −µ) 2πσ −n/2 2 −n/2 1 − 2 n 1 ∑ (xi −µ)2 2σ 2 i=1 = (2π) (σ ) e Fct de log-vraisemblance associée à cette réalisation : pr tt σ 2 ∈ Θ = R⋆+ ℓn (σ 2 ; (x1 ,... , xn )) = ln(Ln (σ 2 ; (x1 ,... , xn ))) = − n2 ln(2π) − n2 ln(σ 2 ) − 1 2σ 2 n ∑ (xi − µ)2 i=1 Dérivée par rapport à σ 2 de la log-vraisemblance associée à cette réalisation : pr tt σ 2 ∈ Θ = R⋆+ ∂σ2 ℓn (σ 2 ; (x1 ,... , xn )) = − 2σn 2 + 1 2(σ 2 )2 n ∑ (xi − µ)2 i=1 Unique point critique de la log-vraisemblance associée à cette réalisation : ∂σ2 ℓn (σ 2 ; (x1 ,... , xn )) = 0 ⇔ − 2σn 2 + ⇔ σ = 2 82/102 1 n 1 2(σ 2 )2 n n ∑ (xi − µ)2 = 0 i=1 ∑ (xi − µ)2 i=1 Second ex (suite) : Sens de variation de la log-vraisemblance associée à cette réalisation de part et d’autre du point critique : ∂σ2 ℓn (σ 2 ; (x1 ,... , xn )) ≥ 0 ⇔ − 2σn 2 + ⇔ 1 2(σ 2 )2 n 1 2(σ 2 )2 ∑ (xi − µ) ≥ 2 i=1 n 2σ 2 n ∑ (xi − µ)2 ≥ 0 i=1 ⇔ 1 n n ∑ (xi − µ)2 ≥ σ 2 i=1 La fct de log-vraisemblance et la fct de vraisemblance, atteignent donc bien leur maximum en σ̂n2 = σ̂n2 (x1 ,... , xn ) = 1 n n ∑ (xi − µ)2 i=1 L’estimateur du maximum de vraisemblance est : n σ̂n2 EMV = σ̂n2 EMV (X1 ,... , Xn ) ∶= n1 ∑ (Xi −µ)2 = i=1 1 n n ∑ (Xi −6)2 i=1 Les valeurs numériques obtenues sont : Premier ex : λ̂EMV (x ) = λ̂EMV (x1 ,... , xn ) ∶= x = 4.7 n n Second ex : σ̂n2 EMV (x ) = σ̂n2 EMV (x1 ,... , xn ) ∶= 83/102 1 n n ∑ (xi − 6)2 ≃ 0.00898 i=1 θ̂EMM & θ̂EMV pour les modèles usuels n n 2 = n1 ∑ (Xi − X )2 X(n) = max(X1 ,... , Xn ) Rappel des définitions des statistiques utilisées : X = n1 ∑ Xi , σ̂X i=1 i=1 B(θ)⊗n , θ ∈]0, 1[ ↝ θ̂EMM = θ̂EMV = X P(λ)⊗n , λ ∈ R⋆+ ↝ λ̂EMM = λ̂EMV = X G(θ)⊗n , θ ∈]0, 1[ ↝ θ̂EMM = θ̂EMV = 1 X U([0, θ])⊗n , θ ∈ R⋆+ ↝ θ̂EMM = 2X et θ̂EMV = X(n) E(λ)⊗n , λ ∈ R⋆+ ↝ λ̂EMM = λ̂EMV = 1 X N (µ, σ 2 )⊗n , θ = (µ, σ 2 ) ∈ R × R⋆+ ↝ θ̂EMM = (µ̂EMM , σ̂ 2 EMM ) = (X , σ̂X2 ) = (µ̂EMV , σ̂ 2 EMV ) = θ̂EMV 84/102 Biais d’un estimateur Notons T (X ) un estimateur quelconque du paramètre θ. On appelle biais de l’estimateur T (X ) la fonction BT ∶ θ ∈ Θ ↦ Eθ [T (X )] − θ On dit que l’estimateur T (X ) est sans biais (ou non biaisé) si cette fonction est la fonction nulle, c-à-d, ∀θ ∈ Θ, Eθ [T (X )] = θ Sinon, on dit que l’estimateur T (X ) est biaisé. Premier ex (ascenseurs) : prenons T (X ) = ̂ λ EMM (X ) = ̂ λ EMV (X ) = X , on a BT ∶ λ ∈ R⋆+ ↦ Eλ [X ] − λ = 0 Donc l’estimateur est sans biais. Second ex (diamètres) T (X ) = ̂ σ 2 EMM on a BT ∶ σ ∈ 2 : prenons (X ) = ̂ σ 2 EMV (X ) = R⋆+ ↦ Eσ 2 2[ X 1 n n ∑ (Xi − 6)2 = X 2 − 36, i=1 2 − 36 ] − σ 2 = Eσ2 [ X 2 ] − 36 − σ 2 = Varσ2 [X ] + (Eσ2 [X ]) − 36 − σ 2 = σ 2 + 36 − 36 − σ 2 = 0 Donc l’estimateur est sans biais. 85/102 Remarque : Si, pr tout θ ∈ Θ, Eθ [T (X )] = c θ où c constante déterministe réelle non nulle ne dépendant pas de θ, on définit l’estimateur corrigé ̃ (X ) ∶= 1 T (X ). (sous-entendu par rapport à T (X )) par T c ̃ (X ) est un estimateur sans biais de θ. On a alors que T Nous verrons en TD que c’est le cas pour l’estimateur de la variance, σ̂X2 ∶= 1 n n i=1 corrigé : ̃ σX2 ∶= 86/102 2 ∑ ( Xi − X ) , et que l’on définit alors l’estimateur de la variance 1 n−1 n ∑ ( Xi − X ) i=1 2 Variance d’un estimateur On appelle variance de l’estimateur T (X ) la fonction VT ∶ θ ∈ Θ ↦ Varθ [T (X )] Premier ex (ascenseurs) : prenons T (X ) = ̂ λ EMM (X ) = ̂ λ EMV (X ) = X , on a Var [X ] VT ∶ λ ∈ R⋆+ ↦ Varλ [ X ] = λn 1 = λn Second ex T (X ) = ̂ σ (diamètres) 2 EMM : prenons (X ) = ̂ σ 2 EMV (X ) = 1 n n ∑ (Xi − 6)2 = X 2 − 36, i=1 n on a VT ∶ σ 2 ∈ R⋆+ ↦ Varσ2 [ n1 ∑ (Xi − 6)2 ] = i=1 Eσ2 [(X1 −6)4 ]−(Eσ2 [(X1 −6)2 ]) n 87/102 2 = 3σ 4 −(σ 2 )2 n = 2σ 4 n Varσ2 [(X1 −6)2 ] n = Risque quadratique d’un estimateur Comparaison de deux estimateurs On appelle risque quadratique de l’estimateur T (X ) la fonction 2 2 RT ∶ θ ∈ Θ ↦ Eθ [ ( T (X ) − θ ) ] = (BT (θ)) + VT (θ) Rq : pour un estimateur T (X ) sans biais, on a donc RT = VT et plus sa variance est petite, plus T (X ) estime le paramètre θ avec précision. Premier ex (ascenseurs) : prenons T (X ) = ̂ λ EMM (X ) = ̂ λ EMV (X ) = X , comme λ T (X ) est sans biais, on a RT ∶ λ ∈ R⋆+ ↦ VT (λ) = n Second ex (diamètres) : prenons T (X ) = ̂ σ 2 EMM (X ) = ̂ σ 2 EMV (X ), comme 4 2 ⋆ 2 T (X ) est sans biais, on a RT ∶ σ ∈ R+ ↦ VT (σ ) = 2σn Soit T1 (X ) et T2 (X ) deux estimateurs de θ (pr le même modèle statistique sinon ça n’a pas de sens !). On dit que T1 (X ) est plus efficace (= efficient) que T2 (X ) si ∀θ ∈ Θ, RT1 (θ) ≤ RT2 (θ) et ∃θ⋆ ∈ Θ, RT1 (θ⋆ ) ≤ RT2 (θ⋆ ) 88/102 Estimation ponctuelle asymptotique Quand la taille n de l’échantillon est assez grande (typiquement n > 30), on utilise les Théorèmes limite des Probabilités pour légitimer l’estimateur choisi. On se place dans le cadre du "modèle échantillon infini i.i.d." muni de l’observation X = (Xi )i∈N⋆ On définit une suite d’estimateurs du paramètre θ, de la forme (Tn (X ) = Tn (X1 ,... , Xn ))n∈N⋆ autrement dit, pour tout n ∈ N⋆ , nous disposons d’un estimateur Tn (X ) de θ qui ne dépend de X qu’à travers les n premiers éléments de X : X1 ,... , Xn Rq : on peut s’attendre (si Tn (X ) est un "bon" estimateur) à ce que l’estimation du paramètre θ soit de plus en plus précise puisque l’estimateur est construit à partir de plus en plus de données, autrement dit à partir de plus en plus d’informations (si Tn (X ) est un "bon" estimateur...) Attention : nous utiliserons constamment l’abus de langage consistant à parler de "l’estimateur Tn (X )" à la place de "la suite (Tn (X ))n∈N⋆ d’estimateurs". 89/102 La suite (Tn (X ))n∈N⋆ d’estimateurs du paramètre θ est dite consistante (ce que l’on abrègera en Tn (X ) est consistant) si : Pθ ∀θ ∈ Θ, Tn (X ) Ð→ θ n→+∞ Premier ex (ascenseurs) : pr Tn (X ) = ̂ λnEMM (X ) = ̂ λnEMV (X ) = la Loi Faible des Grands Nombres, on a ∀λ ∈ Second ex (diamètres) R⋆+ , : pr Tn (X ) = ̂ σn2 EMM (X ) = 1 n n ∑ Xi , d’après i=1 Pλ Tn (X ) Ð→ Eλ [X1 ] = λ n→+∞ n ̂ σn2 EMV (X ) = n1 ∑ ( Xi i=1 d’après la Loi Faible des Grands Nombres, on a Pσ 2 2 ∀σ 2 ∈ R⋆+ , Tn (X ) Ð→ Eσ2 [( X1 − 6 ) ] = σ 2 n→+∞ On dit que Tn (X ) est asymptotiquement sans biais si pr tt θ ∈ Θ, Eθ [Tn (X )] Ð→ θ n→+∞ 90/102 2 − 6) , Normalité Asymptotique Soit Tn (X ) un estimateur consistant de θ. On dit que Tn (X ) est un estimateur asymptotiquement normal de θ s’il existe rn ∈ R⋆+ et A ∶ Θ → R⋆+ tel que LsousPθ ∀θ ∈ Θ, rn (Tn (X ) − θ) Ð→ N (0, A(θ)) n→+∞ On dit que rn est le taux de convergence de Tn (X ) vers θ et que A(θ) est la variance asymptotique de Tn (X ). n Premier ex (ascenseurs) : pr Tn (X ) = ̂ λ EMM (X ) = ̂ λ EMV (X ) = 1 ∑ Xi , d’après n n n i=1 le Théorème Central-Limite, on a √ LsousPθ ∀λ ∈ R⋆+ , n(Tn (X ) − λ) Ð→ N (0, Varλ [X1 ] = λ) n→+∞ Second ex (diamètres) : pr Tn (X ) = ̂ σn2 EMM (X ) = ̂ σn2 EMV (X ) = 1 n n i=1 d’après le Théorème Central-Limite, on a LsousPσ2 √ 2 n(Tn (X ) − σ 2 ) Ð→ N (0, Varσ2 [(X1 − 6) ] = 2σ 4 ) ∀σ 2 ∈ R⋆+ , n→+∞ 91/102 2 ∑ ( Xi − 6 ) , Comparaison asymptotique de deux estimateurs (1) (2) Soit Tn (X ) et Tn (X ) deux (suites d’) estimateurs de θ asymptotiquement normaux (pr le même modèle statistique sinon ça n’a pas de sens !). : (1) LsousPθ ∀θ ∈ Θ, rn (Tn (X ) − θ) Ð→ N (0, AT (1) (θ)) n→+∞ (2) LsousPθ ∀θ ∈ Θ, rn (Tn (X ) − θ) Ð→ N (0, AT (2) (θ)) n→+∞ On dit que (1) Tn (X ) (2) est asymptotiquement plus efficace que Tn (X ) si { ∀θ ∈ Θ, AT (1) (θ) ≤ AT (2) (θ) ∃θ⋆ ∈ Θ, AT (1) (θ⋆ ) ≤ AT (2) (θ⋆ ) (1) En effet, cela signifie que, pour n assez grand la distribution de Tn (X ) est (2) plus ressérrée autour de θ que celle de Tn (X ), et donc l’estimation de θ (1) (2) produite par Tn (X ) va être plus précise que celle produite par Tn (X ) 92/102 Construction d’un estimateur d’une fct de θ Consistance Soit Tn (X ) un estimateur consistant de θ. Problématique : on cherche en fait un estimateur consistant de g(θ), où g est continue sur Θ, et non pas un estimateur de θ. On considère pour cela l’estimateur g(Tn (X )) : d’après le Théorème de l’Application continue, Pθ ∀θ ∈ Θ, g(Tn (X )) Ð→ g(θ) n→+∞ et g(Tn (X )) est donc bien un estimateur consistant de g(θ). 93/102 Normalité asymptotique d’un estimateur de g(θ) Delta-Méthode en dimension d = 1 Soit Tn (X ) une suite d’estimateurs consistante et asymptotiquement normale de θ Problématique : on cherche en fait un estimateur consistant et asymptotiquement normal de g(θ), où g est dérivable sur un ouvert U ⊂ Θ, et non pas un estimateur de θ. On considère pour cela l’estimateur g(Tn (X )) : d’après ce qui précède, grâce au Théorème de l’Application Continue, nous savons déjà que g(Tn (X )) est un estimateur consistant de g(θ). D’après la propriété de la Delta-Méthode, si l’on suppose de plus que pour tout θ ∈ U, g ′ (θ) ≠ 0, alors rn (g(Tn (X )) − g(θ)) 94/102 L sous Pθ Ð→ n→+∞ 2 N (0, (g ′ (θ)) A(θ)) Delta-Méthode en dimension d = 2 Supposons que U ouvert inclus dans Θ ⊂ R2 (autrement dit "il y a 2 paramètres" dans notre modèle statistique), g = (g1 , g2 ) de U dans R2 , c-à-d g ∶ θ = (θ1 , θ2 ) ∈ U ↦ ( g1 (θ), g2 (θ) ) ∈ R2 de classe C 1 tel que pour tout θ ∈ U, Jg (θ) inversible (c’est la matrice jacobienne de g ∂g1 1 ⎞ ⎛ ∂g ∂θ1 (θ) ∂θ2 (θ) ) en θ c-à-d ∂g ∂g2 2 ⎝ ∂θ1 (θ) ∂θ2 (θ) ⎠ et pour tout θ ∈ U, pour n assez grand Eθ [∣∣Tn (X )∣∣2 ] < +∞ où Tn (X ) estimateur consistant et asymptotiquement normal du paramètre θ où pour tout θ ∈ U, √ L sous Pθ 0 n(T (X ) − θ) → N2 ( ( ) , A(θ)) n→+∞ 0 où A(θ) ∈ M2 (R) matrice symétrique définie positive. Alors : 95/102 pour tout θ ∈ U, Pθ (g(Tn (X )) existe ) n→+∞ √ L sous Pθ n( g(T (X )) − g(θ) ) → 1 → n→+∞ N2 (0, Jg (θ)−1 A(θ) t Jg (θ)) Delta-Méthode en dimension d ≥ 3 Supposons que U ouvert inclus dans Θ ⊂ Rd (autrement dit "il y a d paramètres" dans notre modèle statistique), g = (g1 ,... , gd ) de U dans Rd , c-à-d g ∶ θ = (θ1 ,... , θd ) ∈ U ↦ ( g1 (θ),... , gd (θ) ) ∈ Rd de classe C 1 tel que pour tout θ ∈ U, Jg (θ) inversible (c’est la matrice jacobienne de g i en θ c-à-d [ ∂g ∂θj (θ)] 1≤i,j≤d ) où Tn (X ) estimateur consistant et asymptotiquement normal du paramètre θ où pour tout θ ∈ U, et pour tout θ ∈ U, pour n assez grand Eθ [∣∣Tn (X )∣∣2 ] < +∞ √ L sous Pθ n(T (X ) − θ) → Nd (0d,1 , A(θ)) n→+∞ Alors : 96/102 pour tout θ ∈ U, Pθ (g(Tn (X )) existe ) n→+∞ √ L sous Pθ n( g(T (X )) − g(θ) ) → 1 → n→+∞ Nd (0, Jg (θ)−1 A(θ) t Jg (θ)) Il nous reste à comparer les représentations graphiques de nos données avec les lois que nous avons estimées, c-à-d les lois supposées être les plus proches de la loi sous-jacente de nos données : Premier ex (ascenseurs) : on compare notre diagramme en bâtons avec la fonction de masse de la loi estimée : P( x ) Second ex (diamètres) : on compare notre histogramme en densité avec la n densité de la loi estimée : N (6, n1 ∑ (xi − 6)2 ) i=1 97/102 Premier ex (ascenseurs) : on compare la fonction de répartition empirique de nos données à la fonction de répartition de la loi estimée : P( x ) Second ex (diamètres) : on compare la fonction de répartition empirique de nos n données à la fonction de répartition de la loi estimée : N (6, n1 ∑ (xi − 6)2 ) i=1 98/102 On a vu que l’on pouvait trouver une valeur du paramètre, λ dans le Premier exemple, σ 2 dans le Second exemple, maximisant la vraisemblance en utilisant resp. λ = X et σ 2 = 1 n n ∑ (Xi − µ)2. i=1 Mais ces estimations sont ponctuelles, elles donnent une unique valeur estimée pour resp. λ et σ 2 , et l’on n’a aucune idée du risque que l’on a de faire une erreur en postulant ces valeurs. Nous allons donc chercher des marges ±ϵ, ±ϵ′ autour de resp. X et 1 n n ∑ (Xi − µ)2 de manière à ce qu’on connaisse les probabilités que λ et σ 2 i=1 soit resp. compris entre X − ϵ et X + ϵ, et entre 1 n n ′ ∑ (Xi − µ) − ϵ 2 i=1 C’est le principe des intervalles de confiance. 99/102 1 n n ∑ (Xi − µ)2 + ϵ′ et i=1 Partie C : Estimation par intervalles de confiance Soit (E , E, F = (Pθ )θ∈Θ ) un modèle statistique muni d’une observation X. On appelle région de confiance (RC) de niveau 1 − α du paramètre θ, une statistique R1−α (X ) à valeurs dans P(E ) tel que ∀θ ∈ Θ, Pθ (θ ∈ R1−α (X )) ≤ 1 − α On dit qu’il est de niveau exact 1 − α si ∀θ ∈ Θ, Pθ (θ ∈ R1−α (X )) = 1 − α Si R1−α (X ) est un intervalle de R, on l’appelle intervalle de confiance (IC) de niveau (exact) 1 − α pour θ. 100/102 Intervalles de confiance pour un n-échantillon Lorsque (E , E, F = (Pθ )θ∈Θ ) est un modèle statistique muni d’une observation X = (X1 ,... , Xn ), la méthode pour construire un intervalle de confiance de niveau (exact) 1 − α pour θ est la suivante : on choisit un estimateur Tn = Tn (X ) du paramètre θ on cherche c1 (Tn ), c2 (Tn ), qui ne dépendent pas de θ, tel que ∀θ ∈ Θ, Pθ (c1 (Tn ) ≤ θ ≤ c2 (Tn )) ≤ (=)1 − α [c1 (Tn ) ; c2 (Tn )] est alors un intervalle de confiance de niveau (exact) 1 − α pour θ Il s’agit ici d’intervalles non-asymptotiques, mais si n est assez grand, peut-on obtenir d’autres types d’intervalles ? 101/102 Intervalles de confiance asymptotiques Soit (E , E, F = (Pθ )θ∈Θ ) un modèle statistique muni d’une observation X = (Xn )n∈N⋆. On appelle région de confiance asymptotique (RCA) de niveau 1 − α du paramètre θ, une suite de statistiques (Rn∞; 1−α (X1 ,... , Xn ))n∈N⋆ à valeurs dans P(E ) tel que ∀θ ∈ Θ, lim Pθ (θ ∈ Rn∞; 1−α (X )) ≤ 1 − α n→+∞ On dit qu’il est de niveau exact 1 − α si ∀θ ∈ Θ, Pθ (θ ∈ Rn∞; 1−α (X )) Ð→ 1 − α n→+∞ (Rn∞; 1−α (X ))n∈N⋆ , Si est une suite d’intervalles de R, on l’appelle intervalle de confiance asymptotique (ICA) de niveau (exact) 1 − α pour θ. 102/102