Cours Chapitre 0 Statistiques A3S6 2023-2024 PDF

6 février 2024 Statistiques Année 3 Semestre 6 Laetitia DELLA MAESTRA Enseignant-chercheur en Mathématiques [email protected] - Bureau L405 Présentation : Modalités administratives Le module Statistiques A3S6 (06/02 - fin mai) : comporte 5 chapitres, 27h de TD-TP (18 * 1.5h), 9h de CMO ; utilise le langage Python (packages : numpy, scipy, pandas, scikit-learn, statsmodels, matplotlib, seaborn) ; sera évalué de la manière suivante : Deux DST (DST n○ 1 de 45 min, le samedi 23/03/24, sur le Chapitre 1 ; DST n○ 2 de 45 min, le samedi 27/04/24, sur le Chapitre 2) comptant pour 50% (25% chacun) de la note finale du module ; Un examen (sur les Chapitres 1, 2, 3 et 4) fin mai ; correspond à la compétence "C34. Analyser les données en utilisant des méthodes statistiques. Savoir les interpréter et présenter les résultats" du référentiel CTI. Les questions des DST et de l’Examen seront calquées sur les questions des TD (la liste des questions/exercices de TD hors-programme du DST/de l’examen, càd sur lesquels vous ne pourrez pas être interrogés, sera à chaque fois donnée une semaine avant l’échéance, pas avant) 2/82 Présentation : Modalités Pédagogiques Chapitre Chapitre Chapitre Chapitre Chapitre 0 1 2 3 4 : : : : : Rappels de Probabilités (Feuille 0 de TD) Estimation statistique (Feuille 1 de TD) Tests statistiques (Feuille 2 de TD) Régression linéaire simple (Feuille 3 de TD) Régression linéaire multiple (Feuille 4 de TD) Avertissement : la première feuille de TD que nous traiterons, la Feuille 0, est une feuille de Révisions de Probabilités sur les Définitions & Propriétés fondamentales, les Lois usuelles & les Théorèmes limites. Le contenu de cette Feuille 0 est considéré comme des prérequis, et après les 3h de TD qui lui sont consacrées nous ne reviendrons pas dessus, il est de votre responsabilité de retravailler cette feuille de votre côté, et d’apprendre les lois/définitions/propriétés/théorèmes présentés que nous ne connaitriez pas encore. Des questions sur cette Feuille 0 seront posées en DST et en Examen. 3/82 Avertissement Le présent document est l’unique support de cours pour les Chapitres 0 & 1. Il est de votre responsabilité, après ce CMO, de relire chacun des Chapitres pour préparer la Feuille de TD associée. Ce document de cours est très long car il contient tous les résultats, définitions, propriétés, etc... de Probabilités, ainsi que les fondamentaux de Statistiques descriptives, dont nous aurons besoin dans ce module de Statistiques inférentielles Avertissement : si vous ne connaissez pas les lois usuelles et les résultats importants de Probabilités, vous ne pouvez pas faire de Statistiques inférentielles il présente l’ensemble de la démarche statistique face à un jeu de données quantitatives. En plus de ce contenu Mathématique, ce document contient des commandes en Python et de nombreuses représentations graphiques. Mais ce module n’est pas un module de programmation informatique : nous utilisons Python en tant qu’outil numérique et de visualisation de données. 4/82 Présentation : Modalités de programmation (1/2) TD & TP sont mélangés : ↝ dans chaque feuille de TD (voire chaque exercice), à la fois des questions à traiter "sur papier" & des questions à traiter "sur machine" ↝ avoir avec soi à chaque séance de TD de quoi programmer Travail sous Python : utilisation de notebooks via Anaconda & Jupyter fortement recommandée (sinon Spyder ou tout autre IDE pour Python, mais vous devez être autonomes dans leur utilisation, et gérer vous-mêmes les problèmes de compatibilité de packages s’il y en a) ↝ Vous devez l’installer AVANT d’arriver à la 1ère séance de TD 5/82 Présentation : Modalités de programmation (2/2) Packages utilisés & préambules associés : numpy : fonctions mathématiques de base & matrices ↝ import numpy as np (commande help(np) pr plus d’infos sur ce package) scipy : applications mathématiques (optimisation & probabilités) ↝ import scipy (commande help(scipy) pr plus d’infos sur ce package) import scipy.stats as stats import scipy.linalg as linalg pandas : tableaux de données ↝ import pandas statsmodels : statistiques ↝ import statsmodels.api as sma scikit-learn : machine learning ↝ import sklearn as skl matplotlib & seaborn : visualisation ↝ import matplotlib as mpl import matplotlib.pyplot as plt ↝ import seaborn as sns ↝ Vous devez les installer AVANT d’arriver à la 1ère séance de TD 6/82 Bibliographie & Ressources En accès libre sur Internet et où vous pourrez trouver des exercices supplémentaires ↝ Sites de : Marc Bailly-Bechet (Université Lyon I) , Christophe Chesneau (Université de Caen), Marco Cuturi (ENSAE), Paul Liautaud (LPSM), Paul Rochet (Université de Nantes) ; Livres & Autres : L’essentiel : MaxiFiches Statistiques, F. Bertrand & M. Maumy-Bertrand, Dunod Vision globale rigoureuse : Statistique mathématique en action, V. Rivoirard, G. Stoltz, ed. Vuibert ; Probabilités et statistiques (M.-L. Chabanol, J.-J. Ruch, ed. Ellipses) ; Exhaustif : Probabilités, Analyse de données, et Statistiques G. Saporta, ed. Technip ; Bcq d’exemples & exercices : An Introduction to Mathematical Statistics F. Bijma, M. Jonker, A. van der Vaart, ed. Amsterdam University Press. Attention : les seules notations, définitions, appellations, etc... qui font foi dans ce module sont celles du présent cours. 7/82 Les trois temps de la Statistique 1 Collecte & gestion des données : ↝ Data mining/Base de données/plans d’expérience-sondages qualité de la mesure ? renouvellement ? données à garder/jeter ? gestion de grands volumes de données ? questions à poser ? cf. A2S4 Modélisation de données & A3S6 Bases de données et interopérabilité 2 Statistiques descriptives : ↝ Résumé/Visualisation/Réduction de dimension Comment décrire des données complexes, de dimension élevée, en utilisant des indicateurs numériques et des visualisations assez simples (graphiques, diagrammes,...) pour en tirer des tendances ? cf. A2S4 Introduction aux Statistiques 3 8/82 Statistique inférentielle : c’est l’objet de ce module ! ↝ Estimation/Aide à la décision/Prédiction/Sélection de modèles Statistiques & Machine Learning 9/82 Abbréviations & Notations utilisées en CMO nb ↝ nombre ; pr ↝ pour ; dc↝ donc ; ds ↝ dans ; tq ↝ tel que ; tt(e) ↝ tout(e) ; -mt ↝ -ment ; i.e. ↝ id est ; c-à-d ↝ c’est-à-dire ; pt ↝ point ; qq ↝ quelconque ; qd ↝ quand ; fct ↝ fonction ; cv ↝ converge ; obs. ↝ observation ; Def ↝ définition ; Rq ↝ remarque ; Prop ↝ propriété ; Th ↝ théorème ; réal. ↝ réalisation ; obs. ↝ observation ; proba. ↝ probabilité ; stat. ↝ statistique ; LGN ↝ Loi des Grands Nombres ; TCL ↝ Théorème Central-Limite x ∶=... ↝ x est défini comme étant égal à... ; ∣∣.∣∣d norme euclidienne de Rd ; ssi, ⇔ : si et seulement si ; ⇒ implique ; ∀ pour tout ; ∃ il existe ; ⌊x ⌋ : partie entière de x ∈ R ↝ ⌊x ⌋ ∈ Z, ⌊x ⌋ ≤ x < ⌊x ⌋ + 1 ; ! factorielle ↝ pour n ∈ N⋆ , n! = n(n − 1)... 2... 1, et 0! = 1 Fonction indicatrice : pr E un ensemble (par ex E = R) et I ⊂ E (par ex I pr tout t ∈ E , 1I (t) = 1 si t ∈ I et 1I (t) = 0 si t ∉ I) Attention : une erreur dans l’utilisation de cette fonction en DST/Examen vous coûtera −1 point sur 20 intervalle de R) ⊥ ↝ indépendants ; i.d. ↝ identiquements distribués ; i.i.d. ↝ indépendants et identiquement distribués ; Sn (R)+⋆ matrices n × n symétriques définies positives ; 10/82 Chapitre 0 : Rappels de Probabilités Partie A : Bases des Probabilités Vocabulaire : On appelle espace de probabilité un triplet (Ω, A, P) où Ω est un ensemble, appelé univers on note ↝ P(Ω) l’ensemble des parties de Ω, ↝ ω un élément générique de Ω A, appelé tribu sur Ω, est un sous-ensemble de P(Ω), ↝ on appelle évènement un élément A de A Rq (Hors-Programme) : A doit en fait vérifier les trois propriétés suivantes : Ω ∈ A et ∅ ∈ A si A ∈ A, alors Ac ∶= Ω/A ∈ A pour (Ai )i∈N des évènements deux à deux disjoints (i.e. pour i, j ∈ N tel que i ≠ j, Ai ∩ Aj = ∅), ⋃ Ai ∈ A P est une mesure de probabilité sur (Ω, A) càd : i∈N P ∶ A ∈ A ↦ P(A) ∈ [0, 1] P(Ω) = 1 et P(∅) = 0 P est σ-additive Hors-Programme : cela signifie que pour (Ai )i∈N des évènements deux à +∞ deux disjoints (i.e. pour i, j ∈ N tel que i ≠ j, Ai ∩ Aj = ∅), P( ⋃ Ai ) = ∑ P(Ai ) i∈N 11/82 i=0 En particulier, pr A ∈ A, on a P(Ac ) = 1 − P(A) (où Ac ∶= Ω/A) tribu borélienne de R la plus petite tribu sur R contenant tous les intervalles ouverts de R ↝ on note B(R) la tribu borélienne de R ↝ B(R) contient également ts les singletons, ts les intervalles fermés, semi-fermés/ouverts, les réunions/intersections de deux/trois/quatre/... intervalles/singletons, etc... variable aléatoire réelle sur (Ω, A, P) tte fct X ∶ Ω → R ( = random variable) Hors-Programme : en fait X doit être de plus mesurable de (Ω, A) vers (R, B(R)) signifie que pour tout B ∈ B(R), on −1 −1 doit avoir X (B) ∈ A, où X (B) est l’image réciproque de B par l’application X , càd X −1 (B) = {ω ∈ Ω ; X (ω) ∈ B} ↝ on notera v.a.r. à la place de variable aléatoire réelle loi de probabilité de la v.a.r. X la mesure de probabilité, notée PX , définie sur (R, B(R)) par PX ∶ I ∈ B(R) ↦ PX (I) = P(X ∈ I) = P( {ω ∈ Ω ; X (ω) ∈ I} ) = P(X −1 (I)) Remarques : Attention : ici, X −1 (I) est l’image réciproque de l’ensemble réel I par X càd X −1 (I) = {ω ∈ Ω ; X (ω) ∈ I} ; il n’est ici absolument pas question d’inverse ou de bijection réciproque ! ! En particulier I peut être un singleton, un intervalle, la réunion/intersection de deux singletons/intervalles, etc... Attention à ne pas confondre P, qui est une loi de probabilité sur Ω, et PX , qui est une loi de probabilité sur R, la loi de la v.a.r. X (X est une application de Ω Ð→ R qui "transporte" la loi de probabilité P sur Ω vers PX sa loi de probabilité sur R) 12/82 fonction de répartition associée à la v.a.r. X et à la loi PX la fonction, notée FX ou FPX , et abrégée en f.d.r (= cumulative distribution function) définie par FX = FPX ∶ t ∈ R ↦ PX (] − ∞ ; t]) = P(X ≤ t) ∈ [0, 1] ↝ FX est croissante ↝ cela implique (cf. A1S1 Théorème de la Borne Supérieure dans R ou Théorème de la Limite Monotone pour les suites réelles) que FX admet une limite à gauche en tout point t0 de R (on dira que FX est l.à.g.) ↝ on notera cette limite à gauche de FX en t0 par FX− (t0 ) ∶= lim FX (t) = lim− FX (t) = lim− P(X ≤ t) = P(X < t0 ) t→t0 tt0 t→t0 t→t0 ↝ FX (t) Ð→ 0 et FX (t) Ð→ 1 t → −∞ t → +∞ Ces trois propriétés caractérisent une fonction de répartition d’une v.a.r. : si F ∶ R Ð→ [0, 1] croissante, c.à.d., de limite 0 (resp. 1) en −∞ (resp. +∞), alors F est la fonction de répartition d’une v.a.r. 13/82 Nous distinguons deux sortes de lois de probabilités sur R et de v.a.r. X : les lois/v.a.r. discrètes caractérisées par X (Ω) ensemble discret et FX constante par morceaux. Ds ce cas, on définit la fonction de masse de X (dite aussi fonction de masse de la loi PX ) (= probability mass function) , notée pX ou pPX , par : pX ∶ t ∈ R ↦ pX (t) = PX ({t}) = P(X = t) ↝ Ex de lois discrètes que nous étudierons : Bernoulli B, Binomiale Bin, Poisson P, Géométrique G les lois/v.a.r. continues à densité caractérisées par FX continue sur R et dérivable en tt point de R (sauf éventuellement en un nb fini de pts). Ds ce cas, on définit la densité de X (dite aussi densité de la loi PX ) (= probability density function) , notée fX ou fPX , comme la dérivée de FX en tt point de R où FX dérivable, et 0 ailleurs : fX est une fct ≥ 0 et x ↝ pour tout x ∈ R, FX (x ) = ∫−∞ fX (t) dt ↝ pour tout I ∈ B(R), PX (I) = P(X ∈ I) = ∫I fX (t) dt en particulier, pr tt x ∈ R, PX ({x }) = P(X = x ) = 0 1 ATTENTION ces formules sont à connaître par coeur : erreur ↝ − 20 ↝ Ex de lois que ns étudierons : Uniforme U , Exponentielle E, Gamma Γ, Normale N , Chi2 χ2 , Student t, Fisher F 14/82 Caractérisation de la loi de probabilité d’une v.a.r. X et Y v.a.r. définies sur (Ω, A, P) ont même loi (sous P), ce que l’on note L L sous P X = Y (ou X = Y ) si PX = PY c-à-d pour tout I ∈ B(R), P(X ∈ I) = PX (I) = PY (I) = P(Y ∈ I). Ce qui est équivalent à : X et Y ont même f.d.r. : FX = FY pX = pY (resp. fX = fY (sauf éventuellemt en un nb fini de pts ) ) si X et Y v.a.r. discrètes (resp. si X et Y v.a.r. continues à densité ) pr tte fct test Φ ∶ R → R continue bornée E[Φ(X )] = E[Φ(Y )] Rappel (Théorème de Transfert) : si X v.a.r. discrète, E[Φ(X )] = ∑ Φ(x )P(X = x ) x ∈X (Ω) si X v.a.r. continue à densité, E[Φ(X )] = ∫R Φ(x ) fX (x ) dx Remarques : PX (I) = E[1I (X )] , donc la propriété "pr tt I ∈ B(R), PX (I) = PY (I)" équivaut à la propriété "pr tte fct Φ de la forme Φ = 1I , où I ∈ B(R), E[Φ(X )] = E[Φ(Y )]" FX (t) = P(X ≤ t) = PX (] − ∞ ; t]) = E−∞ ; t] (X )] , donc la propriété "FX = FY ", qui signifie "pr tt t ∈ R, FX (t) = FY (t)", équivaut à la propriété "pr tte fct Φ de la forme Φ = 1]−∞ ; t] , où t ∈ R, E[Φ(X )] = E[Φ(Y )]" 15/82 Fonction quantile On appelle fonction quantile associée à la v.a.r. X et à la loi PX , et l’on note q X , q FX ou q PX (= percent point function) , la fonction pseudo-inverse de la fonction de répartition FX : q PX ∶ α ∈]0, 1[ z→ qαPX = q PX (α) ∶= inf { t ∈ R ; FX (t) ≥ α } Propriétés : q PX est continue à gauche Si X v.a.r. discrète, q PX est une fct constante par morceaux Si X v.a.r. continue à densité, et s’il existe I intervalle de R tq FX est bijective de I →]0, 1[ (c-à-d que FX est strictement croissante sur I) alors q PX = FX−1 , autrement dit q PX est la bijection réciproque de FX restreinte à I. Rq : de manière générale, le graphe de q PX s’obtient en prenant le "symétrique" du graphe de FX. 16/82 Moments d’une loi de probabilité On s’intéresse aux quantités suivantes d’une v.a.r. X et de sa loi PX (sous réserve que ces quantités existent) ⎧ ⎪ ⎪ ∑ x P(X = x) si X est discrète Espérance (=mean) de X : E[X ] ∶= ⎨ x∈X (Ω) ⎪ ⎪ ⎩ ∫R x fX (x)dx si X est continue à densité Rq : si X ≥ 0, alors E[X ] ≥ 0 Moment d’ordre 2 ( = second moment) de X 2 ⎧ si X est discrète ⎪ ⎪ x∈X∑(Ω) x P(X = x) 2 ↝ E[X ] ∶= ⎨ ⎪ 2 ⎪ si X est continue à densité ⎩ ∫R x fX (x)dx Variance ( = variance) de X = Moment centré d’ordre 2 ( = second central 2 2 2 moment) de X ↝ Var[X ] ∶= E[(X − E[X ]) ] = E[X ] − (E[X ]) Pr tte v.a.r. X , on a Var[X ] ≥ 0 ; de plus, Var[X ] = 0 ⇔ X = E[X ] √ Ecart-type (= standard deviation) de X ↝ σ(X ) ∶= Var[X ] k ⎧ ⎪ ∑ x P(X = x) ⎪ ⎪ Moment d’ordre k ∈ N, k ≥ 3 : E[X k ] =∶= ⎨ x∈X (Ω) ⎪ k ⎪ ⎪ ⎩ ∫R x fX (x)dx 17/82 si X est discrète si X est continue à densité 1 Propriétés Espérance & Variance (A SAVOIR PAR COEUR : erreur ↝ − 20 ) Pour α, β, γ ∈ R et X , Y deux v.a.r. (admettant un moment d’ordre 2 fini) L’espérance est linéaire : E[αX + βY + γ] = α E[X ] + β E[Y ] + γ En particulier : E[γ] = γ ; E[E[X ]] = E[X ] ; E[X − E[X ]] = 0 ↝ une v.a.r. d’espérance 0 est dite centrée La variance est quadratique : Var[αX + β] = α2 Var[X ] En particulier : Var[β] = 0 ; et si Var[X ] ≠ 0 X Var[X ] Var[ √ ]=1 ↝ une v.a.r. de variance 1 est dite réduite Rq : si X ⊥ Y , Var[X + Y ] = Var[X ] + Var[Y ] ATTENTION : ceci est FAUX si X et Y ne sont pas indépendantes Une v.a.r. d’espérance 0 et de variance 1 est dite centrée-réeduite X −E[X ] ↝ on a √ centrée-réduite Var[X ] Remarque : E[X ] = argmin E[(X − u)2 ] et Var[X ] = min E[(X − u)2 ] u∈R (on dit que E[X ] est la projection orthogonale de X sur l’espace des v.a.r. constantes) 18/82 u∈R Médiane(s) & Symétrie On appelle médiane usuelle d’une v.a.r. X et de sa loi PX tt réel m P(X ≥ m) ≥ 12 PX ([m, +∞[) ≥ 12 FX (m− ) ≤ 21 tq { càd { càd { P(X ≤ m) ≥ 12 PX (] − ∞; m]) ≥ 12 FX (m) ≥ 12 Attention : la médiane usuelle n’est pas forcément unique ! Propriété : si X v.a.r. continue à densité, m médiane usuelle de X ⇔ FX (m) = 1 2 On appelle médiane théorique d’une v.a.r. X , ou de manière équivalente, de sa loi de probabilité PX , l’unique réel q P1 X 2 Attention : de manière générale la médiane usuelle et la médiane théorique d’une v.a.r. ne sont pas forcément égales. Propriété : si X v.a.r. continue à densité, et si FX est strictement croissante (et donc bijective), la médiane usuelle et la médiane théorique sont égales, et valent q P1 X = FX−1 ( 12 ) 2 19/82 L X et PX sont dites symétriques par rapport à 0 si X = −X Pour b ∈ R qq, X et PX sont dites symétriques par rapport à b L si X − b est symétrique par rapport à 0, c-à-d (X − b) = −(X − b), ou L encore X = 2b − X X symétrique par rapport à b ⇒ b médiane usuelle de X Attention : ( b médiane usuelle de X ) n’implique pas ( X symétrique par rapport à b ) Si X v.a.r. discrète et symétrique par rapport à b, alors la courbe représentative de la fonction de masse pX de X est symétrique par rapport à la droite x = b, c-à-d ∀t ∈ R⋆+ , pX (b − t) = pX (b + t) Rq : pour b = 0, cela signifie que la fct pX est paire Si X v.a.r. continue à densité et symétrique par rapport à b, alors la courbe représentative de la densité fX de X est symétrique par rapport à la droite x = b, c-à-d ∀t ∈ R⋆+ , fX (b − t) = fX (b + t) De plus, ∀x ∈ R, FX (x ) = 1 − FX (2b − x ) Rq : pour b = 0, cela signifie que la fct fX est paire, et que ∀x ∈ R, FX (x ) = 1 − FX (−x ) Rq : une loi à support semi-infini ne peut pas être symétrique 20/82 Donc pour X v.a.r. continue à densité, tq FX est strictement croissante (et donc bijective), et X symétrique par rapport à 0, cas de la loi N (0, 1), (et aussi de la loi de Student) 0 est la médiane théorique et l’unique médiane usuelle de X : FX (0) = 12 , q P1 X = 0 2 la fonction fX est paire : ∀x ∈ R, fX (x ) = fX (−x ), et sa courbe représentative est symétrique par rapport à l’axe des ordonnées FX et q PX sont bijections réciproques l’une de l’autre PX ∀x ∈ R, FX (x ) = 1 − FX (−x ) et ∀α ∈]0, 1[, q1−α = − qαPX 21/82 Vecteurs aléatoires Pour d ∈ N, d ≥ 2, on appelle vecteur aléatoire réel de taille d sur (Ω, A, P) un vecteur X = (X1 ,. , Xd ) tel que X1 ,. , Xd v.a.r. sur (Ω, A, P) Pour d = 2 (resp. d = 3) on appelle également X = (X1 , X2 ) (resp. X = (X1 , X2 , X3 )) couple (resp. triplet) de v.a.r. Pour d = 2, on définit la loi de probabilité jointe du couple de v.a.r. X = (X1 , X2 ) comme la mesure de probabilité PX = P(X1 ,X2 ) sur R2 (muni de la tribu B(R)⊗2 = B(R2 )) tel que pour tous I1 , I2 ∈ B(R), P(X1 ,X2 ) (I1 × I2 ) ∶= P(X1 ∈ I1 , X2 ∈ I2 ) ou bien avec d’autres notations P(X ,X ) (I1 × I2 ) = P( {X1 ∈ I1 } ∩ {X2 ∈ I2 } ) 1 2 ou encore P(X ,X ) (I1 × I2 ) = P( {ω ∈ Ω ; X1 (ω) ∈ I1 et X2 (ω) ∈ I2 } ) 1 2 ↝ on dit que X1 et X2 sont indépendantes, et l’on note alors P(X1 ,X2 ) = PX1 ⊗ PX2 (dit produit tensoriel des lois de probabilités PX1 et PX2 ) , si pour tous I1 , I2 ∈ B(R), P(X1 ,X2 ) (I1 × I2 ) = PX1 (I1 ) PX2 (I2 ) ou encore avec d’autres notations pour tous I1 , I2 ∈ B(R), P(X1 ∈ I1 , X2 ∈ I2 ) = P(X1 ∈ I1 ) P(X 2 ∈ I2 ) 22/82 Pour d ≥ 3, on définit la loi de probabilité jointe du vecteur aléatoire réel X = (X1 ,. , Xd ) comme la mesure de probabilité PX = P(X1 ,...,Xd ) sur Rd (muni de la tribu B(R)⊗d = B(Rd )) tel que pr ts I1 ,. , Id ∈ B(R), P(X1 ,. ,Xd ) (I1 ×...× Id ) ∶= P(X1 ∈ I1 ,... , Xd ∈ Id ) ou bien avec d’autres notations P(X ,. ,X ) (I1 ×... × Id ) = P( {X1 ∈ I1 } ∩... , ∩ {Xd ∈ Id } ) 1 d ou encore P(X ,. ,X ) (I1 ×... × Id ) = P( {ω ∈ Ω ; X1 (ω) ∈ I1 ,... , Xd (ω) ∈ Id } ) 1 d ↝ on dit que (X1 ,. , Xd ) sont globalement indépendantes (ce que l’on abrégera en (X1 ,. , Xd ) sont indépendantes), et l’on note alors P(X1 ,. ,Xd ) = PX1 ⊗... ⊗ PXd (dit produit tensoriel des lois de probabilité PX1 ,... , PX ) pour tous I1 ,. , Id ∈ B(R), d , si d P(X1 ,. Xd ) (I1 ×... × Id ) = PX1 (I1 )... PXd (Id ) = ∏ PXk (Ik ) k=1 ou encore, avec d’autres notations, si pour tous I1 ,. , Id ∈ B(R), d P(X1 ∈ I1 ,. , Xd ∈ Id ) = P(X1 ∈ I1 )... P(X d ∈ Id ) = ∏ P(Xk ∈ Ik ) k=1 23/82 Processus aléatoire réel à temps discret On appelle processus aléatoire réel à temps discret (ou encore "vecteur aléatoire de taille infinie", ou suite aléatoire) (= random sequence) sur (Ω, A, P) une suite infinie X = (X1 ,... , Xd , Xd+1 ,...) tel que pour tout i ∈ N⋆ , Xi v.a.r. sur (Ω, A, P) On définit la loi de probabilité de X comme la mesure de probabilité PX sur RN (muni d’une tribu A dont on ne parlera pas) tel que pr tt n ∈ N⋆ , pr ts 1 ≤ i1 < i2 <... < in < +∞, pr ts Ii1 ,. , Iin ∈ B(R), PX (Ii1 ×... × Iin ) ∶= P(Xi1 ∈ Ii1 ,... , Xin ∈ Iin ) Attention : on a fait un abus de notation, en fait à la place de Ii1 ×... × Iin il faudrait écrire i −1 R1 i −1−i1 × Ii1 × R 2 i −1−(i1 +...+in−1 ) × I i2 ×... × R n × Iin × R N/J0,in K Remarque : cela signifie que la loi de la suite infinie de v.a.r. X = (Xi )i∈N⋆ est caractérisée par l’ensemble des lois des sous-vecteurs finis extraits de X càd par {P(Xi1 ,...,Xin ) ; n ∈ N⋆ , 1 ≤ i1 < i2 <... < in < +∞} 24/82 ↝ on dit que les Xi , i ∈ N⋆ sont globalement indépendantes (ce que l’on abrégera en les Xi , i ∈ N⋆ sont indépendantes ou (Xi )i∈N⋆ indépendantes), et l’on note alors PX = ⊗ PXi i∈N⋆ , si pr tt n ∈ N , pr ts 1 ≤ i1 < i2 <... < in < +∞, pr ts Ii1 ,. , Iin ∈ B(R), (dit produit tensoriel des lois PXi , i ∈ N⋆ ) ⋆ n PX (Ii1 ×... × Iin ) = PXi1 (Ii1 )... PXin (Iin ) = ∏ PXik (Iik ) k=1 n c-à-d = P(Xi1 ∈ Ii1 )... P(X in ∈ Iin ) = ∏ P(Xik ∈ Iik ) k=1 Remarque : cela signifie que les v.a.r. X = (Xi )i∈N⋆ sont (globalement) indépendantes si et seulement si les v.a.r. de tout sous-vecteur fini extrait de X sont (globalement) indépendantes, càd si pr tt n ∈ N⋆ , pr ts 1 ≤ i1 < i2 <... < in < +∞, (Xi1 ,. , Xin ) sont (globalement) indépendantes 25/82 Partie B : Lois de probabilité usuelles Nous allons à présent rappeler les lois de probabilité usuelles ainsi que leurs propriétés dont nous aurons besoin dans la suite. Nous présenterons également des lois nouvelles, dérivées de la loi Normale, et dont nous aurons besoin dans les chapitres suivants. Mais avant, petit détour par les commandes Python qui nous serons utiles par la suite et correspondent à ces lois de probabilité usuelles. 26/82 Commandes générales scipy.stats Pr une loi de probabilité générique law, de paramètres args, et X une v.a.r. de loi law, voici les commandes pr obtenir ses caractéristiques & propriétés : si law loi discrète, la fonction de masse de law au point x est : ↝ stats.law.pmf(x, args) ( = probability mass function) si law loi continue à densité, la densité de law au point x est : ↝ stats.law.pdf(x, args) ( = probability density function) la fonction de répartition de law au point x : ↝ stats.law.cdf(x, args) ( = cumulative distribution function) la fonction quantile de law au point α ↝ stats.law.ppf(α, args) ( = percentile point function) l’espérance de law est : ↝ stats.law.stats(args, moments=’m’) 27/82 la variance de law est : ↝ stats.law.stats(args, moments=’v’) (’m’ pour mean) (’v’ pour variance) Lois discrètes Loi de Bernoulli B(θ), θ ∈]0, 1[ : X (Ω) = {0, 1}, modélise un lancer d’une pièce à Pile ou Face avec probabilité θ de tomber sur Pile, assimilé à 1 (et donc 1 − θ de tomber sur Face, assimilé à 0) ↝ law = bernoulli et args = θ Fonction de masse : ↝ stats.bernoulli.pmf(x, θ) ⎧ 0 si x ∉ {0, 1} ⎪ ⎪ ⎪ si x = 0 pX (x) = pB(θ) (x) = P(X = x) = ⎨ 1 − θ ⎪ ⎪ ⎪ si x = 1 ⎩ θ Fonction de répartition : ↝ stats.bernoulli.cdf(x, θ) ⎧ 0 si x < 0 ⎪ ⎪ ⎪ si 0 ≤ x < 1 FX (x) = FB(θ) (x) = P(X ≤ x) = ⎨ 1 − θ ⎪ ⎪ ⎪ si x ≥ 1 ⎩ 1 0 1 ↝ stats.bernoulli.ppf(α, θ) Fonction quantile : q B(θ) (α) = { 28/82 si 0 < α ≤ 1 − θ si 1 − θ < α Espérance : E[X ] = θ ↝ stats.bernoulli.stats(θ, moments=’m’) Variance : Var[X ] = θ(1 − θ) ↝ stats.bernoulli.stats(θ, moments=’v’) 29/82 Loi Binomiale Bin(n, θ), θ ∈]0, 1[ : X (Ω) = {0, 1,... , n} = J0, nK modélise le nombre de Pile obtenus au cours de n lancers indépendants d’une pièce à Pile ou Face avec probabilité θ de tomber sur Pile ↝ law = binom et args = (n, θ) Fonction de masse : ↝ stats.binom.pmf(x,n, θ) 0 pX (x) = pBin(n,θ) (x) = P(X = x) = { x x Cn θ (1 − θ)n−x si x ∉ J0, nK si x ∈ J0, nK Fonction de répartition : ↝ stats.binom.cdf(x,n, θ) ⎧ 0 si x < 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⌊x⌋ k k FX (x)) = FBin(n,θ) (x) = ⎨ ∑ Cn θ (1 − θ)n−k si 0 ≤ x < n ⎪ ⎪ k=0 ⎪ ⎪ ⎪ ⎪ si x ≥ n ⎩ 1 Fonction quantile : ↝ stats.binom.ppf(α, n, θ) q Bin(n,θ) (α) ⎧ 0 si 0 < α ≤ (1 − θ)n = FBin(n,θ) (0) ⎪ ⎪ ⎪ = ⎨ k si FBin(n,θ) (k − 1) < α ≤ FBin(n,θ) (k) pr k ∈ J1, n − 1K ⎪ ⎪ ⎪ ⎩ n si FBin(n,θ) (n − 1) < α < 1 30/82 31/82 Espérance : E[X ] = nθ ↝ stats.binom.stats(n, θ, moments=’m’) Variance : Var[X ] = nθ(1 − θ) ↝ stats.binom.stats(n, θ, moments=’v’) Propriétés de la loi binomiale : la loi Bin(n, 12 ) est symétrique par rapport à n2 , et donc admet n2 pour médiane usuelle (rq : pour p ≠ 21 , Bin(n, p) n’admet pas de symétrie : si p > 21 , Bin(n, p) est "décalée vers la droite" ; si p < 12 , Bin(n, p) est "décalée vers la gauche" ) i.i.d. n Si X1 ,... , Xn ∼ B(θ) alors ∑ Xi ∼ Bin(n, θ) i=1 Si X ∼ Bin(n1 , θ), Y ∼ Bin(n2 , θ), et X ⊥ Y , alors X + Y ∼ Bin(n1 + n2 , θ) 32/82 Loi de Poisson P(λ), λ ∈ R⋆+ : X (Ω) = N modélise le nombre d’événements se produisant dans un intervalle de temps fixé, si ces événements se produisent avec une fréquence moyenne λ, et indépendamment du temps écoulé depuis l’événement précédent. ↝ law = poisson et args = λ Fonction de masse : pX (x) = pP(λ) (x) = { ↝ stats.poisson.pmf(x, λ) 0 e −λ λx x! si x ∉ N si x ∈ N Fonction de répartition : ↝ stats.poisson.cdf(x,λ) ⎧ 0 si x < 0 ⎪ ⎪ ⎪ ⌊x⌋ FX (x) = FP(λ) (x) = ⎨ k ⎪ si 0 ≤ x ∑ e −λ λk! ⎪ ⎪ ⎩ k=0 Fonction quantile : ↝ stats.poisson.ppf(α, λ) q P(λ) (α) 0 si 0 < α ≤ e −λ = FP(λ) (0) ={ k si FP(λ) (k − 1) < α ≤ FP(λ) (k) pr k ∈ N, k ≥ 1 (La loi de Poisson n’admet pas de symétrie car son support est semi-infini) 33/82 Espérance : E[X ] = λ ↝ stats.poisson.stats(λ, moments=’m’) Variance : Var[X ] = λ ↝ stats.poisson.stats(λ, moments=’v’) Propriété de la loi de Poisson : Si X1 ∼ P(λ1 ), X2 ∼ P(λ2 ) et X1 ⊥ X2 , alors X1 + X2 ∼ P(λ1 + λ2 ) 34/82 Loi Géométrique G(θ), θ ∈]0, 1[ : X (Ω) = N⋆ , modélise le nb de lancers nécessaires pour obtenir un premier Pile au jeu de Pile ou Face avec des lancers indépendants et une probabilité p de tomber sur Pile à chaque lancer ↝ law = geom et args = θ Fonction de masse : pX (x) = pG(θ) (x) = { ↝ stats.geom.pmf(x, θ) 0 (1 − θ)x−1 θ si x ∉ N⋆ si x ∈ N⋆ Fonction de répartition : ↝ stats.geom.cdf(x,θ) ⎧ 0 si x < 1 ⎪ ⎪ ⎪ ⌊x⌋ FG(θ) (x) = ⎨ ⎪ si 1 ≤ x ∑ (1 − θ)k−1 θ ⎪ ⎪ ⎩ k=1 Fonction quantile : ↝ stats.geom.ppf(α, λ) 1 si 0 < α ≤ θ = FG(θ) (1) q G(θ) (α) = { k + 1 si FG(θ) (k) < α ≤ FG(θ) (k + 1) pr k ∈ N, k ≥ 1 (La loi Géométrique n’admet pas de symétrie car son support est semi-infini) 35/82 Espérance : E[X ] = 1θ ↝ stats.geom.stats(θ, moments=’m’) Variance : Var[X ] = 1−θ θ2 ↝ stats.geom.stats(θ, moments=’v’) 36/82 Lois continues à densité Loi Uniforme U([a, b]), a, b ∈ R, a < b : X (Ω) = [a, b], modélise une expérience dont l’issue prend une valeur arbitraire entre les bornes a et b et où tous les intervalles de même longueur inclus dans [a, b] sont équiprobables. ↝ law = uniform , et pour args : loc = a, scale = b − a si x < a ou x > b si x ∈ [a, b] ↝ stats.uniform.pdf(x, loc = a, scale = b − a) Densité : fU ([a,b]) (x) = 1 b−a 1[a,b] (x) ={ 0 1 b−a 1 1 (Autre possibilité : X (Ω) =]a, b[ et fX (x) = b−a ]a,b[ (x), les deux fcts sont égales sur R sauf en deux points, a et b.) ⎧ 0 ⎪ ⎪ ⎪ x −a Fonction de répartition : FU ([a,b]) (x) = ⎨ b−a ⎪ ⎪ ⎪ ⎩ 1 ↝ stats.uniform.cdf(x, loc = a, scale = si x < a si a ≤ x < b si x ≥ b b − a) Fonction quantile : q U ([a,b]) (α) = a + α (b − a) x −a = α ⇔ x = a + α (b − a) car, pour x ∈]a, b[, b−a ↝ stats.uniform.ppf(α, loc = a, scale = b − a) q U ([a,b]) est la bijection réciproque de la fct FU ([a,b]) restreinte à ]a, b[ 37/82 38/82 Propriétés : Espérance : E[X ] = a+b 2 ↝ stats.uniform.stats(loc = a, scale = b − a, moments=’m’) (b−a)2 Variance : Var[X ] = 12 ↝ stats.uniform.stats(loc = a, scale = b − a, moments=’v’) a+b U([a, b]) est symétrique par rapport à a+b 2 et 2 est à la fois la médiane théorique et l’unique médiane usuelle de la loi U([a, b]) X ∼ U([a, b]) ⇔ X −a b−a ∼ U([0, 1]) Si X ∼ U([0, 1]), alors pr ts a, b ∈ R tq a < b, a + (b − a)X ∼ U([a, b]) Si X ∼ U([a, b]), α, β ∈ R, α ≠ 0, alors U([αa + β , αb + β ]) si α > 0 αX + β ∼ { U([αb + β , αa + β ]) si α < 0 39/82 Loi Exponentielle E(λ), λ ∈ R⋆+ : X (Ω) = R+ , modélise la durée de vie d’un phénomène sans mémoire (par ex la durée de vie d’une ampoule électrique) , ou sans vieillissement, sans usure (la probabilité que le phénomène dure au moins s + t heures, ou n’importe quelle autre unité de temps, sachant qu’il a déjà duré t heures sera la même que la probabilité de durer s heures à partir de sa mise en fonction initiale ; en d’autres termes, le fait que le phénomène ait duré pendant t heures ne change rien à son espérance de vie à partir du temps t. ↝ law = expon et args : scale = 1/λ Densité : fX (x) = fE(λ) (x) = λe −λx 1R+ (x) = { ↝ stats.expon.pdf(x, scale= 1/λ) 0 λe −λx si x < 0 si x ≥ 0 −λx (Remarque : on peut aussi dire que X (Ω) = R⋆ 1R⋆ (x), les deux fcts sont égales sur R sauf en 0.) + et fX (x) = λe + Fonction de répartition : ↝ stats.expon.cdf(x, scale=1/λ) 0 si x < 0 FE(λ) (x) = { 1 − e −λx si 0 ≤ x Fonction quantile : ↝ stats.expon.ppf(α, scale=1/λ) ln(1−α) ln(1−α) q E(λ) (α) = − λ car, pr x > 0, 1 − e −λx = α ⇔ x = − λ q E(λ) est la bijection réciproque de la fonction FE(λ) restreinte à R⋆+ (Remarque : La loi Exponentielle est analogue continu de la loi Géométrique : si X ∼ E(λ), la partie entière supérieure de X suit une loi Géométrique G(1 − e −λ )) 40/82 Espérance : E[X ] = λ1 ↝ stats.expon.stats(scale=1/λ, moments=’m’) Variance : Var[X ] = λ12 ↝ stats.expon.stats(scale=1/λ, moments=’v’) La médiane théorique et l’unique médiane usuelle sont égales, et valent q E(λ) ( 21 ) = − ln(1− 21 ) λ = ln2 λ car FE(λ) est strictement croissante de R⋆ + dans ]0, 1[. (Mais la loi Exponentielle n’admet pas de symétrie car son support est semi-infini) Si X ∼ E(λ) et α ∈ R⋆+ , αX ∼ E( αλ ) 41/82 Loi Gamma Γ(k, λ), k, λ ∈ R⋆+ : X (Ω) = R+ , modélise le temps d’attente avant que se produise le nème pour une suite d’évènements avec un temps d’attente suivant une loi exponentielle de paramètre λ entre chaque évènement. ↝ law = gamma et args : a =k, scale = 1/λ ⎧ ⎪ 0 si x < 0 ⎪ λk −λx k−1 e x 1R+ (x) = ⎨ λk −λx k−1 Densité : fX (x) = Γ(k) e x si x ≥ 0 ⎪ ⎪ ⎩ Γ(k) ↝ stats.gamma.pdf(x, a=k, scale=1/λ) +∞ où Γ(k) = ∫0 e −t t k−1 dt est le coefficient de normalisation ; en particulier, si k ∈ N⋆ , Γ(k) = (k − 1)! Rq : Γ(1, λ) = E(λ) Fonction de répartition : ↝ stats.gamma.cdf(x,a=k,scale=1/λ) ⎧ ⎪ si x < 0 ⎪ 0 FΓ(k,λ) (x) = ⎨ x x λk −λt k−1 si 0 ≤ x ⎪ ∫0 fX (t)dt = ∫0 Γ(k) e t dt ⎪ ⎩ Fonction quantile : ↝ stats.gamma.ppf(α, a = k , scale=1/λ) −1 q Γ(k,λ) (α) = FΓ(k,λ) (α) Rq : il n’y a pas d’expression explicite de la fonction quantile d’une loi Gamma ; on peut seulement dire que c’est la bijection réciproque de la fonction de répartition restreinte à R⋆ +. 42/82 (La loi Gamma n’admet pas de symétrie car son support est semi-infini) Espérance : E[X ] = λk ↝ stats.gamma.stats(a = k, scale=1/λ, moments=’m’) Variance : Var[X ] = λk2 ↝ stats.expon.stats(a = k, scale=1/λ, moments=’v’) La médiane théorique et l’unique médiane usuelle sont égales, et valent q Γ(k,λ) ( 21 ) car FE(λ) est strictement croissante de R⋆+ dans ]0, 1[. mais n’ont pas d’expression "explicite". (Et la loi Gamma n’admet pas de symétrie car son support est semi-infini) n Si n ∈ N⋆ , λ ∈ R⋆+ et X1 ,... , Xn ∼ E(λ), alors ∑ Xi ∼ Γ(n, λ) i.i.d. i=1 43/82 Loi Normale N (µ, σ 2 ), µ ∈ R, σ 2 ∈ R⋆+ : X (Ω) = R, modélise, à travers le Théorème Central-Limite le comportement de quantités physiques supposées être la somme de quantités issues d’un grand nombre de processus indépendants (comme des erreurs de mesures) ↝ law = norm , et pour args : loc = µ, scale = σ (x −µ)2 Densité : fX (x) = fN (µ,σ2 ) (x) ∶= √ 1 2 e − 2σ2 2πσ ↝ stats.norm.pdf(x, loc = µ, scale = σ) Fonction de répartition : x x FN (µ,σ2 ) (x) = ∫−∞ fX (t)dt = ∫−∞ √ 1 2πσ 2 e− (t−µ)2 2σ 2 Rq : il n’y a pas d’expression explicite de la fonction de répartition d’une loi normale ; on peut juste dire que c’est la primitive de la densité. ↝ stats.norm.cdf(x, loc = µ, scale = σ) −1 Fonction quantile : q N (µ,σ ) (α) = FN (µ,σ 2 ) (α) 2 Rq : il n’y a pas d’expression explicite de la fonction quantile d’une loi normale ; on peut seulement dire que c’est la bijection réciproque de la fonction de répartition. ↝ stats.norm.ppf(α, loc = µ, scale = σ) 44/82 Espérance : E[X ] = µ ↝ stats.norm.stats(loc = µ, scale = σ, moments=’m’) Variance : Var[X ] = σ 2 ↝ stats.norm.stats(loc = µ, scale = σ, moments=’v’) Remarque : pour µ = 0, E[X ] = E[X 3 ] = 0, et E[X 4 ] = 3σ 4 45/82 Pour tous µ ∈ R, σ ∈ R⋆+ , N (µ, σ 2 ) est symétrique par rapport à µ. ↝ µ est la médiane théorique et l’unique médiane usuelle de N (µ, σ 2 ) la fct fN (0,σ2 ) est paire ↝ pr tt x ∈ R, fN (0,σ2 ) (−x) = fN (0,σ2 ) (x) pr tt x ∈ R, FN (0,σ2 ) (x ) = 1 − FN (0,σ2 ) (−x ) N (0,σ 2 ) pr tt α ∈]0, 1[, q1−α X ∼ N (µ, σ 2 ) ⇔ X −µ σ N (0,σ 2 ) = −qα ∼ N (0, 1), d’où FN (µ,σ2 ) (x) = FN (0,1) ( x−µ σ ) Si α, β ∈ R et X ∼ N (µ, σ 2 ), alors αX + β ∼ (αµ + β, α2 σ 2 ) Si X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ) et X1 ⊥ X2 , alors X1 + X2 ∼ N (µ1 + µ2 , σ12 + σ22 ) 46/82 Propriétés de la loi normale centrée-réduite (dite également loi normale standard) N (0, 1) : pr X ∼ N (0, 1), E[X ] = 0 et Var[X ] = 1 N (0, 1) est symétrique par rapport à 0 ↝ 0 est la médiane théorique PX =0 et l’unique médiane usuelle de X : FX (0) = 12 , q1/2 x2 fX (x) = fN (0,1) (x) ∶= √1 e − 2 est une fct paire : 2π ∀x ∈ R, fX (x ) = fX (−x ), et sa courbe représentative est symétrique par rapport à l’axe des ordonnées FX est strictement croissante, et donc bijective de R →]0, 1[ d’où FX et q PX sont bijections réciproques l’une de l’autre PX ∀x ∈ R, FX (x ) = 1 − FX (−x ) et ∀α ∈]0, 1[, q1−α = − qαPX 47/82 On appelle "règle du 68–95–99.7" le fait que, pour la loi N (µ, σ 2 ), le pourcentage de valeurs qui appartiennent à un intervalle de taille 1 σ de part et d’autre de l’espérance µ est d’environ 68% : P(µ − σ ≤ X ≤ µ + σ) ≃ 68.27% un intervalle de taille 2 σ de part et d’autre de l’espérance µ est d’environ 95% : P(µ − 2σ ≤ X ≤ µ + 2σ) ≃ 95.45% un intervalle de taille 3 σ de part et d’autre de l’espérance µ est d’environ 99.7% : P(µ − 3σ ≤ X ≤ µ + 3σ) ≃ 99.73% où X ∼ N (µ, σ 2 ) Source : Wikipedia 48/82 Remarques : en Sciences Expérimentales, la règle appelée three-sigma rule of thumb est une convention heuristique signifiant que "presque toutes" (au sens 99.73%, ce qui est considéré comme un pourcentage très élevé, et suffisant en pratique) les valeurs sont situées à une distance inférieure ou égale à 3σ de la moyenne µ. en Sciences Sociales, un résultat peut être considéré comme "significatif" si pour la même expérience reproduite un "grand" nombre de fois, 95% des résultats de l’expérience vont dans ce sens ; en Physique des particules, le seuil de significativité est de 5σ c-à-d environ 99.99994%. Nous allons maintenant présenter des lois "dérivées" de la loi Normale, qui, historiquement, ont été introduites pour les Statistiques. Mais avant, regardons la table de la fonction de répartition de la loi N (0, 1), sur laquelle nous pouvons également lire les quantiles de la loi −1 N (0, 1), puisque pour cette loi q N (0,1) = FN (0,1) 49/82 Lecture de la table de la f.d.r. de la loi N (0, 1) Table de Φ = FN (0,1) Ex : pour z = 1.95, on regarde la case au croisement de la ligne 1.9 et de la colonne 0.05, on trouve FN (0,1) (1.95) ≃ 0.9744 50/82 Lois "dérivées" de la loi Normale Loi du chi2 χ2 (n), n ∈ N⋆ (n est dit nombre dedegrés de liberté) : X (Ω) = R+ ↝ law = chi2 , et pour args : df = n (df pour degrees of freedom) n i.i.d Si X1 ,... , Xn ∼ N (0, 1) , ∑ Xi2 ∼ χ2 (n) i=1 n/2 (1/2) n x x 2 −1 e − 2 1[0,+∞[ (x) Densité (HP) : fX (x) = fχ2 (n) (x) ∶= Γ(n/2) ↝ stats.chi2.pdf(x, df=n) Fonction de répartition : ↝ stats.chi2.cdf(x, df=n) 0 x FX (x) = Fχ2 (n) (x) = ∫−∞ fχ2 (n) (t)dt = { x ∫0 fχ2 (n) (t)dt si x < 0 si 0 ≤ x Rq : pas d’expression explicite de la fct de répartition d’une χ2 ; on peut juste dire que c’est la primitive de la densité. Fonction quantile : q χ (n) (α) = Fχ−12 (n) (α) ↝ stats.chi2.ppf(α, df=n) 2 Rq : pas d’expression explicite de la fct quantile d’une loi du χ2 ; c’est seulement la bijection réciproque de la fct de répartition. 51/82 Espérance : E[X ] = n ↝ stats.chi2.stats(df=n, moments=’m’) Variance : Var[X ] = 2n ↝ stats.chi2.stats(df=n, moments=’v’) Attention : contrairement à la loi normale, la loi du χ2 2 prend ses valeurs dans R+ , donc pour tout α ∈]0, 1[, q χ (n) (α) ∈ R⋆+ n’est pas symétrique (son support est semi-infini !) : 2 2 ↝ il n’y a pas de relation entre q χ (n) (α) et q χ (n) (1 − α) 52/82 Propriétés : χ2 (n) = Γ( n2 , 12 ) i.i.d Si X1 ,... , Xn ∼ χ2 (k), alors 1 n n n ∑ Xi ∼ Γ( nk 2 , 2) i=1 Si X1 ∼ χ2 (n1 ), X2 ∼ χ2 (n2 ) et X1 ⊥ X2 , alors X1 + X2 ∼ χ2 (n1 + n2 ) 53/82 Lecture de la table des quantiles de la loi χ2(n) Table des quantiles de niveau 1 − α de la loi χ2 (n) 54/82 Loi de Student t(n), n ∈ N⋆ (n est dit nombre dedegrés de liberté) : X (Ω) = R ↝ law = t , et pour args : df = n (df pour degrees of freedom) Si U ∼ N (0, 1), V ∼ χ2 (n), U ⊥ V , alors √ U ∼ t(n) V /n Densité (HP) : fX (x) = ft(n) (x) ∶= ↝ stats.t.pdf(x, df=n) − n+1 Γ( n+1 ) 2 x2 2 √ (1 + ) n π n Γ( n2 ) Fonction de répartition : ↝ stats.t.cdf(x, df=n) x FX (x) = Ft(n) (x) = ∫−∞ ft(n) (u)du Rq : pas d’expression explicite de la fct de répartition d’une loi de Student ; on peut juste dire que c’est la primitive de la densité. −1 Fonction quantile : q t(n) (α) = Ft(n) (α) ↝ stats.t.ppf(α, df=n) Rq : pas d’expression explicite de la fct quantile d’une loi de Student ; c’est seulement la bijection réciproque de la fct de répartition. Espérance : Si n > 1, E[X ] = 0 ↝ stats.t.stats(df=n, moments=’m’) n Variance : Si n > 2, Var[X ] = n−2 ↝ stats.t.stats(df=n, moments=’v’) 55/82 Pour tous n ∈ N⋆ , t(n) est symétrique par rapport à 0. 0 est la médiane théorique et l’unique médiane usuelle de t(n) la fct ft(n) est paire ↝ pr tt x ∈ R, ft(n) (−x) = ft(n) (x) et le graphe de ft(n) est symétrique par rapport à l’axe des ordonnées. 56/82 pr tt x ∈ R, Ft(n) (x ) = 1 − Ft(n) (−x ) t(n) t(n) pr tt α ∈]0, 1[, q1−α = −qα , L Si (Yn )n∈N⋆ tq pour tout n ∈ N⋆ , Yn ∼ t(n), alors Yn Ð→ N (0, 1) t(n) De plus, pour tout α ∈]0, 1[, qα N (0,1) Ð→ qα n→+∞ n→+∞ donc pour n assez grand, on pourra utiliser les quantiles de la loi N (0, 1) à la place des quantiles de la loi t(n). 57/82 Lecture de la table des quantiles de la loi t(n) Table des quantiles de niveau 1 − α de la loi t(n) 58/82 Avertissement : la loi de Fisher nous servira uniquement dans les Chapitres 3 & 4 ; elle est (HP) pour les DST 1 & 2 Loi de Fisher (ou loi F de Fisher-Snedecor) : F(n1 , n2 ), n1 , n2 ∈ N⋆ (n1 , n2 sont dits nombres ⋆ dedegrés de liberté) : X (Ω) = R+ ↝ law = f , et pour args : dfn = n1 , dfd = n2 (df pour degrees of freedom, n = numérateur, d = dénominateur) Si V1 ∼ χ2 (n1 ), V2 ∼ χ2 (n2 ), V1 ⊥ V2 , alors V1 /n1 V2 /n2 ∼ F(n1 , n2 ) Densité (HP) :↝ stats.f.pdf(x, dfn = n1 , dfd = n2 ) fX (x) = fF (n1 ,n2 ) (x) ∶= où β ∶ (z1 , z2 ) ∈ (R⋆+ )2 β( ↦ 1 n1 n2 , 2 2 n1 ) n1 ( nn12 ) 2 x 2 −1 (1 + − n1 n2 x) n1 +n2 2 1 z −1 z −1 ∫0 t 1 (1 − t) 2 dt Fonction de répartition : ↝ stats.t.cdf(x, dfn = n1 , dfd = n2 ) x FX (x) = FF (n1 ,n2 ) (x) = ∫−∞ fF (n1 ,n2 ) (u)du Rq : pas d’expression explicite de la fct de répartition d’une loi de Fisher ; on peut juste dire que c’est la primitive de la densité. Fonction quantile : q F (n1 ,n2 ) (α) = FF−1(n1 ,n2 ) (α) ↝ stats.t.ppf(α, dfn = n1 , dfd = n2 ) Rq : pas d’expression explicite de la fct quantile d’une loi de Fisher ; c’est seulement la bijection réciproque de la fct de répartition. X ∼ F(n1 , n2 ) ⇔ 59/82 1 X F (n1 ,n2 ) ∼ F(n2 , n1 ), et ∀α ∈]0, 1[, qα = 1 F (n ,n ) q1−α 2 1 (La loi de Fisher n’admet pas de symétrie car son support est semi-infini) 2 (HP) Si X ∼ F(n1 , n2 ), n2 > 2 , alors E[X ] = n2n−2 ↝ stats.f.stats(dfn = n1 , dfd = n2 , moments=’m’) 2 n2 (n +n −2) 2 (HP) Si X ∼ F(n1 , n2 ), n2 > 4 , alors Var[X ] = n1 (n22 −2)1 2 (n 2 −4) ↝ stats.f.stats(dfn = n1 , dfd = n2 , moments=’v’) Si X ∼ t(n), alors X 2 ∼ F(1, n), d’où ∀u ∈ R⋆+ , 2 √ F (1,n) )) FF (1,n) (u) = 2Ft(n) ( u ) − 1 et ∀α ∈]0, 1[, qα = (q t(n) ( 1+α 2 60/82 Lecture de la table des quantiles de la loi F(n1, n2) Table des quantiles de niveau 0.95 de la loi F(n1 , n2 ) (dfn = n1 , dfd = n2 ) 61/82 Prérequis d’Algèbre pr les lois multidimensionnelles Mn1 ,n2 (R) = matrices réelles à n1 lignes et n2 colonnes ; Mn1 (R) = matrices réelles carrées à n1 lignes et n1 colonnes ; 0n1 ,n2 = matrice à n1 lignes et n2 colonnes ne contenant que des 0 ; In1 = matrice identité de Mn1 (R). Somme/Produit de vecteurs/matrices ; pour (A, B, C ) ∈ Mn1 ,n2 (R) × Mn2 ,n3 (R) × Mn3 ,n4 (R), ABC = (AB)C = A(BC ) Trace d’une matrice carrée ; pour (A, B) ∈ Mn1 ,n2 (R) × Mn2 ,n1 (R), Tr(AB) = Tr(BA) pour (A, B, C ) ∈ Mn1 ,n2 (R) × Mn2 ,n3 (R) × Mn3 ,n1 (R), Tr(ABC ) = Tr(BCA) = Tr(CAB) Transposée t d’un vecteur/d’une matrice ; pour (A, B) ∈ Mn1 ,n2 (R) × Mn1 ,n2 (R), t (A + B) = t A + t B ; pour (A, B) ∈ Mn1 ,n2 (R) × Mn2 ,n3 (R), t (AB) = t B t A Inverse d’une matrice carrée ; pour A, B ∈ GLn1 (R), (AB)−1 = B −1 A−1 ; pour A ∈ GLn1 (R), t A−1 = (t A)−1 = t (A−1 ) Produit scalaire euclidien ; Norme euclidienne ; (M.,1 (R) assimilé à R. ) pour (A, B, C ) ∈ Mn1 ,1 (R) × Mn1 ,n2 (R) × Mn2 ,1 (R), ⟨A, BC ⟩ Rn1 = t A(BC ) = ⟨ t BA, C ⟩ Rn2 ; pour A ∈ Mn1 ,1 (R), ∣∣A∣∣2 = t AA = Tr(t AA) = Tr(A t A) 62/82 Moments d’un vecteur aléatoire Avertissement : ceci est HP pour le premier DST, sauf ce qui sera vu dans les Feuilles 0 et 1.... Z1n2 ⎞ ⎛ Z11... ⋮ ⎟ ⎜ ⋮ ⎝Zn 1... Z n1 n2 ⎠ 1 avec ∀(i, j) ∈ J1, n1 K × J1, n2 K, Zij v.a.r. définie sur (Ω, A, P) Matrice aléatoire Z = Espérance d’une matrice aléatoire : E[Z ] = ⎛ E[Z11 ] ⋮ ⎜ ⎝E[Zn 1 ] 1......... E[Z1n2 ] ⎞ ⋮ ⎟ E[Zn1 n2 ]⎠ ∈ Mn1 ,n2 (R) ↝ ∀(A, B, C ) ∈ Mn0 ,n1 (R) × Mn2 ,n3 (R) × Mn0 ,n3 (R) des matrices déterministes, on a E[AZB + C ] = AE[Z ]B + C ↝ E[ t Z ] = t E[Z ] ↝ Si n2 = n1 , Tr(E[Z ]) = E[Tr(Z )] En particulier, si n2 = 1, Z = ⎛ Z1 ⎞ ⎜ ⋮ ⎟ ⎝Zn ⎠ 1 est dit vecteur aléatoire et l’espérance du vecteur aléatoire Z est E[Z ] = ⎛ E[Z1 ] ⎞ ⋮ ⎜ ⎟ ⎝E[Zn ]⎠ 1 63/82 Variance du vecteur aléatoire Z = ⎛ Z1 ⎞ ⎜ ⋮ ⎟ ⎝Zn ⎠ 1 : Var[Z ] = E[(Z − E[Z ]) (Z − E[Z ])] = E[Z t Z ] − E[Z ] t E[Z ] t = ⎛ Var[Z1 ] ⎜ Cov(Z2 , Z1 ) ⎜ ⎜ ⋮ ⎝Cov(Zn , Z1 ) 1 Cov(Z1 , Z2 ) Var[Z2 ] Cov(Zn1 , Z2 )...... ⋅..... Cov(Z1 , Zn1 )⎞ Cov(Z2 , Zn1 )⎟ ⎟ ⎟ ⋮ Var[Zn ] ⎠ ∈ Mn1 (R) 1 ↝ cette matrice est symétrique : t Var[Z ] = Var[Z ] (car Cov(Zi , Zi ′ ) = Cov(Zi ′ , Zi )) ↝ cette matrice est aussi positive , c-à-d que ∀u ∈ Rn1 , ⟨Var[Z ]u, u⟩ = t u Var[Z ] u ≥ 0 On dira que cette matrice est définie positive si ∀u ∈ Rn1 tq u ≠ 0n1 ,1 , ⟨Var[Z ]u, u⟩ = t u Var[Z ] u > 0 ↝ ∀(A, B) ∈ Mn2 ,n1 (R) × Mn2 ,1 (R) une matrice et un vecteur, tous deux déterministes, on a Var[AZ + B] = A Var[Z ] t A ↝ E[∣∣Z − E[Z ]∣∣2n1 ] = Tr(Var[Z ]) ↝ Tr(E[Z t Z ]) = E[Tr(Z t Z )] = E[Tr( t ZZ )] = Tr(Var[Z ]) + t E[Z ]E[Z ] 64/82 Covariance de deux vecteurs aléatoires de même taille ⎛ V1 ⎞ ⎛ U1 ⎞ U = ⎜ ⋮ ⎟, V = ⎜ ⋮ ⎟ ⎝Vn ⎠ ⎝Un ⎠ 1 1 Cov(U, V ) = E[(U − E[U]) t (V − E[V ])] = E[U t V ] − E[U] t E[V ] = ⎛ Cov(U1 , V1 ) ⎜ Cov(U2 , V1 ) ⎜ ⎜ ⋮ ⎝Cov(Un , V1 ) 1 Cov(U1 , V2 ) Cov(U2 , V2 ) Cov(Un1 , V2 )...... ⋅..... Cov(U1 , Vn1 ) ⎞ Cov(U2 , Vn1 ) ⎟ ⎟ ⎟ ⋮ Cov(Un , Vn )⎠ 1 ∈ Mn1 (R) 1 ↝ Cov(V , U) = t Cov(U, V ) ↝ pour A, B ∈ Mn0 ,n1 (R), Cov(AU, BV ) = A Cov(U, V ) t B ∈ Mn0 (R) 65/82 Loi Normale multidimensionnelle Loi normale multidimensionnelle Nd (M, Σ), d ∈ N⋆ , d ≥ 2, M ∈ Rd , Σ ∈ Sd++ (R), X (Ω) = Rd : modélise, à travers le Théorème Central-Limite Multidimensionnel, le comportement de vecteurs de quantités physiques, qui peuvent supposées être la somme de vecteurs de quantités issues d’un grand nombre de processus indépendants (mais à l’intérieur d’un vecteur les quantités peuvent dépendre les unes des autres) ↝ law = multivariate_normal , et pour args : mean = M, cov = Σ Densité : pour x = (x1 ,... , xd ), fNd (M,Σ) (x) ∶= 1 (2πdet(Σ) ) n 2 e− 2 1 t (x−M) Σ−1 (x−M) ↝ stats.multivariate_normal.pdf(x, mean = M, cov = Σ) Avertissement : nous laissons de côté pour le moment le lien entre cette loi et les vecteurs gaussiens ; nous reviendrons sur cela au Chapitre 4 pour la Régression linéaire multiple. 66/82 Théorème fondamental des lois Normales (A CONNAITRE PAR COEUR) Si X1 ,... , Xn ∼ N (µ, σ 2 ), (µ, σ 2 ) ∈ R × R⋆+ , en notant i.i.d. X ∶= 1 n n σX2 ∶= ∑ Xi , ̂ i=1 1 n n 2 σX2 ∶= ∑ ( Xi − X ) , ̃ i=1 2 2 1 n−1 X ∼ N (µ, σn ) , ( X − µ ) ∼ N (0, σn ) , n 2 ∑ ( Xi − X ) i=1 √ n X −µ σ ∼ N (0, 1) n ∑ (Xi −µ)2 i=1 σ2 n̂ σX2 σ2 n 2 = ∑ ( Xiσ−µ ) ∼ χ2 (n) i=1 = (n−1)̃ σX2 σ2 n = ∑ ( Xiσ−X ) ∼ χ2 (n − 1) 2 et, avec un petit abus de notation i=1 2 n̂ σX2 ∼ σ 2 χ2 (n − 1) , ̂ σX2 ∼ σn χ2 (n − 1) , σ2 (n − 1) ̃ σX2 ∼ σ 2 χ2 (n − 1) , ̃ σX2 ∼ n−1 χ2 (n − 1) n 2 X ⊥ ∑ ( Xi − X ) , donc X ⊥ ̂ σX2 , X ⊥ ̃ σX2 et i=1 √ √ n − 1 X̂σ−µ = n X̃σ−µ ∼ t(n − 1) X X 67/82 Aparté : Simulation d’un échantillon aléatoire Il existe une autre commande importante : il s’agit de stats.law.rvs(args, size=n) qui permet de simuler un n-échantillon i.i.d. de la loi law, avec args correspondant aux paramètres de cette loi. Autrement dit, cette commande retourne un vecteur réel de taille n, x = (x1 ,... , xn ) , qui peut être assimilé à une réalisation du vecteur i.i.d. aléatoire de taille n, X = (X1 ,... , Xn ) , où X1 ,... , Xn ∼ law Par exemple, pour la loi de Bernoulli de paramètre θ = 21 , et pour n = 10, stats.bernoulli.rvs(1/2, size=10) va renvoyer un vecteur de taille 10, composé de 0 et de 1, par exemple (0, 1, 1, 1, 0, 0, 1, 0, 0, 0) que l’on peut assimiler aux résultats de 10 lancers successifs d’une pièce équilibrée avec 1 pour Pile et 0 pour Face. Autrement dit, c’est comme si l’ordinateur lançait la pièce à notre place, et nous renvoyais juste les résultats obtenus. Nous utiliserons ponctuellement cette commande pour générer un échantillon et ensuite procéder à l’étude statistique de cet échantillon. Mais nous renvoyons au module A3S6 Probabilités numériques pour le sens exact à donner à "nous simulons un échantillon aléatoire de loi law". 68/82 Partie C : Théorèmes limite Ces théorèmes donnent un sens aux limites quand n → +∞ quand l’on dispose d’une suite de v.a.r. (Yn )n∈N⋆. Ils permettent de justifier rigoureusement les approximations que l’on fait quand la taille n de notre échantillon est assez grande, typiquement n > 30. Remarque : des résultats plus fins, de type inégalités de concentration (qui sont des généralisations des inégalités de Markov & Bienaymé-Tchebytchev) permettent quant à eux de quantifier l’erreur que l’on commet en utilisant ces approximations. Nous allons rappeler les différents modes de convergence d’une suite de v.a.r., puis d’une suite de vecteurs aléatoires, ainsi que les liens entre ces différents modes de convergence. 69/82 Modes de convergence : suite de v.a.r. Soit (Ω, A, P) un espace de probabilité, et (Yn )n∈N⋆ , Z des v.a.r. définies sur (Ω, A, P). On dit que : (Yn )n∈N⋆ converge (= tend) presque-sûrement vers Z sous P qd P−p.s. n → +∞ (noté Yn Ð→ Z ) si P( {ω ∈ Ω ; Yn (ω) Ð→ Z (ω)} ) = 1 n→+∞ (Yn )n∈N⋆ converge n→+∞ (= tend) en probabilité vers Z sous P qd n → +∞ (noté Yn Ð→ Z ) si ∀ϵ > 0, P(∣Yn − Z ∣ > ϵ) Ð→ 0 P n→+∞ (Yn )n∈N⋆ converge n→+∞ (= tend) L sous P en loi vers Z sous P qd n → +∞ (noté Yn Ð→ Z ) si, pr tte fct test Φ, E[Φ(Yn )] Ð→ E[Φ(Z )] n→+∞ n→+∞ (on supposera que les fonctions test sont les fonctions continues bornées) C’est équivalent à : FYn (t) Ð→ FZ (t) pr tt t ∈ R tq FZ continue en t n→+∞ (Yn )n∈N⋆ converge qd n → +∞ (noté Yn 70/82 en moyenne quadratique vers Z sous P (= tend) L2 sous Ð→ P n→+∞ Z ) si E[ ∣Yn − Z ∣2 ] Ð→ 0 n→+∞ Implications & Liens entre les différents modes CV ∀a, b ∈ R, Yn Ð→ Z , Yn′ Ð→ Z ′ ⇒ aYn + bYn′ Ð→ aZ + bZ ′ P P P n→+∞ n→+∞ n→+∞ et ⇒ ∀a, b ∈ R, Yn Ð→ Z , Yn′ Ð→ Z ′ ⇒ P−p.s. P−p.s. n→+∞ n→+∞ Yn Yn′ Ð→ ZZ ′ P n→+∞ P−p.s. aYn + bYn′ Ð→ n→+∞ aZ + bZ ′ et ⇒ Yn Yn′ Ð→ ZZ ′ P−p.s. n→+∞ L sous P L sous P ATTENTION : Yn Ð→ Z , Yn′ Ð→ Z ′ n→+∞ n→+∞ ET : Yn L sous P Ð→ n→+∞ L sous P Z , Yn′ Ð→ Z ′ n→+∞ P−p.s. Yn Ð→ Z ⇒ n→+∞ n’implique PAS que L sous P Yn + Yn′ Ð→ Z + Z ′ n→+∞ n’implique PAS que Yn Yn′ n→+∞ n→+∞ 71/82 Ð→ n→+∞ Z ⇒ Yn Ð→ Z P n→+∞ Z Z′ Yn Ð→ Z P n→+∞ L sous P L2 sous P Ð→ n→+∞ L sous P Yn Ð→ Z ⇒ Si Z = c v.a.r. constante, Yn Ð→ c Yn L sous P ⇒ Yn Ð→ c P n→+∞ (Preuve : Inégalité de Bienaymé-Tchebytchev) Modes de CV : suite de vecteurs aléatoires Soit (Ω, A, P) un espace de probabilité, et (Yn = ( Y1,n ,... , Yd,n )) n∈N⋆ , Z = (Z1 ,... , Zd ) des vecteurs aléatoires définis sur (Ω, A, P) ¿ et à valeurs Á d d À ∑ y2 ) dans R. On dit que : (en notant ∣∣.∣∣d la norme euclidienne usuelle de Rd : ∣∣y∣∣d = Á i i=1 (Yn )n∈N⋆ converge (= tend) presque-sûrement vers Z sous P qd P−p.s. n → +∞ (noté Yn Ð→ Z ) si P( {ω ∈ Ω ; Yn (ω) Ð→ Z (ω)} ) = 1 n→+∞ (Yn )n∈N⋆ converge n→+∞ (= tend) en probabilité vers Z sous P qd n → +∞ (noté Yn Ð→ Z ) si ∀ϵ > 0, P(∣∣Yn − Z ∣∣d > ϵ) Ð→ 0 P n→+∞ (Yn )n∈N⋆ converge n→+∞ (= tend) L sous P en loi vers Z sous P qd n → +∞ (noté Yn Ð→ Z ) si, pr tte fct test Φ ∶ Rd → R, E[Φ(Yn )] Ð→ E[Φ(Z )] n→+∞ n→+∞ (on supposera que les fonctions test sont les fonctions continues bornées) (Yn )n∈N⋆ converge qd n → +∞ (noté Yn 72/82 en moyenne quadratique vers Z sous P (= tend) L2 sous Ð→ P n→+∞ Z ) si E[ ∣∣Yn − Z ∣∣2d ] Ð→ 0 n→+∞ Loi Faible des Grands Nombres Loi Faible des Grands Nombres Cas unidimensionnel : soit (Yi )i∈N⋆ une suite de v.a.r. i.i.d. tq E[∣Y1 ∣2 ] < +∞, alors 1 n P ∑Yi Ð→ E[Y1 ] n i=1 n→+∞ Cas multidimensionnel : soit (Yi )i∈N⋆ une suite de vecteurs aléatoires i.i.d. de dimension d (c-à-d, pr tt i ∈ N⋆ , Yi = (Y1,i ,... , Yd,i ) ∈ Rd ), tq E[∣∣Y1 ∣∣2d ] < +∞, alors 1 n P ∑Yi Ð→ E[Y1 ] n i=1 n→+∞ 73/82 Loi Forte des Grands Nombres Loi Forte des Grands Nombres Cas unidimensionnel : soit (Yi )i∈N⋆ une suite de v.a.r. i.i.d. tq E[∣Y1 ∣] < +∞, alors P−p.s. 1 n ∑Yi Ð→ E[Y1 ] n→+∞ n i=1 Cas multidimensionnel :soit (Yi )i∈N⋆ une suite de vecteurs aléatoires i.i.d. de dimension d (c-à-d, pr tt i ∈ N⋆ , Yi = (Y1,i ,... , Yd,i ) ∈ Rd ), tq E[∣∣Y1 ∣∣d ] < +∞, alors P−p.s. 1 n ∑Yi Ð→ E[Y1 ] n i=1 n→+∞ Remarque : la Loi Faible des Grands Nombres sera suffisante dans ce module. 74/82 Théorème de l’Application Continue Théorème de l’Application Continue Soit (Ω, A, P) l’espace de probabilité sur lesquel sont définies ttes les v.a.r. (resp. ts les vecteurs aléatoires). Sous les hypothèses : Cas dim 1 : (Yn )n∈N⋆ , Z v.a.r., et g ∶ R → R fct continue sur Z (Ω) (en fait, on note Dg l’ensemble des points de discontinuité de g (càd ∀x ∈ R/Dg , g est continue en x , et ∀x ∈ Dg , g n’est pas continue en x ), et l’on suppose que P(Z ∈ Dg ) = 0) Cas dim d ≥ 2 : (Yn )n∈N⋆ , Z vecteurs aléatoires de dimension d, et ′ g ∶ Rd → Rd fct continue sur Z (Ω). (en fait, on note Dg l’ensemble des points de discontinuité de g (càd ∀x ∈ Rd /Dg , g est continue en x , et ∀x ∈ Dg , g n’est pas continue en x ), et l’on suppose que P(Z ∈ Dg ) = 0. On a les implications suivantes : Yn Ð→ Z ⇒ g(Yn ) Ð→ g(Z ) P P n→+∞ n→+∞ L sous P L sous P n→+∞ n→+∞ Yn Ð→ Z ⇒ g(Yn ) Ð→ g(Z ) P−p.s. P−p.s. n→+∞ n→+∞ Yn Ð→ Z ⇒ g(Yn ) Ð→ g(Z ) 75/82 Lemme de Slutsky Lemme de Slutsky Version simple : On se place sous l’une de ces deux hypothèses : (Yn )n∈N⋆ , (Cn )n∈N⋆ , (Cn′ )n∈N⋆ , Z des v.a.r. et c, c ′ ∈ R des constantes réelles (déterministes) (Yn )n∈N⋆ , Z vecteurs aléatoires de dimension d, (Cn )n∈N⋆ , (Cn′ )n∈N⋆ ′ des matrices aléatoires de Md ′ ,d (R), et c, c ′ ∈ Rd des vecteurs réels (déterministes) L L L L n→+∞ n→+∞ n→+∞ n→+∞ Si Yn Ð→ Z , Cn Ð→ c, Cn′ Ð→ c ′ , alors Cn Yn + Cn′ Ð→ c Z + c ′ Version complète : Si Yn Ð→ Z et Yn′ Ð→ c où Z aléatoire, et c constante. Alors : L L n→+∞ n→+∞ (Yn , Yn′ ) Ð→ (Z , c) L n→+∞ (c-à-d pr tte fct test réelle continue bornée Ψ, on a E[Ψ(Yn , Yn′ )] Ð→ E[Ψ(Z , c)] ) L n→+∞ Et, d’après le Théorème de l’Application continue, cela implique que, pr toute fonction Ψ continue, Ψ(Yn , Yn′ ) 76/82 Ð→ L n→+∞ Ψ(Z , c) Théorème Central Limite Unidimensionnel Théorème Central Limite Unidimensionnel Si (Yi )i∈N⋆ suite de v.a.r. i.i.d. tq E[∣Y1 ∣2 ] < +∞ alors : √ 1 n L n( ∑Yi − E[Y1 ]) Ð→ N (0 , Var[Y1 ]) n→+∞ n i=1 n ∑ Yi − E[Y1 ] √ i=1 L n √ Ð→ N (0, 1) n→+∞ Var[Y1 ] 1 n Y − E[ Y ] L Ð→ N (0, 1) √ n→+∞ Var[ Y ] ce qui permet de dire que, pour n assez grand, Y suit approximativement la loi N (E[ Y ], Var[ Y ]) 77/82 Csqs du TCL & du Lemme de Slutsky Remarque : si l’on compose le Théorème Central-Limite avec le lemme de Slutsky, l’on trouve que, pour tt a, c ∈ R, a ≠ 0, (a √ 1 n L n( ∑Yi − E[Y1 ] ) + c) Ð→ N (c , a2 Var[Y1 ]) n→+∞ n i=1 Cela implique en particulier que, ∀a, b ∈ R, pr la fct affine √ L g ∶ y ∈ R ↦ ay + b, n( g( Y ) − g(E[Y1 ]) ) Ð→ N (0 , a2 Var[Y1 ] ) n→+∞ Peut-on généraliser ce résultat à des fonctions g non affines ? Oui, grâce à la Delta-Méthode que l’on va voir plus loin. Mais en attendant, peut-on généraliser le TCL à la dimension d ≥ 2 ? 78/82 Théorème Central Limite Multidimensionnel Théorème Central Limite Multidimensionnel Si (Yi = (Y1,i ,... , Yd,i )) i∈N⋆ E[∣∣Y1 ∣∣2d ] < +∞ alors : √ suite de vecteurs aléatoires i.i.d. de Rd tq n L i=1 n→+∞ n ( n1 ∑ Yi − E[Y1 ] ) Ð→ Nd (0d,1 , Var[Y1 ]) Remarque : si l’on compose ce théorème avec le lemme de Slutsky, l’on ′ trouve que, pour tt A ∈ Md ′ ,d (R) et c ∈ Rd , n √ L (A n( n1 ∑ Yi − E[Y1 ]) + c) Ð→ Nd (c , A Var[Y1 ] t A) i=1 n→+∞ ′ Cela implique en particulier que, ∀A ∈ Md ′ ,d (R), b ∈ Rd , pr la fct affine g ∶ y ∈ Rd ↦ Ay + b, on a √ L n( g( Y ) − g(E[Y1 ]) ) Ð→ Nd (0d,1 , A Var[Y1 ] t A) n→+∞ Peut-on généraliser ce résultat à des fonctions g non affines ? 79/82 Delta-Méthode en dimension d = 1 Soit (Ω, A, P) un espace de probabilité. Supposons que U ouvert inclus dans R (Yn )n∈N⋆ suite de v.a.r. définies sur (Ω, A, P) et à valeurs dans U, tq Yn Ð→ a ∈ R n→+∞ √ L n(Yn − a) Ð→ N (0, σ 2 ) où σ 2 ∈ R⋆+ P n→+∞ g ∶ U → R de classe C 1 tq pr tt y ∈ U, g ′ (y) ≠ 0 pr tt n ∈ N⋆ (ou juste à partir d’un certain rang N) E[∣g(Yn )∣2 ] < +∞ Alors : 80/82 √ L 2 n( g(Yn ) − g(a) ) Ð→ N (0, (g ′ (a)) , σ 2 ) n→+∞ Delta-Méthode en dimension d = 2 Soit (Ω, A, P) un espace de probabilité. Supposons que U ouvert inclus dans R2 (Yn = (Y1,n , Y2,n ))n∈N⋆ suite de couples aléatoires définis sur (Ω, A, P) et à valeurs dans U, tel que a1 ) ∈ U vecteur constant n→+∞ a2 √ L 0 n(Yn − a) Ð→ N2 ( ( ) , Σ) où Σ ∈ S2+⋆ (R) n→+∞ 0 Yn Ð→ a où a = ( P g = (g1 , g2 ) ∶ y = (y1 , y2 ) ∈ U ↦ ( g1 (y), g2 (y) ) ∈ R2 de classe C 1 tq pr tt y ∈ U, la matrice jacobienne de g en y, notée Jg (y), est inversible pr tt n ∈ N⋆ Alors : 81/82 ⎛ (rappel : Jg (y) = ⎜ ⎝ ∂g1 ∂y1 ∂g2 ∂y1 (y) (y) ∂g1 ∂y2 ∂g2 ∂y2 (ou juste à partir d’un certain rang N) (y) ⎞ ⎟ ) (y) ⎠ E[∣∣g(Yn )∣∣22 ] < +∞ √ L 0 n( g(Yn ) − g(a) ) Ð→ N2 ( ( ) , Jg (a) Σ t Jg (a)) n→+∞ 0 Delta-Méthode en dimension d Soit (Ω, A, P) un espace de probabilité et d ∈ N⋆ , d ≥ 3. Supposons que U ouvert inclus dans Rd (Yn = (Y1,n ,... , Yd,n ))n∈N⋆ suite de vecteurs aléatoires définis sur (Ω, A, P) et à valeurs dans U, tel que Yn Ð→ a où a = (a1 ,... , ad ) ∈ U vecteur constant n→+∞ √ L n(Yn − a) Ð→ Nd (0d,1 , Σ) où Σ ∈ Sd+⋆ (R) P n→+∞ g ∶ y = (y1 ,... , yd ) ∈ U ↦ ( g1 (y),... , gd (y) ) ∈ Rd de classe C 1 tq pr tt y ∈ U, la matrice jacobienne de g en y, notée Jg (y), est ∂gi inversible (rappel : Jg (y) = [ ∂y (y)]1≤,i,j≤d ; rq : dans le cas où g affine du type g ∶ y ↦ Ay + b, j avec Jg (E[X1 ]) la matrice jacobienne de g en E[X1 ] est cste égale à A ) pr tt n ∈ N⋆ Alors : 82/82 (ou juste à partir d’un certain rang N) E[∣∣g(Yn )∣∣2d ] < +∞ √ L n( g(Yn ) − g(a) ) Ð→ Nd (0d,1 , Jg (a) Σ t Jg (a)) n→+∞

Cours Chapitre 0 Statistiques A3S6 2023-2024 PDF

Document Details

Tags

Related

Summary

Full Transcript

Upgrade to continue