Cours Estimation Paramétrique PDF

Estimation paramétrique prof. armel yodé 2 Nous avons confiance en Dieu ; que tous les autres apportent des justificatifs. [Edwards Deming, Professeur de statistique, 1900-1993] Table des matières 1 Rappels et compléments de probabilités 7 1.1 Variables aléatoires................................... 7 1.1.1 Définitions.................................... 7 1.1.2 Loi d’une variable aléatoire.......................... 7 1.1.2.1 Loi d’une variable aléatoire réelle discrète............ 8 1.1.2.2 Loi d’une variable aléatoire réelle à densité........... 8 1.1.3 Loi d’un vecteur aléatoire........................... 9 1.1.3.1 Fonction de répartition d’une variable aléatoire réelle..... 9 1.1.3.2 Variable aléatoire discrète..................... 11 1.1.3.3 Fonction de répartition d’un vecteur aléatoire......... 11 1.1.4 Moments d’une variable aléatoire réelle................... 12 1.1.4.1 Espérance............................... 12 1.1.4.2 Moment d’ordre supérieur..................... 13 1.1.5 Moments d’un vecteur aléatoire....................... 14 1.1.5.1 Espérance............................... 14 1.1.5.2 Matrice de covariance........................ 14 1.1.6 Variables alátoires indépendantes...................... 15 1.1.6.1 Indépendance des tribus...................... 15 1.1.6.2 Indépendance des variables aléatoires.............. 15 1.1.7 Fonction caractéristique............................ 16 1.1.8 Calcul de lois................................... 17 1.1.8.1 Cas d’une variable aléatoire discrète............... 17 1.1.8.2 Cas d’une variable aléatoire absolument continue....... 17 1.1.9 Vecteurs gaussiens............................... 18 1.1.9.1 Définitions.............................. 18 1.1.9.2 Lois dérivées des vecteurs gaussiens............... 21 1.1.9.3 Théorèmes de Cochran-Fisher................... 21 1.2 Conditionnement..................................... 22 1.2.1 Conditionnement par un événement..................... 22 1.2.2 Conditionnement par une partition au plus dénombrable d’événements 23 1.2.3 Conditionnement par une tribu........................ 24 1.2.4 Interprétation géométrique.......................... 25 1.2.5 Conditionnement par une variable aléatoire................ 25 1.2.6 Définition..................................... 25 1.2.7 Couple de variables aléatoires......................... 25 1.3 Convergences et Théorèmes limites.......................... 26 1.3.1 Modes de convergence............................. 26 1.3.1.1 Convergence presque-sûre..................... 26 1.3.1.2 Convergence dans la norme L p (Ω, A , P)............. 26 3 4 TABLE DES MATIÈRES 1.3.1.3 Convergence en probabilité.................... 26 1.3.1.4 Convergence en loi.......................... 27 1.3.2 Relations entre les différents modes..................... 28 1.3.3 Lois des grands nombres............................ 29 1.3.3.1 Loi faible des grands nombres................... 29 1.3.3.2 Loi forte des grands nombres................... 29 1.3.4 Théorème Central limite............................ 30 1.3.5 Méthode Delta.................................. 32 2 Modélisation statistique 33 3 Théorie de la décision 37 3.1 Introduction........................................ 37 3.2 Risque fréquentiste.................................... 37 3.2.1 Définition..................................... 37 3.2.2 Minimaxité.................................... 39 3.3 Risque bayésien...................................... 39 3.4 Biais et absence de biais................................ 41 4 Exhaustivité 42 4.1 Statistiques exhaustives................................. 42 4.2 Statistiques exhaustives minimales.......................... 44 4.3 Statistiques libres.................................... 45 4.4 Statistiques totales ou complètes........................... 45 4.5 Famille exponentielle.................................. 47 5 Estimateurs 49 5.1 Définitions......................................... 49 5.2 Propriétés asymptotiques des estimateurs...................... 49 5.3 Estimation sans biais.................................. 50 5.3.1 Définitions.................................... 50 5.3.2 Amélioration d’un estimateur sans biais.................. 50 5.3.2.1 Théorème de Rao-Blackwell.................... 50 5.3.2.2 Théorème de Lehman-Scheffé................... 51 5.3.3 Information de Fisher............................. 51 5.3.4 Inégalité de Cramer-Rao............................ 53 6 Méthodes d’estimation 55 6.1 Méthode du maximum de vraisemblance...................... 55 6.2 Méthode des moments.................................. 56 6.3 Méthode des moindres carrées ordinaires...................... 56 7 Estimation par intervalle de confiance 58 7.1 Définitions......................................... 58 7.2 Construction d’un intervalle de confiance...................... 58 7.2.1 Approche non asymptotique.......................... 58 7.2.2 Approche asymptotique............................ 59 7.3 Exemples......................................... 59 7.3.1 Intervalle de confiance pour la moyenne d’une loi normale....... 59 7.3.2 Intervalle de confiance pour la variance d’une loi normale........ 60 7.3.3 Intervalle de confiance pour une proportion................ 61 TABLE DES MATIÈRES 5 8 Jackknife et bootstrap 62 8.1 Principe de substitution................................ 62 8.2 Jackknife.......................................... 63 8.2.1 Estimation du biais............................... 63 8.2.2 Estimation de la variance........................... 64 8.3 Bootstrap......................................... 64 8.3.1 Cas de la variance................................ 64 9 Principe des tests 65 9.1 Définitions......................................... 65 9.2 Pratique des tests statistiques............................. 67 9.2.1 Tests purs.................................... 67 9.2.2 Règle de la p-value............................... 68 10 Hypothèse simple contre hypothèse simple 69 10.1 Introduction........................................ 69 10.2 Lemme de Neyman-Pearson.............................. 69 10.3 Exemple : modèle de Bernouilli............................ 71 10.3.1 Approche non asymptotique.......................... 72 10.3.1.1 Cas θ0 < θ1.............................. 72 10.3.1.2 Cas θ0 > θ1.............................. 72 10.3.2 Approche asymptotique............................ 72 10.3.2.1 Cas θ0 < θ1.............................. 72 10.3.2.2 Cas θ0 > θ1.............................. 73 11 Tests Uniformément plus puissant pour les hypothèses composites 74 11.1 Introduction........................................ 74 11.2 Famille à rapport de vraisemblance monotone................... 74 11.3 Tests U.P.P. : H0 : θ ≤ θ0 contre H1 : θ > θ0...................... 75 11.4 Tests U.P.P. : H0 : θ ≥ θ0 contre H1 : θ < θ0...................... 75 11.5 Tests U.P.P. : H0 : θ ≤ θ1 ou θ ≥ θ2 contre H1 : θ1 < θ < θ2............. 76 11.6 Tests U.P.P.S.B...................................... 76 12 Tests et régions de confiance 79 12.1 Introduction........................................ 79 12.2 Cas du test paramétrique bilatéral.......................... 79 13 Tests de Student : un échantillon 81 13.1 Approche intuitive d’un test d’hypothèses...................... 81 13.2 Test de Student...................................... 81 13.3 H0 : m ≤ m 0 contre H1 : m > m 0............................ 82 13.3.1 On suppose que la variance σ2 est connue.................. 82 13.3.2 On suppose σ2 est inconnue.......................... 82 13.4 H0 : m ≥ m 0 contre H1 : m < m 0............................ 83 13.4.1 On suppose que la variance σ2 est connue.................. 83 13.4.2 On suppose que la variance σ2 est inconnue................. 83 13.5 H0 : m = m 0 contre H1 : m 6= m 0............................ 84 13.5.1 On suppose que la variance σ2 est connue.................. 84 13.5.2 On suppose que la variance σ2 est inconnue................. 84 6 TABLE DES MATIÈRES 14 Tests de Student : deux échantillons 85 14.1 Test de Fisher de comparaison des variances.................... 86 14.2 Test de Student de comparaison des moyennes................... 87 14.2.1 Résolution du test lorsque les variances connues.............. 87 14.2.2 Résolution du test lorsque les variances sont inconnues......... 88 14.3 Généralisation : Analyse de la variance (ANOVA)................. 89 14.3.1 Introduction................................... 89 14.3.2 Anova à un facteur à effets fixes....................... 90 14.3.2.1 Notations............................... 90 14.3.2.2 Modèle................................. 90 14.3.2.3 Hypothèses.............................. 90 14.3.2.4 Tableau d’ANOVA......................... 90 14.3.2.5 Test d’hypothèses.......................... 91 14.3.2.6 Comparaisons multiples...................... 91 14.3.2.7 Exercice................................ 91 14.3.3 Anova à deux facteurs à effets fixes..................... 93 14.3.3.1 Notations............................... 93 14.3.3.2 Modèle................................. 94 14.3.3.3 Hypothèses.............................. 94 14.3.3.4 Tableau d’ANOVA......................... 94 14.3.3.5 Test d’hypothèses.......................... 95 14.3.3.6 Comparaisons multiples...................... 96 14.3.3.7 Exemple................................ 96 15 Tests de comparaison des proportions 104 15.1 Test sur la valeur d’une proportion.......................... 104 15.2 Test de comparaison de deux proportions...................... 104 16 Tests de Wald, du Score et du Rapport de vraisemblance 107 16.1 Introduction........................................ 107 16.2 Test de Wald....................................... 107 16.3 Test du score....................................... 108 16.4 Test du rapport de vraisemblance........................... 109 17 Tests du χ2 111 17.1 Test d’adéquation à une loi donnée.......................... 111 17.2 Test d’adéquation à une famille de lois........................ 112 17.3 Test d’indépendance................................... 112 18 Tests d’adéquation utilisant le processus empirique 114 18.1 Fonction de répartition empirique........................... 114 18.2 Test de Kolmogorov-Smirnov............................. 115 18.2.1 Test d’adéquation à une loi.......................... 115 18.2.2 Test de comparaison de deux échantillons................. 116 18.3 Test de Kuiper...................................... 117 18.4 Test de Cramer-von Mises............................... 117 18.5 Test de normalité.................................... 117 Chapitre Rappels et compléments de probabi- 1 lités 1.1 Variables aléatoires 1.1.1 Définitions Soit (Ω, A , P) un espace probabilisé modélisant une expérience aléatoire. Dans ce cha- pitre, on s’intéresse à des fonctions des résultats de l’expérience aléatoire appelées variables aléatoires. Définition 1.1.1. On appelle variable aléatoire toute application mesurable X définie sur (Ω, A , P) à valeurs dans un espace probabilisable (E, B ) : ∀W ∈ B X −1 (W ) = {ω ∈ Ω : X (ω) ∈ W } = { X ∈ W } ∈ A. Autrement dit, les images réciproques des éléments de B sont des éléments de A. 1.1.2 Loi d’une variable aléatoire Une variable aléatoire est caractérisée par sa loi de probabilité. Définition 1.1.2. Soit X une variable aléatoire définie sur (Ω, A , P) à valeurs dans un espace mesurable (E, B ). On appelle loi de X la mesure de probabilité P X qui est la mesure image de P par l’application mesurable X : P X (W ) = P( X ∈ W ) W ∈ B. Définition 1.1.3. Soit (E, B , µ) un espace mesuré. On dit que µ est une mesure σ-finie s’il existe une suite croissante d’ensembles mesurables (E n , n ≥ 1) telle que pour tout n ≥ 1, µ ( E n ) < ∞. La mesure de Lebesgue λ, la mesure de comptage et toute mesure de probabilité sont des exemples de mesures σ-finie. Définition 1.1.4. Soit (Ω, A , µ) un espace mesuré et f une fonction mesurable positive. Alors l’application ν : A → R+ définie par Z ν( A ) = f dµ A est une mesure sur (Ω, A ) appelée mesure de densité f par rapport à µ. 7 8 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS Définition 1.1.5. Soit (Ω, A ) un espace mesurable muni de deux mesures positives µ et ν. On dit que µ est absolument continue par rapport à ν et on note µ ¿ ν si pour tout A ∈ B , on a ν( A ) = 0 ⇒ µ( A ) = 0. Cela signifie que toute partie ν-négligeable est µ-négligeable. Théorème 1.1.1. (Radon-Nikodym) Soit µ une mesure σ-finie et ν une mesure sur (Ω, A ) absolument continue par rapport à µ. Alors il existe une application f positive, unique à une µ-équivalence près telle que : Z ∀A ∈ A ν( A ) = f d µ. A f est appelée dérivée de Radon-Nikodym de ν par rapport à µ et sera notée dν f= ou d ν = f d µ. dµ 1.1.2.1 Loi d’une variable aléatoire réelle discrète Définition 1.1.6. On appelle mesure de comptage sur (E, P (E )) la mesure positive définie par : ( X card ( A ) si A est fini µ( A ) = δx ( A ) = x∈ E +∞ Si A est infini. Soit X une variable aléatoire définie sur Ω à valeurs dans R. Lorsque l’ensemble E = X (Ω) est fini ou infini dénombrable, la variable aléatoire X est dite discrète. Dans ce cas, la tribu associée est, en général, l’ensemble des parties de E et notée P (E ). La loi de probabilité P X est alors définie par PX = P( X = x)δ x X x∈ E où δ x , la mesure de Dirac au point x est définie, pour tout A ∈ P (E ) par ( 1 si x ∈ A δx ( A ) =. 0 sinon Pour tout A ∈ B , P X ( A ) ≤ µ( A ). Par suite, on en déduit que P X est absolument continue par rapport à la mesure de comptage µ (P X ¿ µ). D’après le Théorème de Radon-Nikodym, pour tout x ∈ E , P X ({ x}) = P( X = x) δ x ({ k}) = P( X = x)µ( x). X k∈E et la densité de P X par rapport à la mesure de comptage µ est donnée par f ( x) = P( X = x)1E ( x). Remarque 1.1.1. En pratique déterminer la loi d’une variable aléatoire discrète, revient à trouver E et à calculer toutes les probabilités P( X = x) pour tout x ∈ E. 1.1.2.2 Loi d’une variable aléatoire réelle à densité Définition 1.1.7. Une variable aléatoire X à valeurs dans (R, B (R)) est dite absolument conti- nue si sa loi de probabilité P X est absolument continue par rapport à la mesure de Lebesgue λ. 1.1. VARIABLES ALÉATOIRES 9 Le Théorème de Radon-Nicodym implique qu’il existe une fonction borélienne positive f telle que pour tout A ∈ B , Z PX ( A) = f d λ. A La fonction f (unique à un ensemble de mesure de Lebesgue nulle près), est appelée la densité de probabilité de P X. De plus, on a Z f d λ = 1. R 1.1.3 Loi d’un vecteur aléatoire Un  vecteur aléatoire X de dimension d est une variable aléatoire à valeurs dans Rd. Soit X1  ..  X = .  un vecteur aléatoire de dimension d. La loi de probabilité de X est appelée loi Xd conjointe des variables aléatoires réelles X 1 ,... , X d. C’est la loi image de P par X. Les lois des variables aléatoires réelles X 1 ,... , X d sont appelées lois marginales du vecteur aléatoire X. Définition 1.1.8. La loi conjointe PX d’un vecteur aléatoire X = ( X 1 ,... , X d )0 est dite absolu- ment continue si elle est absolument continue par rapport à la mesure de Lebesgue λd sur (Rd , B(Rd )). Théorème 1.1.2. La loi conjointe d’un vecteur aléatoire X = ( X 1 ,... , X d )0 est dite absolument continue si et seulement si il existe une fonction f mesurable, positive et intégrable telle que pour tout A ∈ B (Rd ) Z P(X ∈ A ) = f d λd ∀ A ∈ B (Rd ). A f est appelée densité conjointe du vecteur aléatoire X. La densité f vérifie la condition Z f d λ d = 1. Rd Proposition 1.1.1. (Lois marginales) Si le vecteur X = ( X 1 ,... , X d ) admet une loi conjointe absolument continue, alors ses lois marginales sont absolument continues et sa densité détermine les densités des lois marginales (appelées densités marginales) : pour i = 1,... , d Z f X i (xi ) = f ( x1 ,... , xd ) d λ( x1 )... λ( x i−1 )λ( x i+1 )... λ( xd ). Rd −1 1.1.3.1 Fonction de répartition d’une variable aléatoire réelle Définition 1.1.9. Soit X une variable aléatoire réelle. On appelle fonction de répartition de X la fonction F à valeurs dans [0, 1] définie par F ( x) = P( X ≤ x) pour tout x ∈ R. Proposition 1.1.2. Soit F la fonction de répartition d’une variable aléatoire réelle X. F1 La fonction F est croissante F2 lim F ( x) = 0 lim F ( x) = 1. x→−∞ x→+∞ F3 F est continue à droite et admet une limite à gauche F ( x− ) = lim F ( y) = P( X < x). y→ x y< x 10 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS Démonstration. F1 Soient x et y deux réels tels que x ≤ y. On a ] − ∞, x] ⊂] − ∞, y] et F ( x) ≤ F ( y). F2 Posons A n =] − ∞, −n]. On a A n = ; et T n lim F ( x) = lim F (− n) = lim P X ( A n ) = P X ¡\ ¢ A n = 0. x→−∞ n→∞ n→∞ n En posant B n =] − ∞, n], on a = R et S n Bn lim F ( x) = lim F ( n) = lim P X (B n ) = P X ¡[ ¢ B n = 1. x→+∞ n→+∞ n→+∞ n F3 En posant A n =] − ∞, x + 1/n], on a A n =] − ∞, x] et T n PX ¡\ ¢ A n = F ( x ). n lim F ( y) = lim F ( x + 1/ n) = lim P X ¡\ ¢ A n = F X ( x). y→ x n→+∞ n→+∞ n y> x En posant B n =] − ∞, x − 1/n], on a =] − ∞, x[ et S n Bn PX B n = P( X < x). ¡[ ¢ n lim F ( y) = lim F ( x − 1/ n) = lim P X B n = P( X < x). ¡[ ¢ y→ x n→+∞ n→+∞ n y< x Remarque 1.1.2. Si une fonction F vérifie les conditions F1, F2 et F3 alors il existe un espace probabilisé (Ω, A , P) et une variable aléatoire X définie sur cet espace, de fonction de répartition F. Remarque 1.1.3. Pour tout réel x, on a P( X = x) = F ( x+ ) − F ( x− ). Si la fonction de répartition F est continue en x, on a F ( x− ) = F ( x+ ) = F ( x). On en déduit que P( X = x) = 0. Si pour tout x ∈ R, P( X = x) = 0 alors la loi est dite diffuse. Définition 1.1.10. Soit F la fonction de répartition d’une variable aléatoire réelle. On appelle inverse généralisé de F et on note F ← , la fonction définie sur ]0, 1] par F ← ( u) = inf{ t : F ( t) ≥ u} avec la convention inf ; = +∞. Si F est continue et strictement croissante alors l’inverse généralisé F ← coı̈ncide avec F −1. Exercice 1.1.1. Soit X une variable aléatoire réelle de fonction de répartition F. Montrer que U = F ( X ) suit la loi uniforme sur [0, 1].Ce résultat est la base de la simulation stochastique. En effet, X = F ← (U ). Si on peut simuler la loi uniforme sur [0, 1], on peut simuler n’importe quelle variable aléatoire. Définition 1.1.11. Soit X une variable aléatoire réelle de fonction de répartition F. Le quan- tile d’ordre α ∈]0, 1[, noté xα , de la loi de X est défini par n o xα = inf x ∈ R : F ( x) ≥ α = F ← (α). 1.1. VARIABLES ALÉATOIRES 11 Proposition 1.1.3. Si la fonction de répartition F est continue, alors F ( xα ) = α. Si la fonction de répartition est de plus strictement croissante au point xα , alors xα est l’unique solution de l’équation F ( xα ) = α. Proposition 1.1.4. Soit F une application de R dans R, croissante, continue à droite telle que lim F ( x) = 0 lim F ( x) = 1. Alors, il existe une et une seule mesure de probabilité P sur x→−∞ x→+∞ (R, B (R)) dont F est la fonction de répartition. n o Preuve. Existence : On définit P sur la semi-algèbre J = ]a, b] : −∞ < a < b < +∞ par P(]a, b]) = F ( b) − F (a). La σ-additivité provient de la continuité à droite de F. Unicité. L’unicité provient du fait B (R) = σ(K ) et K = {] − ∞, x], x ∈ R} est un π-système. 1.1.3.2 Variable aléatoire discrète La fonction de répartition d’une variable aléatoire discrète X est donnée pour tout y ∈ R par : ³ ´ F ( y) = P X (] − ∞, y]) = P( X = x)δ x ] − ∞, y] X x∈ E P( X = x ) X = x≤ y Variable aléatoire absolument continue La fonction de répartition d’une variable aléatoire absolument continue X est donnée pour tout y ∈ R par : Z Z F ( y) = P X (] − ∞, y]) = dPX = f ( x) d λ( x). ]−∞,x] ]−∞,x] Proposition 1.1.5. Soit X , une variable aléatoire absolument continue admettant une densité f et une fonction de répartition F. Alors 1. F est dérivable λ-p.p. et F 0 = f. Z b 2. P X ( X ∈ [a, b]) = f ( x) d λ( x). a 3. Si F admet en tout point de R une dérivée continue, alors la loi de X est absolument continue. 1.1.3.3 Fonction de répartition d’un vecteur aléatoire Définition 1.1.12. On appelle fonction de répartition conjointe du vecteur aléatoire X la fonction définie sur Rd à valeurs dans [0, 1] par F ( x1 ,... , xd ) = P( X 1 ≤ x1 ,... , X d ≤ xd ). La fonction de répartition F est appelée fonction de répartition conjointe. Proposition 1.1.6. La fonction de répartition F satisfait les propriétés suivantes : 1. F est une fonction croissante (au sens large), continue à droite en chacun de ses arguments ; 12 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 2. F tend vers 0 lorsque un de ses arguments x i tend vers −∞ ; 3. F tend vers 1 lorsque tous ses arguments x i tendent vers +∞. Proposition 1.1.7. Pour i = 1,... , d , on a F X i ( x i ) = lim F ( x1 ,... , xn ). x j →+∞ Les fonctions de répartition F X 1 ,... , F X n sont appelées fonctions de répartition marginales. Si F est de classe C d sur Rd alors la loi de X est absolument continue etla densité de probabilité est ∂d F ( x1 ,... , xd ) f ( x1 ,... , x d ) =. ∂ x1... ∂ x d 1.1.4 Moments d’une variable aléatoire réelle 1.1.4.1 Espérance Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, A , P). On note P X la loi de X. Définition 1.1.13. On appelle espérance de X l’intégrale de X par rapport à la mesure P : Z E( X ) = X (ω) d P(ω). Ω La proposition suivante est essentielle pour le calcul pratique des espérances. Proposition 1.1.8. Soit X une variable aléatoire réelle et ϕ : R → R une application mesurable. Alors ϕ ◦ X est P- intégrable si et seulement si ϕ est P X -intégrable. Dans ce cas, on a Z Z ϕ ◦ X (ω) d P(ω) = ϕ( x) d P X ( x). Ω R En particulier, si ϕ( x) = x, on obtient Z E( X ) = xd P X ( x). R Remarque 1.1.4. Si X est une variable aléatoire réelle discrète alors son espérance est donnée par E( X ) = xP( X = x). X x ∈ X (Ω ) Remarque 1.1.5. Si X est une variable aléatoire à densité f alors l’espérance de X est donnée Z E( X ) = x f ( x) d λ( x). R La proposition ci-dessous se déduit des propriétés de l’intégration. Proposition 1.1.9. (Linéarité de l’espérance) Soient X , Y deux variables aléatoires réelles et α, β deux réels. Alors on a E[α X + βY ] = αE[ X ] + βE[Y ]. Proposition 1.1.10. (Inégalité de Markov.) Soit X une variable aléatoire réelle positive. Alors, pour tout λ > 0, E( X ) P( X ≥ ε) ≤. ε 1.1. VARIABLES ALÉATOIRES 13 Preuve. On a E( X ) ≥ E( X 1I X ≥ε ) ≥ εP( X ≥ ε). Proposition 1.1.11. (Inégalité de Jensen) Soit X une variable aléatoire réelle et ϕ : R → R une application borélienne et convexe telle que E(|ϕ( X )|) < ∞. Alors, on a ϕ(E( X )) ≤ E(ϕ( X )). Preuve. Comme ϕ est convexe alors pour tout x0 ∈ R, il existe a ∈ R tel que a( x − x0 ) + ϕ( x0 ) ≤ ϕ( x). Ainsi, on obtient a( X − E( X )) + ϕ(E( X )) ≤ ϕ( X ). En passant à l’espérance, on obtient l’inégalité. 1.1.4.2 Moment d’ordre supérieur Définition 1.1.14. Le moment d’ordre p ≥ 1 d’une variable aléatoire X est défini par Z E( X p ) = X p (ω) d P(ω). Ω Définition 1.1.15. Une variable aléatoire réelle X admet un moment d’ordre p ≥ 1 si et seulement si E(| X | p ) est finie. On note n o L p (Ω, A , P) = X : (Ω, A , P) → R : E(| X | p ) < +∞ l’ensemble des variables aléatoires réelles admettant un moment d’ordre p ; L p (Ω, A , P) est un espace vectoriel normé muni de la norme 1 k X k p = (E(| X | p )) p. 1 1 Proposition 1.1.12. (Inégalité de Hölder) Soit p et q tels que + = 1. Alors on a p q k X Y k1 ≤ k X k p kY k q. Pour p = q = 2, on obtient l’inégalité de Cauchy-Schwarz. Proposition 1.1.13. (Inégalité de Minskowski) Pour tout 1 ≤ p < +∞, on a k X + Y k p ≤ k X k p + kY k p. Soit X une variable aléatoire réelle. Pour X ∈ L2 (Ω, A , P), on définit la variance de X par V ar ( X ) = E(( X − E( X ))2 ) = E( X 2 ) − (E( X ))2. Ce nombre mesure la dispersion de la variable p aléatoire X autour de sa moyenne E( X ). On utilise souvent l’écart-type est définie par σ X = V ar ( X ) qui est du même ordre de grandeur que X. Proposition 1.1.14. (Inégalité de Bienaymé-Tchebyshev). Soit X une variable aléatoire réelle telle que X ∈ L2 (Ω, A , P). Alors pour tout ε > 0, on a V ar ( X ) P (| X − E[ X ]| > ε) ≤. ε2 14 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 1.1.5 Moments d’un vecteur aléatoire 1.1.5.1 Espérance Soit X = ( X 1 ,... , X d ) t un vecteur aléatoire de dimension d. Définition 1.1.16. On définit l’espérance de X par E( X 1 )   E(X) = .. .  . E( X d ) Théorème 1.1.3. (Théorème de transfert). Soit ϕ une fonction mesurable de (Rd , B (Rd ) vers (R, B (R). alors ϕ( X )est une variable aléatoire réelle P-intégrable si et seulement si ϕ est P X -intégrable. On a alors Z Z E[ϕ( X )] = ϕ( X ) d P = ϕ( x1 ,... , xd ) d P X ( x1 ,... , xd ). Ω Rd 1.1.5.2 Matrice de covariance Définition 1.1.17. Soient X et Y deux variables aléatoires réelles. On appelle covariance de X et de Y , et l’on note Cov( X , Y ), le nombre : Cov( X , Y ) = E([ X − E( X )] [Y − E(Y )]). On a Cov( X , Y ) = Cov(Y , X ). Si X et Y sont indépendantes alors Cov( X , Y ) = 0. On dit alors que X et Y sont non corrélées. La réciproque est en général fausse, on peut trouver deux variables aléatoires non corrélées et dépendantes. Définition 1.1.18. On appelle coefficient de corrélation linéaire de X et de Y , le nombre Cov( X , Y ) ρ( X , Y ) = σ X σY où σ X est l’écart-type de X , σY celui de Y. Remarque 1.1.6. Si ρ ( X , Y ) > 0 alors X et Y évoluent dans le même sens. Si ρ ( X , Y ) < 0 alors X et Y évoluent en sens contraire. Si X et Y sont indépendantes alors ρ ( X , Y ) = 0 Proposition 1.1.15. 1. −1 ≤ ρ ( X , Y ) ≤ 1 2. Si |ρ ( X , Y )| = 1 alors les variables X et Y sont liées par une relation affine, i.e., il existe (α, β) ∈ R2 tel que Y = α X + β. 3. Le coefficient de corrélation linéaire est invariant par transformation affine x 7→ α x + b avec α > 0. Définition 1.1.19. Soit X = ( X 1 ,... , X d ) t ∈ L2 (Ω, A , P) La matrice de variance-covariance est définie par ΣX = E ( X − E( X ))( X − E( X )) t £ ¤ ³ ´ = Cov( X i , X j. 1≤ i, j ≤ d 1.1. VARIABLES ALÉATOIRES 15 Remarque 1.1.7. ΣX est une matrice symétrique, positive. Soit X un vecteur aléatoire d’espérance E(X) et de matrice de variance-covariance ΣX. Soient A une matrice q lignes et d colonnes et c un vecteur de dimension d. Posons Alors Y = A X + c. Alors, nous avons E(Y) = A E(X) + c ΣY = A ΣX A t. Le symbole A t désigne la matrice transposée de A. 1.1.6 Variables alátoires indépendantes 1.1.6.1 Indépendance des tribus Définition 1.1.20. Une famille (A1 ,... , Ad ) de sous tribus de A est indépendante si P( A 1 ∩... ∩ A d ) = P( A 1 ) ×... × P( A d ) ∀ A 1 ∈ A1 ,... , ∀ A d ∈ Ad. Soient A 1 ,... , A d ⊂ Ω, pour 1 ≤ i ≤ d , on note F i = σ( A i ) = {;, A i , A ci , Ω} la tribu engendrée par l’événement A i. ³ ´ Proposition 1.1.16. Les événements A 1 ,... , A d sont indépendants si et seulement si F1 ,... , Fd est une famille de sous tribus indépendantes. 1.1.6.2 Indépendance des variables aléatoires Proposition 1.1.17. Deux variables aléatoires X et Y sont indépendantes si pour A , B ∈ B(R) P( X ∈ A, Y ∈ B) = P( X ∈ A )P( X ∈ B). Définition 1.1.21. Soit X une variable aléatoire réelle. La tribu engendrée par X est celle engendrée par l’ensemble { X −1 ( A ), A ∈ B(R)}. On note σ( X ) la tribu engendrée par X. La tribu σ( X ) est la tribu qui contient toutes les informations liées à la variable aléatoire X. Définition 1.1.22. Deux variables aléatoires X et Y sont indépendantes si et seulement si leurs tribus engendrées σ( X ) et σ(Y ) sont indépendantes Proposition 1.1.18. Les composantes du vecteur aléatoire X = ( X 1 ,... , X d ) t sont indépen- dantes si et seulement si sa loi P X est une loi produit de ses lois marginales : PX = PX1 ⊗... ⊗ P X d. On suppose que pour chaque i , la variable X i admet une densité f i par rapport à la mesure de Lebesgue sur R. Corollaire 1.1.1. Un vecteur aléatoire X = ( X 1 ,... , X d ) est à composantes indépendantes si et seulement si la densité conjointe f s’écrit f ( x1 ,... , xd ) = f 1 ( x1 )... f d ( xd ). 16 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 1.1.7 Fonction caractéristique Définition 1.1.23. Soit X un vecteur aléatoire de dimension d. On appelle fonction caracté- ristique de X , la fonction de Rd dans C définie par Z φ X ( u) = E( e i〈u,X 〉 ) = e i〈u,X 〉 d P Ω d X où 〈 u, X 〉 = ui X i. i =1 La fonction caractéristique caractérise la loi de X. Proposition 1.1.19. Soit X une variable aléatoire à valeurs dans Rd et A une matrice à p lignes et d colonnes, B un vecteur de dimension d , alors φ A X +B ( u) = e i〈u,B〉 φ X ( t A.u), ∀ u ∈ Rd. Proposition 1.1.20. Si E (| X |k ) < ∞, φ X est k fois continûment différentiable sur Rd et ∂ k φ X ( t) = i k E ( e i〈 t,X 〉 X i 1 X i 2... X i k ). ∂t i1 ∂t i2... ∂t i k Remarque 1.1.8. (Cas d = 1) Si X est une variable aléatoire réeele discrète, e iux P ( X = x). X φ X ( u) = x∈ X (Ω) Si X est une variable aléatoire réelle à densité, Z ∞ φ X ( u) = e ixu f X ( x) dx. −∞ Remarque 1.1.9. φ X (0) = 1 d ∀ t ∈ R , φ X (− t) = φ X ( t) La fonction caractéristique caractérise complètement la loi : Théorème 1.1.4. Soit X et Y des variables aléatoires définies sur (Ω, A , P) à valeurs dans Rd de lois P X et PY. Alors P X = PY si et seulement si φ X = φY. Théorème 1.1.5. Si F X désigne la fonction de répartition d’une variable aléatoire réelle X alors on a ∀(a, b) ∈ R2 , 1 T e− ita − e− itb Z F X (a) − F X ( b) = lim ϕ X ( t) dt. T →∞ 2π −T it Z De plus, si |ϕ X ( t)| dt < +∞, alors X admet une densité f X et R 1 Z f X ( x) = ϕ X ( t) e− itx dt. 2π R Ce théorème permet de retrouver explicitement la densité de X connaissant sa fonction caractéristiques. 1.1. VARIABLES ALÉATOIRES 17 1.1.8 Calcul de lois 1.1.8.1 Cas d’une variable aléatoire discrète La déterminantion de la loi d’une variable aléatoire discrète X s’effectue en deux temps : 1. Détermination du support X (Ω) de X. 2. Calcul P( X = x) pour tout x ∈ X (Ω). 1.1.8.2 Cas d’une variable aléatoire absolument continue Soit X = ( X 1 ,... , X d )0 un vecteur de loi PX et de fonction de répartition FX. On considère une application mesurable ϕ : Rd → R p. Quelle est la loi de Y = ϕ(X) ? Utilisation de la fonction de répartition La fonction de répartition détermine entièrement la loi d’une variable aléatoire. L’ap- proche proposée consiste à déterminer la fonction de répartition FY de Y. La fonction de densité f Y s’obtient par dérivation de la fonction de répartition. Formule de changement de variable Définition 1.1.24. Soit ϕ : D ⊂ Rd → ∆ ⊂ Rd où D et ∆ sont des ouverts. ϕ est appelé un difféomorphisme si c’est une bijection de classe C 1 dont la bijection réciproque est aussi de classe C 1. Définition 1.1.25. La matrice jacobienne d’un changement de variable y = ϕ( x) ⇔ ( y1 ,... , yd ) = ϕ( x1 ,... , xd ) est  ∂ϕ1 ∂ϕ1  ∂ x1... ∂ xd ...  .. Jϕ ( x1 ,... , xn ) = .   ∂ϕ1 ∂ϕd ∂ xd... ∂ xd Le jacobien est le déterminant de la matrice jacobienne. Théorème 1.1.6. Soit V un ouvert de Rd et ϕ un difféomorphisme de classe C 1 de V dans ϕ(V ) ⊂ Rd. Alors, on a les formules de changement de variable Z Z f ( x) d λ( x) = f (ϕ−1 ( y))| det( Jϕ−1 ( y))| d λ( y) V ϕ(V ) Z Z h(ϕ( x)) d λ( x) = h( y)| det( Jϕ−1 ( y))| d λ( y) V ϕ(V ) Soit ∆ un ouvert de Rd et ϕ : ∆ → Rd un difféomorphisme de classe C 1 sur ∆ et dont le jacobien ne s’annule pas sur ∆. Soit X un vecteur de dimension d tel que P( X ∈ ∆) = 1 admettant une densité f X. Alors le vecteur aléatoire Y = ϕ(X) admet la densité f Y ( y) = f X (ϕ−1 ( y))| det( Jϕ−1 ( y))|1Iϕ(∆) ( y). Remarque 1.1.10. Il est indispensable que ϕ soit bijective. Si par exemple V est un ouvert de R p avec p < d , on ne peut utiliser directement le théorème précédent. Un moyen de pallier à cette difficulté consiste à ”compléter” ϕ en une fonction bijective. 18 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS Utilisation de la fonction muette Il s’agit de trouver une fonction mesurable positive g telle que pour toute fonction mesurable h, on ait Z Z E(Y) = E[ h(ϕ(X))] = h(ϕ( x)) f X ( x) d λ( x) = h( y) g( y) d λ( y). Par identification, une telle fonction g est une densité de Y. Cette fonction s’obtient géné- ralement par changement de variable. 1.1.9 Vecteurs gaussiens 1.1.9.1 Définitions Une variable aléatoire réelle gaussienne est - soit une variable aléatoire réelle normale d’espérance m et de variance σ2 > 0 admet- tant une densité : 1 ³ 1 ´ f ( x) = p exp − 2 ( x − m)2 σ 2π σ - soit une variable aléatoire réelle de Dirac au point m (cas où σ2 = 0) ; la loi de cette variable notée δm appelée mesure de Dirac au point m est définie par : ( 1 si m ∈ A δm ( A ) = 0 si m ∉ A pour A ∈ A Définition 1.1.26. Un vecteur aléatoire X de dimension d , est appelé vecteur gaussien si toute combinaison linéaire de ses composantes est une variable aléatoire réelle gaussienne, c’est à dire, pour tout a ∈ Rd , 〈a, X 〉 est une variable aléatoire réelle gaussienne. La loi de X est alors la loi normale sur Rd notée N d (m, Σ), où m ∈ Rd et Σ appelée matrice de dispersion, est une matrice carrée symétrique positive d’ordre d. Proposition 1.1.21. Soient m ∈ Rd et Σ une matrice carré d’ordre d à coefficients réels, symétrique et positive. Alors, il existe un espace probabilisé (Ω, A , P) et un vecteur gaussien X de dimension d définie sur (Ω, A , P), d’espérance m et de matrice de dispersion Σ. Démonstration. Admise. Proposition 1.1.22. Soient X 1 ,... , X d des variables aléatoires gaussiennes indépendantes. X1   Alors le vecteur aléatoire ..  est gaussien.  . Xd a1   d Démonstration. Pour tout a = ...  ∈ Rd , on va montrer que 〈a, X 〉 = X a j X j est une va-   j =1 ad riable aléatoire réelle gaussienne. Comme les variables X 1 ,... , X d , la fonction caractéristique 0 de a X est : d Y φ〈a,X 〉 ( t) = φ X j ( a j t) i =1 1.1. VARIABLES ALÉATOIRES 19 où φ X j est la fonction caractéristique de X j. Pour j = 1,... , d , chaque X i suit une loi gaus- ³ ´ sienne N (m j , σ2j ). Alors, la fonction caractéristique de X j est φ X j ( t) = exp im j − 12 t2 σ2j. Par suite, ³ X d 1 X d ´ φ〈a,X 〉 ( t) = exp i m j − t2 σ2j. j =1 2 j=1 Par suite 〈a, X 〉 suit une loi normale d’espérance j=1 m j et de variance dj=1 σ2j pour tout Pd P a1   .  a = ..  ∈ Rd. ad Proposition 1.1.23. Soit X un vecteur aléatoire de dimension d admettant une espérance m et une matrice de dispersion Σ. Alors X est un vecteur gaussien si et seulement si sa fonction caractéristique est ³ 1 ´ φ X ( u) = exp iu0 m − u0 Σ u. 2 µ ¶ X1 Proposition 1.1.24. Si est un vecteur gaussien avec cov( X 1 , X 2 ) = 0 alors X 1 et X 2 sont X2 indépendantes. µ ¶ X1 Démonstration. La matrice de dispersion du vecteur gaussien est X2 ³ var ( X ) 0 ´ 1 Σ=. 0 var ( X 2 ) D’après la Proposition 1.1.23, sa fonction caractéristique est ³ 1 ´ φ( u) = exp i ( u 1 m 1 + u 2 m 2 ) − ( u21 var ( X 1 ) + u22 var ( X 2 ) 2 = φ X 1 ( u 1 )φ X 2 ( u 2 ) où φ X 1 et φ X 1 sont les fonctions caractéristiques respectives des variables aléatoires X 1 et X 2. On en déduit que X 1 et X 2 sont indépendantes. X1  .. Proposition 1.1.25. Soit X =   un vecteur gaussien de matrice de dispersion Σ X. Les  . Xd composantes X 1 ,... , X d sont indépendantes si et seulement si Σ X est diagonale. Démonstration. Condition nécessaire : pour i 6= j , cov( X i , X j ) = 0 car les variables X i et X j sont indépendantes. Condition suffisante : la fonction caractéristique de X est ³ X d 1X d ´ φ X ( u 1 ,... , u d ) = exp i u j E( X j ) − u2j var ( X j ) j =1 2 j=1 d Y = φ X j (u j ) j =1 20 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS Définition 1.1.27. Soit X un vecteur gaussien et Σ sa matrice de dispersion. Si det(Σ) = 0 alors X est dit dégénéré. Dans le cas contraire, le vecteur gaussien est dit non-dégénéré. Proposition 1.1.26. Soit X est un vecteur gaussien N d ( m, Σ) non-dégénéré. Alors X admet une densité sur Rd définie par 1 1 ½ ¾ 0 −1 f X ( x) = dp exp − ( x − m ) Σ ( x − m ). (2π) 2 det(Σ) 2 Démonstration. Soit X un vecteur gaussien N d (m, Σ) oÃ¹ Σ est une matrice symétrique définie positive. Comme Σ est symétrique réelle, il existe une matrice carrée d’ordre d , 0 A , orthogonale A telle que ∆ = A Σ A soit diagonale. Les éléments diagonaux de ∆ sont strictement positives. Nous les notons σ21 ,... , σ2d. Y1   Considérons le vecteur Y = A ( X − m). Le vecteur Y = ...  est un vecteur gaussien N d (0, ∆)   Yd et pour tout j = 1,... , d , Y j suit une loi normale N (0, σ2j ). Comme ∆ est diagonale, les variables Y1 ,... , Yd sont indépendantes. La variable aléatoire Yk a pour densité 1 ³ y2 ´ f k ( yk ) = p exp − k2. 2πσk 2σk Par suite, la densité de Y est donnée par ³ 1 ´d 1 ³ 1 X d yk2 ´ f Y ( y1 ,... , yd ) = p exp − 2π 2 k=1 2σ2k q σ2... σ2 1 d 1 1 ³ 1 0 ´ = p exp − y ∆−1 y (2π)d /2 det(∆) 2 Soit h une fonction borélienne positive définie sur Rd à valeurs dans R̄+. Le théorème de transfert implique Z 0 0 E( h( X )) = E( h( A Z + m)) = h( A z + m) d P Z ( z ) Rd Z 0 = h( A z + m) f Z ( z) d λ(d ) ( z). Rd 0 Effectuons le changement de variable x = A z + m. Le jacobien de la transformation x ∈ Rd 7→ z = A ( x − m) est det( A ). On obtient donc Z E( h( X )) = h( x) f Z ( A ( x − m)) d λ(d ) ( x). Rd Le vecteur aléatoire X admet une densité f X ( x) = f Z ( A ( x − m)) 1 1 ³ 1 0 0 ´ = p exp − ( x − m) A ∆−1 A ( x − m) (2π)d /2 det(Σ) 2 0 avec Σ−1 = A ∆−1 A. On admettra que si la matrice Σ n’est pas inversible, la loi du vecteur gaussien n’admet pas de densité par rapport à la mesure de Lebesgue sur Rd. En effet, on montre qu’elle est porté par un sous-espace affine de Rd de dimension strictement inférieure à d. 1.1. VARIABLES ALÉATOIRES 21 1.1.9.2 Lois dérivées des vecteurs gaussiens Définition 1.1.28. Soit X ,→ N n (0, I n ). La variable aléatoire réelle k X k22 suit une loi du χ2 à n degrés de liberté et l’on note k X k22 ,→ χ2 ( n). Définition 1.1.29. Soient X et Y deux variable aléatoires indépendantes suivant respective- ment les lois χ2 (n) et χ2 (m). La variable aléatoire YX//mn suit une loi appelée loi de Fisher- Snedecor à (n, m) dégrés de liberté et notée F (n, m). Définition 1.1.30. Soient X et Y deux variables aléatoires indépendantes suivant respective- ment N (0, 1) et χ2 (n). La loi de la variable aléatoire réelle X Z= q Y n est appelée loi de Student à n degrés de liberté. On la note T (n). 1.1.9.3 Théorèmes de Cochran-Fisher Soit E un sous-espace vectoriel de Rn. Notons P E la matrice de la projection orthogonale 0 sur E. La matrice P E est une matrice carrée d’ordre n, symétrique (P E = P E ) et idempotent (P E2 = P E ) Théorème 1.1.7. (Cochran) On considère un vecteur gaussien X ,→ N n (0, σ2 I n ) où σ2 > 0 et une décomposition E 1 ⊕... ⊕ E p de Rn en sous-espaces orthogonaux de dimensions respectives r 1 ,... , r p. Alors, les projections orthogonales PE 1 X ,... , PE p X forment des vecteurs gaussiens indépendants. De plus, nous avons, pour i = 1,... , p 1 kPE i X k22 ,→ χ2 ( r i ). σ2 Démonstration. Soit ( e ij ) i=1,...,p, j=1,...,r i une base orthonormée de Rn telle que pour chaque i = 1,... , p, ( e ij ) j=1,...,r i est une base orthonormée de E i. La matrice de projection orthogonale sur E i est définie par : 0 P E i = ( e 1i ,... , e ir i )( e 1i ,... , e ir i ). Les vecteurs ( e ij ) i=1,...,p, j=1,...,r i étant orthogonaux, nous avons P E i P E k = 0 pour i 6= k. 1. X est un vecteur gaussien. Ainsi, PE i X est un vecteur gaussien. Par suite, nous en déduisons que le vecteur (PE 1 X ,... , PE p X ) est gaussien. De plus, cov(PE i X , PE j X ) = 0 pour i 6= j. Par suite, les vecteurs aléatoires PE 1 X ,... , PE p X sont indépendants. 2. PE i X ,→ N n (0, σ2 PE i ). Or, nous avons PE i X = σ M i Z où Z ,→ N r i (0, I r i ) avec M i = ( e 1i ,... , e ir i ). Par suite, k M i Z k2 = k Z k2 ,→ χ2 ( r i ). On en déduit le résultat. Corollaire 1.1.2. Soient X 1 ,... , X n des variables aléatoires indépendantes de même loi N (µ, σ2 ). Posons 1X n 1 X n Xn = Xi S 2n = ( X i − X n )2. n i=1 n − 1 i=1 Alors, on a : 22 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 1. X n et S 2n sont indépendantes ; ( n − 1)S 2n 2. ,→ χ2 ( n − 1) ; σ2 p n ( X n − µ) 3. ,→ T ( n − 1). Sn Démonstration. 1. On effectue la démonstration lorsque µ = 0 et σ2 = 1. Posons v = 1   p1 ..  n .  et E = vect(v). Nous avons alors Rn = E ⊕ E ⊥. 1 Y1   Soit Y = ...  ,→ N (0, I n ). Nous avons les résultats :   Yn p p PE Y = nYn v P E ⊥ Y = Y − nYn v. D’après le Théorème de Cochran, P E Y et P E ⊥ Y sont indépendantes. Ainsi, nous obtenons l’indépendance de Yn et de n k P E ⊥ Y k2 = (Yi − Yn )2. X i =1 De plus n (Yi − Yn )2 ,→ χ2 ( n − 1). X i =1 2. On considère maintenant des variables aléatoires X 1 ,... , X n indépendantes de même X1 µ     loi N (µ, σ2 ). Nous avons X = .. .   est un vecteur gaussien de moyenne ..  et  . Xn µ de matrice variance-covariance σ2 I n. De plus, pour tout i = 1,... , n X i = µ + σY i où les variables aléatoires Y1 ,... , Yn sont indépendantes de loi N (0, 1). Nous obtenons alors, ( n − 1)S 2n 1 X n 2 n (Yi − Yn )2 ,→ χ2 ( n − 1). X = ( X i − X n ) = σ2 σ2 i=1 i =1 1.2 Conditionnement Soit (Ω, A , P) un espace probabilisé. 1.2.1 Conditionnement par un événement Soit B ∈ A tel que P(B) 6= 0. Pour tout A ∈ A , on pose P( A ∩ B ) PB ( A ) = ; P( B ) PB ( A ) est appelée probabilité conditionnelle de A sachant B. 1.2. CONDITIONNEMENT 23 Remarque 1.2.1. PB est une probabilité sur (Ω, A ). Proposition 1.2.1. Soit X une variable aléatoire P-intégrable. Alors X est aussi PB -intégrable. Définition 1.2.1. On appelle alors espérance conditionnelle de X sachant B la quantité 1 Z Z E( X |B) = X d PB = X d P. Ω P( B ) B 1.2.2 Conditionnement par une partition au plus dénombrable d’événe- ments Soit (B n , n ∈ N) une partition de Ω avec P( A n ) 6= 0 pour tout n ∈ N. On note B = σ(B n , n ∈ N) la tribu engendrée par (B n , n ∈ N). On définit la probabilité conditionnelle d’un événement A sachant B comme étant la variable aléatoire qui prend la valeur P( A |B n ) pour tout ω ∈ B n. On la note P( A |B ) et nous avons P( A |B ) = P( A |B n )1B n X n∈N Proposition 1.2.2. Soit A fixé, la variable aléatoire P( A |B ) satisfait les propriétés suivantes : - P( A |B ) est B -mesurable Z - pour tout B ∈ B , on a P( A |B ) d P = P( A ∩ B) B Démonstration. La fonction P( A |B ) est constante sur chaque B n. Alors, P( A |B ) est mesu- rable. Soit B ∈ B. Alors, il existe I ⊂ N tel que B = ∪ i∈ I B i. Nous avons : Z XZ P( A |B )dP = P( A |B )dP B i∈ I B i XZ P( A |B n )dP X = i ∈ I B i n∈N P( A |B n )P(B i ∩ B n ) XX = i ∈ I n∈N P( A |B i )P(B i ) X = i∈ I P( A ∩ B i ) X = i∈ I ´ = P A ∩ (∪ i∈ I B i ) ¡ = P( A ∩ B). Proposition 1.2.3. A ω fixé, P( A |B )(ω) est une mesure de probabilité. Définition 1.2.2. Soit X une variable aléatoire dans L1 (Ω, A , P). L’espérance conditionnelle de X sachant B est la variable aléatoire définie par : Z E( X |B )(ω) = X d P(·|B )(ω) = E( X |B j )1B j (ω) X j ∈N pour tout ω ∈ Ω. Proposition 1.2.4. Soit X une variable aléatoire P-intégrable. 24 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 1. L’application ω 7→ E( X |B )(ω) satisfait : (a) E( X |B ) est B -mesurable Z Z (b) pour tout B ∈ B , on a E( X |B ) d P = X d P. B B En particulier en prenant B = Ω, on obtient E(E( X |B )) = E( X ). Exemple 1.2.1. Conditionnement par une variable aléatoire discrète. Soit Y une variable aléatoire discrète avec Y (Ω) = { yi , i ∈ I ⊂ N}. Alors, on a Ω = ∪ i∈ I B i où B i = Y −1 ({ yi }). La tribu engendrée par Y est la tribu engendrée par la partition constituée des événements B i. On note σ(Y ) cette tribu. On définit l’espérance de X sachant Y par E( X |Y ) = E( X |σ(Y )). La loi de X sachant Y étant P X (·|Y ) = P X (·|σ(Y ), ) nous avons donc E( X |Y ) = E( X |Y = yi )1{Y = yi }. X i ∈N 1.2.3 Conditionnement par une tribu Définition 1.2.3. Soit B une tribu et X une variable aléatoire. L’espérance conditionnelle de X sachant B est la classe des variables aléatoires E( X |B ) qui vérifient :   E( X |B ) est B -mesurable (∗ ∗ ∗) Z Z  pour tout B ∈ B , on a E( X |B ) d P = X d P. B B On appelle version de l’espérance conditionnelle un élément de cette classe. Proposition 1.2.5. Soit X une variable aléatoire P-intégrable. On suppose qu’il existe une variable aléatoire E( X |B ) qui satisfait (∗ ∗ ∗). Alors, E( X |B ) vérifie les propriétés suivantes. — E(·|B ) est linéaire. — Si X est positive alors E( X |B ) l’est aussi. Proposition 1.2.6. Beppo Levi Soit ( X n )n∈N une suite croissante de variables aléatoires positives qui converge vers X. Alors, nous avons lim E( X n |B ) = E( X |B ) n ↑ +∞ Proposition 1.2.7. Fatou Si ( X n )n∈N est une suite de variables aléatoires positives, alors E(lim X n |B ) ≤ lim E( X n |B ). Proposition 1.2.8. Convergence dominée. Si ( X n )n∈N est une suite de variables aléatoires qui converge vers X et s’il existe une variable aléatoire Y intégrable telle que pour tout n, X n ≤ Y alors lim E(| X n − X kB ) = 0. n→+∞ Proposition 1.2.9. Soit ( X , Y ) un couple de variables aléatoires. Si X est B -mesurable alors E( X Y |B ) = X E(Y |B ) presque sûrement. Proposition 1.2.10. Si X est indépendante de B alors E( X |B ) = E( X ) presque sûrement. 1.2. CONDITIONNEMENT 25 1.2.4 Interprétation géométrique Théorème 1.2.1. Soit H un espace de Hilbert. Soit E un sous-espace complet de H. Pour tout x ∈ H , il existe un unique élément y ∈ E tlque k y − xk = inf kω − xk. ω∈ E y− x ⊥ x.On note y = P E ( x) la projection orthogonale sur E. On sait que L2 (Ω, A , P) est un espace de Hilbert. Soit B une sous tribu de A et L2 (Ω, B , P) le sous espace L2 (Ω, A , P) constitué des classes d’équivalence d’applications B -mesurable. C’est un sous-espace complet de L2 (Ω, A , P). D’après le théorème précédent, si X ∈ L2 (Ω, A , P) alors la projection de X sur L2 (Ω, B , P) est une version de l’espérance conditionnelle. Théorème 1.2.2. Si X est une variable aléatoire dans L2 (Ω, A , P) alors la variable aléatoire Y = P L2 (Ω,B ,P) ( X ) est une version de l’espérance conditionnelle sachant B vérifiant (∗ ∗ ∗). 1.2.5 Conditionnement par une variable aléatoire 1.2.6 Définition Soit Y une variable aléatoire à valeurs dans l’espace mesureable (E, E ). On note σ(Y ) la tribu engendrée par Y , c’est à dire, σ(Y ) = σ({Y −1 ( A ), A ∈ E }). On a : E( X |σ(Y )) = E( X |Y ). Lemme 1.2.1. (Lemme de Doob). Soit U une variable aléatoire sur Ω. U est σ(Y )-mesurable si et seulement si il existe une application mesurable g de E dans R telle que U = g(Y ). L’espérance conditionnelle E( X |Y ) est donc de la forme g(Y ) avec g mesurable et Z Z g(Y ) d P = X dP ∀B ∈ σ(Y ). B B L’événement B peut aussi s’exprimer de la forme Y −1 (C ) avec C ∈ E. En utilisant le théorème du transfert, on obtient Z Z g ( y) d PY ( y) = X dP C Y −1 (C ) 1.2.7 Couple de variables aléatoires Soit ( X , Y ) un couple de variables aléatoires admettant une densité f par rapport à la mesure produit µ1 ⊗ µ2. Alors, on a Z P( X ∈ B, Y ∈ C ) = f ( x, y) d µ1 ⊗ µ2 ( x, y). B ×C Proposition 1.2.11. Si E| X | < +∞ alors x f ( x, Y ) d µ1 ( x) R E( X |Y ) = R. f ( x, Y ) d µ1 ( x) 26 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS Démonstration. Soit {ω : f ( x, Y (ω)) d µ1 ( x) = 0}. On a R ³ Z ´ Z 0 P {ω : f ( x, Y (ω)) d µ1 ( x) = 0} = d PY ( y) { y: f ( x,y) d µ1 ( x)=0} R Z = f Y ( y) d µ2 ( y) { y: f Y ( y)=0} =0 Proposition 1.2.12. La loi conditionnelle de X sachant Y admet pour densité : f ( x, y) f X |Y = y ( x ) = R 1 R f ( x,y) d µ1 ( x)6=0}. f ( x, y) d µ1 ( x) { y: 1.3 Convergences et Théorèmes limites 1.3.1 Modes de convergence 1.3.1.1 Convergence presque-sûre Soit X n et X des variables aléatoires définies sur le même espace probabilisé (Ω, A , P). Posons N = {ω ∈ Ω : X n (ω) ne converge pas vers X (ω)} Définition 1.3.1. On dit que la suite X n converge presque sûrement vers X si P(N ) = 0. On p.s écrit X n −→ X. X ³ ´ Proposition 1.3.1. Si pour tout ε > 0 P | X n − X | > ε < ∞ alors ( X n )n converge presque n≥0 sûrement vers X. 1.3.1.2 Convergence dans la norme L p (Ω, A , P) Soit X n et X des variables aléatoires définies sur le même espace probabilisé (Ω, A , P). Définition 1.3.2. On dit que la suite X n converge vers X dans L p (Ω, A , P) avec p ∈ [1, +∞[ si les X n et X sont dans L p et h i lim E | X n − X | p = 0. n→+∞ Lp On note X n −→ X. Proposition 1.3.2. Si p ≥ q, la convergence dans la norme L p (Ω, A , P) entraı̂ne la convergence dans la norme L p (Ω, A , P). 1.3.1.3 Convergence en probabilité Soit X n et X des variables aléatoires définies sur le même espace probabilisé (Ω, A , P). Définition 1.3.3. On dit que la suite X n converge en probabilité vers X si pour tout ε > 0, on a h i lim P | X n − X | > ε = 0. n→+∞ P On note X n −→ X. 1.3. CONVERGENCES ET THÉORÈMES LIMITES 27 1.3.1.4 Convergence en loi Pour ce mode de convergence, les variables aléatoires X n et X peuvent être définies sur des espaces probabilisés distincts. Seules les lois des variables aléatoires sont en cause. On notera P X n la loi de X n et P X la loi de X. On note C b (Rd ) l’espace des fonctions continues bornées de Rd dans R. On munit cet espace de la norme kϕk = sup |ϕ( x)|. x∈Rd Définition 1.3.4. Soient Pn et P des lois de probabilité sur Rd. On dit que Pn converge étroitement vers P si Z Z ∀ϕ ∈ C b (Rd ) ϕ d Pn −→ ϕ d P. Définition 1.3.5. Une suite de variables aléatoires ( X n )n≥1 à valeurs dans Rd converge en loi vers une variable aléatoire X si la suite P X n converge étroitement vers P X , c’est à dire ∀ϕ ∈ C b (Rd ) E(ϕ( X n )) −→ E(ϕ( X )). L On écrit X n −→ X. Proposition 1.3.3. Soit ( X n )n≥1 une suite de variables aléatoires à valeurs dans Rd. La suite ( X n )n≥1 converge en loi vers X si et seulement si la suite des fonctions caractéristiques converge vers la fonction caractéristique de X : ∀ t ∈ Rd φ X n ( t) −→ φ X ( t). Proposition 1.3.4. Soit ( X n )n≥1 une suite de variables aléatoires à valeurs dans Rd telle que ∀ t ∈ Rd φ X n ( t) −→ ψ( t) avec ψ continue en 0. Alors, ψ est la fonction caractéristique d’une variable aléatoire X. De plus, la suite ( X n )n≥1 converge en loi vers X. On suppose maintenant que les variables aléatoires X n et X sont à valeurs réelles et de fonctions de répartition respectives F n et F. Proposition 1.3.5. La suite ( X n )n≥1 converge en loi vers la variable aléatoire X si et seule- ment si F n ( t) −→ F ( t) pour tout point de continuité t de F. Si ( X n )n≥1 converge en loi vers X , on n’a pas nécessairement convergence de (F n ( t))n vers F ( t) si t n’est pas un point de continuité de F. Pour contre-exemple, prendre X n = 1/ n et X = 0 et considérer les fonctions de répartition au point 0. Théorème 1.3.1. Soient X n et X des variables aléatoires à valeurs dans E fini ou infini dénombrable. Alors L X n −→ X ⇐⇒ lim P( X n = j ) = P( X = j ) ∀ j ∈ E. n→+∞ Proposition 1.3.6. Soient ( X n )n≥1 une suite de variables aléatoires à valeurs dans Rd qui converge en loi vers une variable aléatoire X et g une fonction continue sur Rd. Alors g( X n ) converge en loi vers g( X ). Preuve. Si h est continue, bornée et g est continue alors h ◦ g est continue et bornée. 28 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 1.3.2 Relations entre les différents modes Dans cette section, nous donnons quelques résultats concernant les relations entre les différents modes de convergence d’une variable aléatoire. Proposition 1.3.7. Soit ( X n )n≥1 une suite de variables aléatoires à valeurs dans Rd qui converge en probabilité vers une variable aléatoire X. Alors ( X n )n≥1 converge en loi vers X. Démonstration. Soit g une fonction continue et bornée sur Rd. Pour tout ε > 0, on a |E( g( X n )) − E( g( X ))| ≤ ε + 2k gkP(| X n − X | > ε). En passant à la limite, on obtient pour tout ε > 0, ³ ´ 0 ≤ lim sup |E( g( X n )) − E( g( X ))| ≤ ε. La réciproque est en général fausse. Mais, elle est vraie lorsque la limite est une constante. Proposition 1.3.8. Soit ( X n )n≥1 une suite de variables aléatoires à valeurs dans Rd qui converge en loi vers une constante a. Alors ( X n )n≥1 converge en probabilité vers la constante a. Démonstration. On fait la preuve pour d = 1. Soit ε > 0. P(| X n − a| > ε) ≤ 1 − F n (a + ε) + F n (ε − a). On obtient le résultat car a + ε et a − ε sont des points de continuité de la fonction de répartition de la variable aléatoire égale à a presque sà rement. Proposition 1.3.9. Supposons qu’il existe p ≥ 1 tel que ( X n )n≥1 converge vers X dans L p (Ω). Alors ( X n )n≥1 converge en probabilité vers X. Démonstration. Pour tout ε > 0, d’après l’inégalité de Markov P(| X n − X | > ε) ≤ ε− p E(| X n − X | p ). Proposition 1.3.10. Si ( X n )n≥1 converge presque sûrement vers X alors ( X n )n≥1 converge en probabilité vers X. Démonstration. Posons Yn = inf{| X n − X |, 1}. On a Yn → 0 p.s. et |Yn | ≤ 1 ∀n. D’après le théorème de la convergence dominée E(Yn ) = E(|Yn |) → 0, c’est à dire Yn ∈ L1 (Ω). Par suite, Yn → 0 en probabilité. P Proposition 1.3.11. Si X n −→ X et il existe une variable aléatoire réelle Z , P-intégrable telle que | X n | p ≤ Z p.s. pour tout n avec p ≥ 1. Alors Lp X n k −→ X P Proposition 1.3.12. Si X n −→ X alors il existe une sous suite ( X n k ) telle que p.s. X n k −→ X. P Démonstration. Posons Z n = inf{| X n − X |, 1}. On obtient X n −→ 0 et | Z n | ≤ 1. D’après la proposition précédente, on a L1 X n k −→ 0. p.s. Il existe alors une sous suite Z n k telle que Z n k −→ 0. D’où le résultat. 1.3. CONVERGENCES ET THÉORÈMES LIMITES 29 1.3.3 Lois des grands nombres D’un point de vue concret les lois des grands nombres étudient le comportement de la moyenne empirique. Elles garantissent que la moyenne empirique se rapproche de plus en plus de la moyenne théorique quand on augmente n. 1.3.3.1 Loi faible des grands nombres Théorème 1.3.2. Soit ( X n )n≥1 une suite de variables aléatoires indépendantes de même loi et de carré intégrable, c’est à dire E( X 12 ) < ∞. Alors, on a 1X n P X i −→ E( X 1 ). n i=1 Ce théorème est encore vraie si on ne suppose que l’existence du moment d’ordre 1. Cepen- dant, l’hypothèse E( X 12 ) < ∞ permet une preuve facile. Démonstration. Pour tout ε > 0, ³¯ 1 Xn ¯ ´ 1 ³1 Xn ´ P ¯ X i − E( X 1 )¯ ≥ ε ≤ 2 var Xi ¯ ¯ n i=1 ε n i=1 var ( X 1 ) =. nε2 var ( X 1 ) Comme tend vers 0 quand n tend vers l’infini, on obtient le résultat. nε2 1.3.3.2 Loi forte des grands nombres Théorème 1.3.3. Soit ( X n )n≥1 une suite de variables aléatoires indépendantes de même loi telle que E(| X 1 |) < ∞. Alors, on a 1X n p.s. X i −→ E( X 1 ). n i=1 Démonstration. Admise. Illustration de la loi des grands nombres — Générer un échantillon de taille ( X 1 ,... , X 5000 ) de la loi exponentielle E (2) > Z=rexp(5000,2) > Z1=cumsum(Z) > Z2=rep(0,5000) > for(i in 1:5000){ + Z2[i]=Z1[i]/i + } > plot(1:length(Z2),Z2) 30 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 0.9 0.8 0.7 Z2 0.6 0.5 0.4 0 1000 2000 3000 4000 5000 1:length(Z2) 1.3.4 Théorème Central limite La loi forte des grands nombres dit que X n = E( X 1 ) + o(1) p.s pour une suite de variables aléatoires indépendantes identiquement distribuées, intégrables. Le Théorème central limite permet de préciser le comportement asymptotique de la loi de X n , c’est à dire, le comportement en loi du o(1). Théorème 1.3.4. Soit ( X n )n≥1 une suite de variables aléatoires indépendantes identiquement distribuées (i.i.d.) telles que E( X 1 ) = µ < +∞ et var( X 1 ) = σ2 ∈]0, +∞[. Alors, nous avons p n ( X n − µ) L −→ Z σ où Z est une variable aléatoire réelle de loi normale N (0, 1). En d’autres termes, quelque soit ³ la2 ´loi des X i , pour n suffisamment grand, X n suit approxi- mativement la loi normale N µ, σn. Illustration du théorème central limite > par(mfrow=c(3,3)) > plot(dpois(1:10,1)) 1.3. CONVERGENCES ET THÉORÈMES LIMITES 31 > n=c(1,2,4,8,20,30,50,100) > for (i in 1:length(n)) + { + X=rpois(500*n[i],1) + A=matrix(X,ncol=500) + M=apply(A,2,mean) + Z=sqrt(n[i])*(M-1) + hist(Z,freq=FALSE,main=paste("Poisson lambda=",1,"n=", n[i])) + curve(dnorm, add=TRUE) + } Poisson lambda= 1 n= 1 Poisson lambda= 1 n= 2 0.8 dpois(1:10, 1) 0.4 Density Density 0.2 0.4 0.2 0.0 0.0 0.0 2 4 6 8 10 −1 0 1 2 3 −1 1 2 3 4 Index Z Z Poisson lambda= 1 n= 4 Poisson lambda= 1 n= 8 Poisson lambda= 1 n= 20 0.4 0.4 0.4 Density Density Density 0.2 0.2 0.2 0.0 0.0 0.0 −2 0 1 2 3 −2 0 1 2 3 4 −3 −1 1 2 3 Z Z Z Poisson lambda= 1 n= 30 Poisson lambda= 1 n= 50 Poisson lambda= 1 n= 100 0.4 0.4 0.4 Density Density Density 0.2 0.2 0.2 0.0 0.0 0.0 −3 −1 1 2 3 −3 −1 1 2 3 −2 0 1 2 3 4 Z Z Z Théorè

Cours Estimation Paramétrique PDF

Document Details

Tags

Related

Summary

Full Transcript