Cours Estimation Paramétrique PDF
Document Details
Uploaded by IrreproachableLorentz9676
Armel Yodé
Tags
Summary
Ce document est un cours sur l'estimation paramétrique. Il couvre des sujets tels que les variables aléatoires, le conditionnement, les convergences et différents types d'estimateurs. Il est axé sur la compréhension des concepts et des techniques statistiques.
Full Transcript
Estimation paramétrique prof. armel yodé 2 Nous avons confiance en Dieu ; que tous les autres apportent des justificatifs. [Edwards Deming, Professeur de statistique, 1900-1993] Table des matières 1 Rappels et compléments de probabilités...
Estimation paramétrique prof. armel yodé 2 Nous avons confiance en Dieu ; que tous les autres apportent des justificatifs. [Edwards Deming, Professeur de statistique, 1900-1993] Table des matières 1 Rappels et compléments de probabilités 7 1.1 Variables aléatoires................................... 7 1.1.1 Définitions.................................... 7 1.1.2 Loi d’une variable aléatoire.......................... 7 1.1.2.1 Loi d’une variable aléatoire réelle discrète............ 8 1.1.2.2 Loi d’une variable aléatoire réelle à densité........... 8 1.1.3 Loi d’un vecteur aléatoire........................... 9 1.1.3.1 Fonction de répartition d’une variable aléatoire réelle..... 9 1.1.3.2 Variable aléatoire discrète..................... 11 1.1.3.3 Fonction de répartition d’un vecteur aléatoire......... 11 1.1.4 Moments d’une variable aléatoire réelle................... 12 1.1.4.1 Espérance............................... 12 1.1.4.2 Moment d’ordre supérieur..................... 13 1.1.5 Moments d’un vecteur aléatoire....................... 14 1.1.5.1 Espérance............................... 14 1.1.5.2 Matrice de covariance........................ 14 1.1.6 Variables alátoires indépendantes...................... 15 1.1.6.1 Indépendance des tribus...................... 15 1.1.6.2 Indépendance des variables aléatoires.............. 15 1.1.7 Fonction caractéristique............................ 16 1.1.8 Calcul de lois................................... 17 1.1.8.1 Cas d’une variable aléatoire discrète............... 17 1.1.8.2 Cas d’une variable aléatoire absolument continue....... 17 1.1.9 Vecteurs gaussiens............................... 18 1.1.9.1 Définitions.............................. 18 1.1.9.2 Lois dérivées des vecteurs gaussiens............... 21 1.1.9.3 Théorèmes de Cochran-Fisher................... 21 1.2 Conditionnement..................................... 22 1.2.1 Conditionnement par un événement..................... 22 1.2.2 Conditionnement par une partition au plus dénombrable d’événements 23 1.2.3 Conditionnement par une tribu........................ 24 1.2.4 Interprétation géométrique.......................... 25 1.2.5 Conditionnement par une variable aléatoire................ 25 1.2.6 Définition..................................... 25 1.2.7 Couple de variables aléatoires......................... 25 1.3 Convergences et Théorèmes limites.......................... 26 1.3.1 Modes de convergence............................. 26 1.3.1.1 Convergence presque-sûre..................... 26 1.3.1.2 Convergence dans la norme L p (Ω, A , P)............. 26 3 4 TABLE DES MATIÈRES 1.3.1.3 Convergence en probabilité.................... 26 1.3.1.4 Convergence en loi.......................... 27 1.3.2 Relations entre les différents modes..................... 28 1.3.3 Lois des grands nombres............................ 29 1.3.3.1 Loi faible des grands nombres................... 29 1.3.3.2 Loi forte des grands nombres................... 29 1.3.4 Théorème Central limite............................ 30 1.3.5 Méthode Delta.................................. 32 2 Modélisation statistique 33 3 Théorie de la décision 37 3.1 Introduction........................................ 37 3.2 Risque fréquentiste.................................... 37 3.2.1 Définition..................................... 37 3.2.2 Minimaxité.................................... 39 3.3 Risque bayésien...................................... 39 3.4 Biais et absence de biais................................ 41 4 Exhaustivité 42 4.1 Statistiques exhaustives................................. 42 4.2 Statistiques exhaustives minimales.......................... 44 4.3 Statistiques libres.................................... 45 4.4 Statistiques totales ou complètes........................... 45 4.5 Famille exponentielle.................................. 47 5 Estimateurs 49 5.1 Définitions......................................... 49 5.2 Propriétés asymptotiques des estimateurs...................... 49 5.3 Estimation sans biais.................................. 50 5.3.1 Définitions.................................... 50 5.3.2 Amélioration d’un estimateur sans biais.................. 50 5.3.2.1 Théorème de Rao-Blackwell.................... 50 5.3.2.2 Théorème de Lehman-Scheffé................... 51 5.3.3 Information de Fisher............................. 51 5.3.4 Inégalité de Cramer-Rao............................ 53 6 Méthodes d’estimation 55 6.1 Méthode du maximum de vraisemblance...................... 55 6.2 Méthode des moments.................................. 56 6.3 Méthode des moindres carrées ordinaires...................... 56 7 Estimation par intervalle de confiance 58 7.1 Définitions......................................... 58 7.2 Construction d’un intervalle de confiance...................... 58 7.2.1 Approche non asymptotique.......................... 58 7.2.2 Approche asymptotique............................ 59 7.3 Exemples......................................... 59 7.3.1 Intervalle de confiance pour la moyenne d’une loi normale....... 59 7.3.2 Intervalle de confiance pour la variance d’une loi normale........ 60 7.3.3 Intervalle de confiance pour une proportion................ 61 TABLE DES MATIÈRES 5 8 Jackknife et bootstrap 62 8.1 Principe de substitution................................ 62 8.2 Jackknife.......................................... 63 8.2.1 Estimation du biais............................... 63 8.2.2 Estimation de la variance........................... 64 8.3 Bootstrap......................................... 64 8.3.1 Cas de la variance................................ 64 9 Principe des tests 65 9.1 Définitions......................................... 65 9.2 Pratique des tests statistiques............................. 67 9.2.1 Tests purs.................................... 67 9.2.2 Règle de la p-value............................... 68 10 Hypothèse simple contre hypothèse simple 69 10.1 Introduction........................................ 69 10.2 Lemme de Neyman-Pearson.............................. 69 10.3 Exemple : modèle de Bernouilli............................ 71 10.3.1 Approche non asymptotique.......................... 72 10.3.1.1 Cas θ0 < θ1.............................. 72 10.3.1.2 Cas θ0 > θ1.............................. 72 10.3.2 Approche asymptotique............................ 72 10.3.2.1 Cas θ0 < θ1.............................. 72 10.3.2.2 Cas θ0 > θ1.............................. 73 11 Tests Uniformément plus puissant pour les hypothèses composites 74 11.1 Introduction........................................ 74 11.2 Famille à rapport de vraisemblance monotone................... 74 11.3 Tests U.P.P. : H0 : θ ≤ θ0 contre H1 : θ > θ0...................... 75 11.4 Tests U.P.P. : H0 : θ ≥ θ0 contre H1 : θ < θ0...................... 75 11.5 Tests U.P.P. : H0 : θ ≤ θ1 ou θ ≥ θ2 contre H1 : θ1 < θ < θ2............. 76 11.6 Tests U.P.P.S.B...................................... 76 12 Tests et régions de confiance 79 12.1 Introduction........................................ 79 12.2 Cas du test paramétrique bilatéral.......................... 79 13 Tests de Student : un échantillon 81 13.1 Approche intuitive d’un test d’hypothèses...................... 81 13.2 Test de Student...................................... 81 13.3 H0 : m ≤ m 0 contre H1 : m > m 0............................ 82 13.3.1 On suppose que la variance σ2 est connue.................. 82 13.3.2 On suppose σ2 est inconnue.......................... 82 13.4 H0 : m ≥ m 0 contre H1 : m < m 0............................ 83 13.4.1 On suppose que la variance σ2 est connue.................. 83 13.4.2 On suppose que la variance σ2 est inconnue................. 83 13.5 H0 : m = m 0 contre H1 : m 6= m 0............................ 84 13.5.1 On suppose que la variance σ2 est connue.................. 84 13.5.2 On suppose que la variance σ2 est inconnue................. 84 6 TABLE DES MATIÈRES 14 Tests de Student : deux échantillons 85 14.1 Test de Fisher de comparaison des variances.................... 86 14.2 Test de Student de comparaison des moyennes................... 87 14.2.1 Résolution du test lorsque les variances connues.............. 87 14.2.2 Résolution du test lorsque les variances sont inconnues......... 88 14.3 Généralisation : Analyse de la variance (ANOVA)................. 89 14.3.1 Introduction................................... 89 14.3.2 Anova à un facteur à effets fixes....................... 90 14.3.2.1 Notations............................... 90 14.3.2.2 Modèle................................. 90 14.3.2.3 Hypothèses.............................. 90 14.3.2.4 Tableau d’ANOVA......................... 90 14.3.2.5 Test d’hypothèses.......................... 91 14.3.2.6 Comparaisons multiples...................... 91 14.3.2.7 Exercice................................ 91 14.3.3 Anova à deux facteurs à effets fixes..................... 93 14.3.3.1 Notations............................... 93 14.3.3.2 Modèle................................. 94 14.3.3.3 Hypothèses.............................. 94 14.3.3.4 Tableau d’ANOVA......................... 94 14.3.3.5 Test d’hypothèses.......................... 95 14.3.3.6 Comparaisons multiples...................... 96 14.3.3.7 Exemple................................ 96 15 Tests de comparaison des proportions 104 15.1 Test sur la valeur d’une proportion.......................... 104 15.2 Test de comparaison de deux proportions...................... 104 16 Tests de Wald, du Score et du Rapport de vraisemblance 107 16.1 Introduction........................................ 107 16.2 Test de Wald....................................... 107 16.3 Test du score....................................... 108 16.4 Test du rapport de vraisemblance........................... 109 17 Tests du χ2 111 17.1 Test d’adéquation à une loi donnée.......................... 111 17.2 Test d’adéquation à une famille de lois........................ 112 17.3 Test d’indépendance................................... 112 18 Tests d’adéquation utilisant le processus empirique 114 18.1 Fonction de répartition empirique........................... 114 18.2 Test de Kolmogorov-Smirnov............................. 115 18.2.1 Test d’adéquation à une loi.......................... 115 18.2.2 Test de comparaison de deux échantillons................. 116 18.3 Test de Kuiper...................................... 117 18.4 Test de Cramer-von Mises............................... 117 18.5 Test de normalité.................................... 117 Chapitre Rappels et compléments de probabi- 1 lités 1.1 Variables aléatoires 1.1.1 Définitions Soit (Ω, A , P) un espace probabilisé modélisant une expérience aléatoire. Dans ce cha- pitre, on s’intéresse à des fonctions des résultats de l’expérience aléatoire appelées variables aléatoires. Définition 1.1.1. On appelle variable aléatoire toute application mesurable X définie sur (Ω, A , P) à valeurs dans un espace probabilisable (E, B ) : ∀W ∈ B X −1 (W ) = {ω ∈ Ω : X (ω) ∈ W } = { X ∈ W } ∈ A. Autrement dit, les images réciproques des éléments de B sont des éléments de A. 1.1.2 Loi d’une variable aléatoire Une variable aléatoire est caractérisée par sa loi de probabilité. Définition 1.1.2. Soit X une variable aléatoire définie sur (Ω, A , P) à valeurs dans un espace mesurable (E, B ). On appelle loi de X la mesure de probabilité P X qui est la mesure image de P par l’application mesurable X : P X (W ) = P( X ∈ W ) W ∈ B. Définition 1.1.3. Soit (E, B , µ) un espace mesuré. On dit que µ est une mesure σ-finie s’il existe une suite croissante d’ensembles mesurables (E n , n ≥ 1) telle que pour tout n ≥ 1, µ ( E n ) < ∞. La mesure de Lebesgue λ, la mesure de comptage et toute mesure de probabilité sont des exemples de mesures σ-finie. Définition 1.1.4. Soit (Ω, A , µ) un espace mesuré et f une fonction mesurable positive. Alors l’application ν : A → R+ définie par Z ν( A ) = f dµ A est une mesure sur (Ω, A ) appelée mesure de densité f par rapport à µ. 7 8 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS Définition 1.1.5. Soit (Ω, A ) un espace mesurable muni de deux mesures positives µ et ν. On dit que µ est absolument continue par rapport à ν et on note µ ¿ ν si pour tout A ∈ B , on a ν( A ) = 0 ⇒ µ( A ) = 0. Cela signifie que toute partie ν-négligeable est µ-négligeable. Théorème 1.1.1. (Radon-Nikodym) Soit µ une mesure σ-finie et ν une mesure sur (Ω, A ) absolument continue par rapport à µ. Alors il existe une application f positive, unique à une µ-équivalence près telle que : Z ∀A ∈ A ν( A ) = f d µ. A f est appelée dérivée de Radon-Nikodym de ν par rapport à µ et sera notée dν f= ou d ν = f d µ. dµ 1.1.2.1 Loi d’une variable aléatoire réelle discrète Définition 1.1.6. On appelle mesure de comptage sur (E, P (E )) la mesure positive définie par : ( X card ( A ) si A est fini µ( A ) = δx ( A ) = x∈ E +∞ Si A est infini. Soit X une variable aléatoire définie sur Ω à valeurs dans R. Lorsque l’ensemble E = X (Ω) est fini ou infini dénombrable, la variable aléatoire X est dite discrète. Dans ce cas, la tribu associée est, en général, l’ensemble des parties de E et notée P (E ). La loi de probabilité P X est alors définie par PX = P( X = x)δ x X x∈ E où δ x , la mesure de Dirac au point x est définie, pour tout A ∈ P (E ) par ( 1 si x ∈ A δx ( A ) =. 0 sinon Pour tout A ∈ B , P X ( A ) ≤ µ( A ). Par suite, on en déduit que P X est absolument continue par rapport à la mesure de comptage µ (P X ¿ µ). D’après le Théorème de Radon-Nikodym, pour tout x ∈ E , P X ({ x}) = P( X = x) δ x ({ k}) = P( X = x)µ( x). X k∈E et la densité de P X par rapport à la mesure de comptage µ est donnée par f ( x) = P( X = x)1E ( x). Remarque 1.1.1. En pratique déterminer la loi d’une variable aléatoire discrète, revient à trouver E et à calculer toutes les probabilités P( X = x) pour tout x ∈ E. 1.1.2.2 Loi d’une variable aléatoire réelle à densité Définition 1.1.7. Une variable aléatoire X à valeurs dans (R, B (R)) est dite absolument conti- nue si sa loi de probabilité P X est absolument continue par rapport à la mesure de Lebesgue λ. 1.1. VARIABLES ALÉATOIRES 9 Le Théorème de Radon-Nicodym implique qu’il existe une fonction borélienne positive f telle que pour tout A ∈ B , Z PX ( A) = f d λ. A La fonction f (unique à un ensemble de mesure de Lebesgue nulle près), est appelée la densité de probabilité de P X. De plus, on a Z f d λ = 1. R 1.1.3 Loi d’un vecteur aléatoire Un vecteur aléatoire X de dimension d est une variable aléatoire à valeurs dans Rd. Soit X1 .. X = . un vecteur aléatoire de dimension d. La loi de probabilité de X est appelée loi Xd conjointe des variables aléatoires réelles X 1 ,... , X d. C’est la loi image de P par X. Les lois des variables aléatoires réelles X 1 ,... , X d sont appelées lois marginales du vecteur aléatoire X. Définition 1.1.8. La loi conjointe PX d’un vecteur aléatoire X = ( X 1 ,... , X d )0 est dite absolu- ment continue si elle est absolument continue par rapport à la mesure de Lebesgue λd sur (Rd , B(Rd )). Théorème 1.1.2. La loi conjointe d’un vecteur aléatoire X = ( X 1 ,... , X d )0 est dite absolument continue si et seulement si il existe une fonction f mesurable, positive et intégrable telle que pour tout A ∈ B (Rd ) Z P(X ∈ A ) = f d λd ∀ A ∈ B (Rd ). A f est appelée densité conjointe du vecteur aléatoire X. La densité f vérifie la condition Z f d λ d = 1. Rd Proposition 1.1.1. (Lois marginales) Si le vecteur X = ( X 1 ,... , X d ) admet une loi conjointe absolument continue, alors ses lois marginales sont absolument continues et sa densité détermine les densités des lois marginales (appelées densités marginales) : pour i = 1,... , d Z f X i (xi ) = f ( x1 ,... , xd ) d λ( x1 )... λ( x i−1 )λ( x i+1 )... λ( xd ). Rd −1 1.1.3.1 Fonction de répartition d’une variable aléatoire réelle Définition 1.1.9. Soit X une variable aléatoire réelle. On appelle fonction de répartition de X la fonction F à valeurs dans [0, 1] définie par F ( x) = P( X ≤ x) pour tout x ∈ R. Proposition 1.1.2. Soit F la fonction de répartition d’une variable aléatoire réelle X. F1 La fonction F est croissante F2 lim F ( x) = 0 lim F ( x) = 1. x→−∞ x→+∞ F3 F est continue à droite et admet une limite à gauche F ( x− ) = lim F ( y) = P( X < x). y→ x y< x 10 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS Démonstration. F1 Soient x et y deux réels tels que x ≤ y. On a ] − ∞, x] ⊂] − ∞, y] et F ( x) ≤ F ( y). F2 Posons A n =] − ∞, −n]. On a A n = ; et T n lim F ( x) = lim F (− n) = lim P X ( A n ) = P X ¡\ ¢ A n = 0. x→−∞ n→∞ n→∞ n En posant B n =] − ∞, n], on a = R et S n Bn lim F ( x) = lim F ( n) = lim P X (B n ) = P X ¡[ ¢ B n = 1. x→+∞ n→+∞ n→+∞ n F3 En posant A n =] − ∞, x + 1/n], on a A n =] − ∞, x] et T n PX ¡\ ¢ A n = F ( x ). n lim F ( y) = lim F ( x + 1/ n) = lim P X ¡\ ¢ A n = F X ( x). y→ x n→+∞ n→+∞ n y> x En posant B n =] − ∞, x − 1/n], on a =] − ∞, x[ et S n Bn PX B n = P( X < x). ¡[ ¢ n lim F ( y) = lim F ( x − 1/ n) = lim P X B n = P( X < x). ¡[ ¢ y→ x n→+∞ n→+∞ n y< x Remarque 1.1.2. Si une fonction F vérifie les conditions F1, F2 et F3 alors il existe un espace probabilisé (Ω, A , P) et une variable aléatoire X définie sur cet espace, de fonction de répartition F. Remarque 1.1.3. Pour tout réel x, on a P( X = x) = F ( x+ ) − F ( x− ). Si la fonction de répartition F est continue en x, on a F ( x− ) = F ( x+ ) = F ( x). On en déduit que P( X = x) = 0. Si pour tout x ∈ R, P( X = x) = 0 alors la loi est dite diffuse. Définition 1.1.10. Soit F la fonction de répartition d’une variable aléatoire réelle. On appelle inverse généralisé de F et on note F ← , la fonction définie sur ]0, 1] par F ← ( u) = inf{ t : F ( t) ≥ u} avec la convention inf ; = +∞. Si F est continue et strictement croissante alors l’inverse généralisé F ← coı̈ncide avec F −1. Exercice 1.1.1. Soit X une variable aléatoire réelle de fonction de répartition F. Montrer que U = F ( X ) suit la loi uniforme sur [0, 1].Ce résultat est la base de la simulation stochastique. En effet, X = F ← (U ). Si on peut simuler la loi uniforme sur [0, 1], on peut simuler n’importe quelle variable aléatoire. Définition 1.1.11. Soit X une variable aléatoire réelle de fonction de répartition F. Le quan- tile d’ordre α ∈]0, 1[, noté xα , de la loi de X est défini par n o xα = inf x ∈ R : F ( x) ≥ α = F ← (α). 1.1. VARIABLES ALÉATOIRES 11 Proposition 1.1.3. Si la fonction de répartition F est continue, alors F ( xα ) = α. Si la fonction de répartition est de plus strictement croissante au point xα , alors xα est l’unique solution de l’équation F ( xα ) = α. Proposition 1.1.4. Soit F une application de R dans R, croissante, continue à droite telle que lim F ( x) = 0 lim F ( x) = 1. Alors, il existe une et une seule mesure de probabilité P sur x→−∞ x→+∞ (R, B (R)) dont F est la fonction de répartition. n o Preuve. Existence : On définit P sur la semi-algèbre J = ]a, b] : −∞ < a < b < +∞ par P(]a, b]) = F ( b) − F (a). La σ-additivité provient de la continuité à droite de F. Unicité. L’unicité provient du fait B (R) = σ(K ) et K = {] − ∞, x], x ∈ R} est un π-système. 1.1.3.2 Variable aléatoire discrète La fonction de répartition d’une variable aléatoire discrète X est donnée pour tout y ∈ R par : ³ ´ F ( y) = P X (] − ∞, y]) = P( X = x)δ x ] − ∞, y] X x∈ E P( X = x ) X = x≤ y Variable aléatoire absolument continue La fonction de répartition d’une variable aléatoire absolument continue X est donnée pour tout y ∈ R par : Z Z F ( y) = P X (] − ∞, y]) = dPX = f ( x) d λ( x). ]−∞,x] ]−∞,x] Proposition 1.1.5. Soit X , une variable aléatoire absolument continue admettant une densité f et une fonction de répartition F. Alors 1. F est dérivable λ-p.p. et F 0 = f. Z b 2. P X ( X ∈ [a, b]) = f ( x) d λ( x). a 3. Si F admet en tout point de R une dérivée continue, alors la loi de X est absolument continue. 1.1.3.3 Fonction de répartition d’un vecteur aléatoire Définition 1.1.12. On appelle fonction de répartition conjointe du vecteur aléatoire X la fonction définie sur Rd à valeurs dans [0, 1] par F ( x1 ,... , xd ) = P( X 1 ≤ x1 ,... , X d ≤ xd ). La fonction de répartition F est appelée fonction de répartition conjointe. Proposition 1.1.6. La fonction de répartition F satisfait les propriétés suivantes : 1. F est une fonction croissante (au sens large), continue à droite en chacun de ses arguments ; 12 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 2. F tend vers 0 lorsque un de ses arguments x i tend vers −∞ ; 3. F tend vers 1 lorsque tous ses arguments x i tendent vers +∞. Proposition 1.1.7. Pour i = 1,... , d , on a F X i ( x i ) = lim F ( x1 ,... , xn ). x j →+∞ Les fonctions de répartition F X 1 ,... , F X n sont appelées fonctions de répartition marginales. Si F est de classe C d sur Rd alors la loi de X est absolument continue etla densité de probabilité est ∂d F ( x1 ,... , xd ) f ( x1 ,... , x d ) =. ∂ x1... ∂ x d 1.1.4 Moments d’une variable aléatoire réelle 1.1.4.1 Espérance Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, A , P). On note P X la loi de X. Définition 1.1.13. On appelle espérance de X l’intégrale de X par rapport à la mesure P : Z E( X ) = X (ω) d P(ω). Ω La proposition suivante est essentielle pour le calcul pratique des espérances. Proposition 1.1.8. Soit X une variable aléatoire réelle et ϕ : R → R une application mesurable. Alors ϕ ◦ X est P- intégrable si et seulement si ϕ est P X -intégrable. Dans ce cas, on a Z Z ϕ ◦ X (ω) d P(ω) = ϕ( x) d P X ( x). Ω R En particulier, si ϕ( x) = x, on obtient Z E( X ) = xd P X ( x). R Remarque 1.1.4. Si X est une variable aléatoire réelle discrète alors son espérance est donnée par E( X ) = xP( X = x). X x ∈ X (Ω ) Remarque 1.1.5. Si X est une variable aléatoire à densité f alors l’espérance de X est donnée Z E( X ) = x f ( x) d λ( x). R La proposition ci-dessous se déduit des propriétés de l’intégration. Proposition 1.1.9. (Linéarité de l’espérance) Soient X , Y deux variables aléatoires réelles et α, β deux réels. Alors on a E[α X + βY ] = αE[ X ] + βE[Y ]. Proposition 1.1.10. (Inégalité de Markov.) Soit X une variable aléatoire réelle positive. Alors, pour tout λ > 0, E( X ) P( X ≥ ε) ≤. ε 1.1. VARIABLES ALÉATOIRES 13 Preuve. On a E( X ) ≥ E( X 1I X ≥ε ) ≥ εP( X ≥ ε). Proposition 1.1.11. (Inégalité de Jensen) Soit X une variable aléatoire réelle et ϕ : R → R une application borélienne et convexe telle que E(|ϕ( X )|) < ∞. Alors, on a ϕ(E( X )) ≤ E(ϕ( X )). Preuve. Comme ϕ est convexe alors pour tout x0 ∈ R, il existe a ∈ R tel que a( x − x0 ) + ϕ( x0 ) ≤ ϕ( x). Ainsi, on obtient a( X − E( X )) + ϕ(E( X )) ≤ ϕ( X ). En passant à l’espérance, on obtient l’inégalité. 1.1.4.2 Moment d’ordre supérieur Définition 1.1.14. Le moment d’ordre p ≥ 1 d’une variable aléatoire X est défini par Z E( X p ) = X p (ω) d P(ω). Ω Définition 1.1.15. Une variable aléatoire réelle X admet un moment d’ordre p ≥ 1 si et seulement si E(| X | p ) est finie. On note n o L p (Ω, A , P) = X : (Ω, A , P) → R : E(| X | p ) < +∞ l’ensemble des variables aléatoires réelles admettant un moment d’ordre p ; L p (Ω, A , P) est un espace vectoriel normé muni de la norme 1 k X k p = (E(| X | p )) p. 1 1 Proposition 1.1.12. (Inégalité de Hölder) Soit p et q tels que + = 1. Alors on a p q k X Y k1 ≤ k X k p kY k q. Pour p = q = 2, on obtient l’inégalité de Cauchy-Schwarz. Proposition 1.1.13. (Inégalité de Minskowski) Pour tout 1 ≤ p < +∞, on a k X + Y k p ≤ k X k p + kY k p. Soit X une variable aléatoire réelle. Pour X ∈ L2 (Ω, A , P), on définit la variance de X par V ar ( X ) = E(( X − E( X ))2 ) = E( X 2 ) − (E( X ))2. Ce nombre mesure la dispersion de la variable p aléatoire X autour de sa moyenne E( X ). On utilise souvent l’écart-type est définie par σ X = V ar ( X ) qui est du même ordre de grandeur que X. Proposition 1.1.14. (Inégalité de Bienaymé-Tchebyshev). Soit X une variable aléatoire réelle telle que X ∈ L2 (Ω, A , P). Alors pour tout ε > 0, on a V ar ( X ) P (| X − E[ X ]| > ε) ≤. ε2 14 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 1.1.5 Moments d’un vecteur aléatoire 1.1.5.1 Espérance Soit X = ( X 1 ,... , X d ) t un vecteur aléatoire de dimension d. Définition 1.1.16. On définit l’espérance de X par E( X 1 ) E(X) = .. . . E( X d ) Théorème 1.1.3. (Théorème de transfert). Soit ϕ une fonction mesurable de (Rd , B (Rd ) vers (R, B (R). alors ϕ( X )est une variable aléatoire réelle P-intégrable si et seulement si ϕ est P X -intégrable. On a alors Z Z E[ϕ( X )] = ϕ( X ) d P = ϕ( x1 ,... , xd ) d P X ( x1 ,... , xd ). Ω Rd 1.1.5.2 Matrice de covariance Définition 1.1.17. Soient X et Y deux variables aléatoires réelles. On appelle covariance de X et de Y , et l’on note Cov( X , Y ), le nombre : Cov( X , Y ) = E([ X − E( X )] [Y − E(Y )]). On a Cov( X , Y ) = Cov(Y , X ). Si X et Y sont indépendantes alors Cov( X , Y ) = 0. On dit alors que X et Y sont non corrélées. La réciproque est en général fausse, on peut trouver deux variables aléatoires non corrélées et dépendantes. Définition 1.1.18. On appelle coefficient de corrélation linéaire de X et de Y , le nombre Cov( X , Y ) ρ( X , Y ) = σ X σY où σ X est l’écart-type de X , σY celui de Y. Remarque 1.1.6. Si ρ ( X , Y ) > 0 alors X et Y évoluent dans le même sens. Si ρ ( X , Y ) < 0 alors X et Y évoluent en sens contraire. Si X et Y sont indépendantes alors ρ ( X , Y ) = 0 Proposition 1.1.15. 1. −1 ≤ ρ ( X , Y ) ≤ 1 2. Si |ρ ( X , Y )| = 1 alors les variables X et Y sont liées par une relation affine, i.e., il existe (α, β) ∈ R2 tel que Y = α X + β. 3. Le coefficient de corrélation linéaire est invariant par transformation affine x 7→ α x + b avec α > 0. Définition 1.1.19. Soit X = ( X 1 ,... , X d ) t ∈ L2 (Ω, A , P) La matrice de variance-covariance est définie par ΣX = E ( X − E( X ))( X − E( X )) t £ ¤ ³ ´ = Cov( X i , X j. 1≤ i, j ≤ d 1.1. VARIABLES ALÉATOIRES 15 Remarque 1.1.7. ΣX est une matrice symétrique, positive. Soit X un vecteur aléatoire d’espérance E(X) et de matrice de variance-covariance ΣX. Soient A une matrice q lignes et d colonnes et c un vecteur de dimension d. Posons Alors Y = A X + c. Alors, nous avons E(Y) = A E(X) + c ΣY = A ΣX A t. Le symbole A t désigne la matrice transposée de A. 1.1.6 Variables alátoires indépendantes 1.1.6.1 Indépendance des tribus Définition 1.1.20. Une famille (A1 ,... , Ad ) de sous tribus de A est indépendante si P( A 1 ∩... ∩ A d ) = P( A 1 ) ×... × P( A d ) ∀ A 1 ∈ A1 ,... , ∀ A d ∈ Ad. Soient A 1 ,... , A d ⊂ Ω, pour 1 ≤ i ≤ d , on note F i = σ( A i ) = {;, A i , A ci , Ω} la tribu engendrée par l’événement A i. ³ ´ Proposition 1.1.16. Les événements A 1 ,... , A d sont indépendants si et seulement si F1 ,... , Fd est une famille de sous tribus indépendantes. 1.1.6.2 Indépendance des variables aléatoires Proposition 1.1.17. Deux variables aléatoires X et Y sont indépendantes si pour A , B ∈ B(R) P( X ∈ A, Y ∈ B) = P( X ∈ A )P( X ∈ B). Définition 1.1.21. Soit X une variable aléatoire réelle. La tribu engendrée par X est celle engendrée par l’ensemble { X −1 ( A ), A ∈ B(R)}. On note σ( X ) la tribu engendrée par X. La tribu σ( X ) est la tribu qui contient toutes les informations liées à la variable aléatoire X. Définition 1.1.22. Deux variables aléatoires X et Y sont indépendantes si et seulement si leurs tribus engendrées σ( X ) et σ(Y ) sont indépendantes Proposition 1.1.18. Les composantes du vecteur aléatoire X = ( X 1 ,... , X d ) t sont indépen- dantes si et seulement si sa loi P X est une loi produit de ses lois marginales : PX = PX1 ⊗... ⊗ P X d. On suppose que pour chaque i , la variable X i admet une densité f i par rapport à la mesure de Lebesgue sur R. Corollaire 1.1.1. Un vecteur aléatoire X = ( X 1 ,... , X d ) est à composantes indépendantes si et seulement si la densité conjointe f s’écrit f ( x1 ,... , xd ) = f 1 ( x1 )... f d ( xd ). 16 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 1.1.7 Fonction caractéristique Définition 1.1.23. Soit X un vecteur aléatoire de dimension d. On appelle fonction caracté- ristique de X , la fonction de Rd dans C définie par Z φ X ( u) = E( e i〈u,X 〉 ) = e i〈u,X 〉 d P Ω d X où 〈 u, X 〉 = ui X i. i =1 La fonction caractéristique caractérise la loi de X. Proposition 1.1.19. Soit X une variable aléatoire à valeurs dans Rd et A une matrice à p lignes et d colonnes, B un vecteur de dimension d , alors φ A X +B ( u) = e i〈u,B〉 φ X ( t A.u), ∀ u ∈ Rd. Proposition 1.1.20. Si E (| X |k ) < ∞, φ X est k fois continûment différentiable sur Rd et ∂ k φ X ( t) = i k E ( e i〈 t,X 〉 X i 1 X i 2... X i k ). ∂t i1 ∂t i2... ∂t i k Remarque 1.1.8. (Cas d = 1) Si X est une variable aléatoire réeele discrète, e iux P ( X = x). X φ X ( u) = x∈ X (Ω) Si X est une variable aléatoire réelle à densité, Z ∞ φ X ( u) = e ixu f X ( x) dx. −∞ Remarque 1.1.9. φ X (0) = 1 d ∀ t ∈ R , φ X (− t) = φ X ( t) La fonction caractéristique caractérise complètement la loi : Théorème 1.1.4. Soit X et Y des variables aléatoires définies sur (Ω, A , P) à valeurs dans Rd de lois P X et PY. Alors P X = PY si et seulement si φ X = φY. Théorème 1.1.5. Si F X désigne la fonction de répartition d’une variable aléatoire réelle X alors on a ∀(a, b) ∈ R2 , 1 T e− ita − e− itb Z F X (a) − F X ( b) = lim ϕ X ( t) dt. T →∞ 2π −T it Z De plus, si |ϕ X ( t)| dt < +∞, alors X admet une densité f X et R 1 Z f X ( x) = ϕ X ( t) e− itx dt. 2π R Ce théorème permet de retrouver explicitement la densité de X connaissant sa fonction caractéristiques. 1.1. VARIABLES ALÉATOIRES 17 1.1.8 Calcul de lois 1.1.8.1 Cas d’une variable aléatoire discrète La déterminantion de la loi d’une variable aléatoire discrète X s’effectue en deux temps : 1. Détermination du support X (Ω) de X. 2. Calcul P( X = x) pour tout x ∈ X (Ω). 1.1.8.2 Cas d’une variable aléatoire absolument continue Soit X = ( X 1 ,... , X d )0 un vecteur de loi PX et de fonction de répartition FX. On considère une application mesurable ϕ : Rd → R p. Quelle est la loi de Y = ϕ(X) ? Utilisation de la fonction de répartition La fonction de répartition détermine entièrement la loi d’une variable aléatoire. L’ap- proche proposée consiste à déterminer la fonction de répartition FY de Y. La fonction de densité f Y s’obtient par dérivation de la fonction de répartition. Formule de changement de variable Définition 1.1.24. Soit ϕ : D ⊂ Rd → ∆ ⊂ Rd où D et ∆ sont des ouverts. ϕ est appelé un difféomorphisme si c’est une bijection de classe C 1 dont la bijection réciproque est aussi de classe C 1. Définition 1.1.25. La matrice jacobienne d’un changement de variable y = ϕ( x) ⇔ ( y1 ,... , yd ) = ϕ( x1 ,... , xd ) est ∂ϕ1 ∂ϕ1 ∂ x1... ∂ xd ... .. Jϕ ( x1 ,... , xn ) = . ∂ϕ1 ∂ϕd ∂ xd... ∂ xd Le jacobien est le déterminant de la matrice jacobienne. Théorème 1.1.6. Soit V un ouvert de Rd et ϕ un difféomorphisme de classe C 1 de V dans ϕ(V ) ⊂ Rd. Alors, on a les formules de changement de variable Z Z f ( x) d λ( x) = f (ϕ−1 ( y))| det( Jϕ−1 ( y))| d λ( y) V ϕ(V ) Z Z h(ϕ( x)) d λ( x) = h( y)| det( Jϕ−1 ( y))| d λ( y) V ϕ(V ) Soit ∆ un ouvert de Rd et ϕ : ∆ → Rd un difféomorphisme de classe C 1 sur ∆ et dont le jacobien ne s’annule pas sur ∆. Soit X un vecteur de dimension d tel que P( X ∈ ∆) = 1 admettant une densité f X. Alors le vecteur aléatoire Y = ϕ(X) admet la densité f Y ( y) = f X (ϕ−1 ( y))| det( Jϕ−1 ( y))|1Iϕ(∆) ( y). Remarque 1.1.10. Il est indispensable que ϕ soit bijective. Si par exemple V est un ouvert de R p avec p < d , on ne peut utiliser directement le théorème précédent. Un moyen de pallier à cette difficulté consiste à ”compléter” ϕ en une fonction bijective. 18 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS Utilisation de la fonction muette Il s’agit de trouver une fonction mesurable positive g telle que pour toute fonction mesurable h, on ait Z Z E(Y) = E[ h(ϕ(X))] = h(ϕ( x)) f X ( x) d λ( x) = h( y) g( y) d λ( y). Par identification, une telle fonction g est une densité de Y. Cette fonction s’obtient géné- ralement par changement de variable. 1.1.9 Vecteurs gaussiens 1.1.9.1 Définitions Une variable aléatoire réelle gaussienne est - soit une variable aléatoire réelle normale d’espérance m et de variance σ2 > 0 admet- tant une densité : 1 ³ 1 ´ f ( x) = p exp − 2 ( x − m)2 σ 2π σ - soit une variable aléatoire réelle de Dirac au point m (cas où σ2 = 0) ; la loi de cette variable notée δm appelée mesure de Dirac au point m est définie par : ( 1 si m ∈ A δm ( A ) = 0 si m ∉ A pour A ∈ A Définition 1.1.26. Un vecteur aléatoire X de dimension d , est appelé vecteur gaussien si toute combinaison linéaire de ses composantes est une variable aléatoire réelle gaussienne, c’est à dire, pour tout a ∈ Rd , 〈a, X 〉 est une variable aléatoire réelle gaussienne. La loi de X est alors la loi normale sur Rd notée N d (m, Σ), où m ∈ Rd et Σ appelée matrice de dispersion, est une matrice carrée symétrique positive d’ordre d. Proposition 1.1.21. Soient m ∈ Rd et Σ une matrice carré d’ordre d à coefficients réels, symétrique et positive. Alors, il existe un espace probabilisé (Ω, A , P) et un vecteur gaussien X de dimension d définie sur (Ω, A , P), d’espérance m et de matrice de dispersion Σ. Démonstration. Admise. Proposition 1.1.22. Soient X 1 ,... , X d des variables aléatoires gaussiennes indépendantes. X1 Alors le vecteur aléatoire .. est gaussien. . Xd a1 d Démonstration. Pour tout a = ... ∈ Rd , on va montrer que 〈a, X 〉 = X a j X j est une va- j =1 ad riable aléatoire réelle gaussienne. Comme les variables X 1 ,... , X d , la fonction caractéristique 0 de a X est : d Y φ〈a,X 〉 ( t) = φ X j ( a j t) i =1 1.1. VARIABLES ALÉATOIRES 19 où φ X j est la fonction caractéristique de X j. Pour j = 1,... , d , chaque X i suit une loi gaus- ³ ´ sienne N (m j , σ2j ). Alors, la fonction caractéristique de X j est φ X j ( t) = exp im j − 12 t2 σ2j. Par suite, ³ X d 1 X d ´ φ〈a,X 〉 ( t) = exp i m j − t2 σ2j. j =1 2 j=1 Par suite 〈a, X 〉 suit une loi normale d’espérance j=1 m j et de variance dj=1 σ2j pour tout Pd P a1 . a = .. ∈ Rd. ad Proposition 1.1.23. Soit X un vecteur aléatoire de dimension d admettant une espérance m et une matrice de dispersion Σ. Alors X est un vecteur gaussien si et seulement si sa fonction caractéristique est ³ 1 ´ φ X ( u) = exp iu0 m − u0 Σ u. 2 µ ¶ X1 Proposition 1.1.24. Si est un vecteur gaussien avec cov( X 1 , X 2 ) = 0 alors X 1 et X 2 sont X2 indépendantes. µ ¶ X1 Démonstration. La matrice de dispersion du vecteur gaussien est X2 ³ var ( X ) 0 ´ 1 Σ=. 0 var ( X 2 ) D’après la Proposition 1.1.23, sa fonction caractéristique est ³ 1 ´ φ( u) = exp i ( u 1 m 1 + u 2 m 2 ) − ( u21 var ( X 1 ) + u22 var ( X 2 ) 2 = φ X 1 ( u 1 )φ X 2 ( u 2 ) où φ X 1 et φ X 1 sont les fonctions caractéristiques respectives des variables aléatoires X 1 et X 2. On en déduit que X 1 et X 2 sont indépendantes. X1 .. Proposition 1.1.25. Soit X = un vecteur gaussien de matrice de dispersion Σ X. Les . Xd composantes X 1 ,... , X d sont indépendantes si et seulement si Σ X est diagonale. Démonstration. Condition nécessaire : pour i 6= j , cov( X i , X j ) = 0 car les variables X i et X j sont indépendantes. Condition suffisante : la fonction caractéristique de X est ³ X d 1X d ´ φ X ( u 1 ,... , u d ) = exp i u j E( X j ) − u2j var ( X j ) j =1 2 j=1 d Y = φ X j (u j ) j =1 20 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS Définition 1.1.27. Soit X un vecteur gaussien et Σ sa matrice de dispersion. Si det(Σ) = 0 alors X est dit dégénéré. Dans le cas contraire, le vecteur gaussien est dit non-dégénéré. Proposition 1.1.26. Soit X est un vecteur gaussien N d ( m, Σ) non-dégénéré. Alors X admet une densité sur Rd définie par 1 1 ½ ¾ 0 −1 f X ( x) = dp exp − ( x − m ) Σ ( x − m ). (2π) 2 det(Σ) 2 Démonstration. Soit X un vecteur gaussien N d (m, Σ) où Σ est une matrice symétrique définie positive. Comme Σ est symétrique réelle, il existe une matrice carrée d’ordre d , 0 A , orthogonale A telle que ∆ = A Σ A soit diagonale. Les éléments diagonaux de ∆ sont strictement positives. Nous les notons σ21 ,... , σ2d. Y1 Considérons le vecteur Y = A ( X − m). Le vecteur Y = ... est un vecteur gaussien N d (0, ∆) Yd et pour tout j = 1,... , d , Y j suit une loi normale N (0, σ2j ). Comme ∆ est diagonale, les variables Y1 ,... , Yd sont indépendantes. La variable aléatoire Yk a pour densité 1 ³ y2 ´ f k ( yk ) = p exp − k2. 2πσk 2σk Par suite, la densité de Y est donnée par ³ 1 ´d 1 ³ 1 X d yk2 ´ f Y ( y1 ,... , yd ) = p exp − 2π 2 k=1 2σ2k q σ2... σ2 1 d 1 1 ³ 1 0 ´ = p exp − y ∆−1 y (2π)d /2 det(∆) 2 Soit h une fonction borélienne positive définie sur Rd à valeurs dans R̄+. Le théorème de transfert implique Z 0 0 E( h( X )) = E( h( A Z + m)) = h( A z + m) d P Z ( z ) Rd Z 0 = h( A z + m) f Z ( z) d λ(d ) ( z). Rd 0 Effectuons le changement de variable x = A z + m. Le jacobien de la transformation x ∈ Rd 7→ z = A ( x − m) est det( A ). On obtient donc Z E( h( X )) = h( x) f Z ( A ( x − m)) d λ(d ) ( x). Rd Le vecteur aléatoire X admet une densité f X ( x) = f Z ( A ( x − m)) 1 1 ³ 1 0 0 ´ = p exp − ( x − m) A ∆−1 A ( x − m) (2π)d /2 det(Σ) 2 0 avec Σ−1 = A ∆−1 A. On admettra que si la matrice Σ n’est pas inversible, la loi du vecteur gaussien n’admet pas de densité par rapport à la mesure de Lebesgue sur Rd. En effet, on montre qu’elle est porté par un sous-espace affine de Rd de dimension strictement inférieure à d. 1.1. VARIABLES ALÉATOIRES 21 1.1.9.2 Lois dérivées des vecteurs gaussiens Définition 1.1.28. Soit X ,→ N n (0, I n ). La variable aléatoire réelle k X k22 suit une loi du χ2 à n degrés de liberté et l’on note k X k22 ,→ χ2 ( n). Définition 1.1.29. Soient X et Y deux variable aléatoires indépendantes suivant respective- ment les lois χ2 (n) et χ2 (m). La variable aléatoire YX//mn suit une loi appelée loi de Fisher- Snedecor à (n, m) dégrés de liberté et notée F (n, m). Définition 1.1.30. Soient X et Y deux variables aléatoires indépendantes suivant respective- ment N (0, 1) et χ2 (n). La loi de la variable aléatoire réelle X Z= q Y n est appelée loi de Student à n degrés de liberté. On la note T (n). 1.1.9.3 Théorèmes de Cochran-Fisher Soit E un sous-espace vectoriel de Rn. Notons P E la matrice de la projection orthogonale 0 sur E. La matrice P E est une matrice carrée d’ordre n, symétrique (P E = P E ) et idempotent (P E2 = P E ) Théorème 1.1.7. (Cochran) On considère un vecteur gaussien X ,→ N n (0, σ2 I n ) où σ2 > 0 et une décomposition E 1 ⊕... ⊕ E p de Rn en sous-espaces orthogonaux de dimensions respectives r 1 ,... , r p. Alors, les projections orthogonales PE 1 X ,... , PE p X forment des vecteurs gaussiens indépendants. De plus, nous avons, pour i = 1,... , p 1 kPE i X k22 ,→ χ2 ( r i ). σ2 Démonstration. Soit ( e ij ) i=1,...,p, j=1,...,r i une base orthonormée de Rn telle que pour chaque i = 1,... , p, ( e ij ) j=1,...,r i est une base orthonormée de E i. La matrice de projection orthogonale sur E i est définie par : 0 P E i = ( e 1i ,... , e ir i )( e 1i ,... , e ir i ). Les vecteurs ( e ij ) i=1,...,p, j=1,...,r i étant orthogonaux, nous avons P E i P E k = 0 pour i 6= k. 1. X est un vecteur gaussien. Ainsi, PE i X est un vecteur gaussien. Par suite, nous en déduisons que le vecteur (PE 1 X ,... , PE p X ) est gaussien. De plus, cov(PE i X , PE j X ) = 0 pour i 6= j. Par suite, les vecteurs aléatoires PE 1 X ,... , PE p X sont indépendants. 2. PE i X ,→ N n (0, σ2 PE i ). Or, nous avons PE i X = σ M i Z où Z ,→ N r i (0, I r i ) avec M i = ( e 1i ,... , e ir i ). Par suite, k M i Z k2 = k Z k2 ,→ χ2 ( r i ). On en déduit le résultat. Corollaire 1.1.2. Soient X 1 ,... , X n des variables aléatoires indépendantes de même loi N (µ, σ2 ). Posons 1X n 1 X n Xn = Xi S 2n = ( X i − X n )2. n i=1 n − 1 i=1 Alors, on a : 22 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 1. X n et S 2n sont indépendantes ; ( n − 1)S 2n 2. ,→ χ2 ( n − 1) ; σ2 p n ( X n − µ) 3. ,→ T ( n − 1). Sn Démonstration. 1. On effectue la démonstration lorsque µ = 0 et σ2 = 1. Posons v = 1 p1 .. n . et E = vect(v). Nous avons alors Rn = E ⊕ E ⊥. 1 Y1 Soit Y = ... ,→ N (0, I n ). Nous avons les résultats : Yn p p PE Y = nYn v P E ⊥ Y = Y − nYn v. D’après le Théorème de Cochran, P E Y et P E ⊥ Y sont indépendantes. Ainsi, nous obtenons l’indépendance de Yn et de n k P E ⊥ Y k2 = (Yi − Yn )2. X i =1 De plus n (Yi − Yn )2 ,→ χ2 ( n − 1). X i =1 2. On considère maintenant des variables aléatoires X 1 ,... , X n indépendantes de même X1 µ loi N (µ, σ2 ). Nous avons X = .. . est un vecteur gaussien de moyenne .. et . Xn µ de matrice variance-covariance σ2 I n. De plus, pour tout i = 1,... , n X i = µ + σY i où les variables aléatoires Y1 ,... , Yn sont indépendantes de loi N (0, 1). Nous obtenons alors, ( n − 1)S 2n 1 X n 2 n (Yi − Yn )2 ,→ χ2 ( n − 1). X = ( X i − X n ) = σ2 σ2 i=1 i =1 1.2 Conditionnement Soit (Ω, A , P) un espace probabilisé. 1.2.1 Conditionnement par un événement Soit B ∈ A tel que P(B) 6= 0. Pour tout A ∈ A , on pose P( A ∩ B ) PB ( A ) = ; P( B ) PB ( A ) est appelée probabilité conditionnelle de A sachant B. 1.2. CONDITIONNEMENT 23 Remarque 1.2.1. PB est une probabilité sur (Ω, A ). Proposition 1.2.1. Soit X une variable aléatoire P-intégrable. Alors X est aussi PB -intégrable. Définition 1.2.1. On appelle alors espérance conditionnelle de X sachant B la quantité 1 Z Z E( X |B) = X d PB = X d P. Ω P( B ) B 1.2.2 Conditionnement par une partition au plus dénombrable d’événe- ments Soit (B n , n ∈ N) une partition de Ω avec P( A n ) 6= 0 pour tout n ∈ N. On note B = σ(B n , n ∈ N) la tribu engendrée par (B n , n ∈ N). On définit la probabilité conditionnelle d’un événement A sachant B comme étant la variable aléatoire qui prend la valeur P( A |B n ) pour tout ω ∈ B n. On la note P( A |B ) et nous avons P( A |B ) = P( A |B n )1B n X n∈N Proposition 1.2.2. Soit A fixé, la variable aléatoire P( A |B ) satisfait les propriétés suivantes : - P( A |B ) est B -mesurable Z - pour tout B ∈ B , on a P( A |B ) d P = P( A ∩ B) B Démonstration. La fonction P( A |B ) est constante sur chaque B n. Alors, P( A |B ) est mesu- rable. Soit B ∈ B. Alors, il existe I ⊂ N tel que B = ∪ i∈ I B i. Nous avons : Z XZ P( A |B )dP = P( A |B )dP B i∈ I B i XZ P( A |B n )dP X = i ∈ I B i n∈N P( A |B n )P(B i ∩ B n ) XX = i ∈ I n∈N P( A |B i )P(B i ) X = i∈ I P( A ∩ B i ) X = i∈ I ´ = P A ∩ (∪ i∈ I B i ) ¡ = P( A ∩ B). Proposition 1.2.3. A ω fixé, P( A |B )(ω) est une mesure de probabilité. Définition 1.2.2. Soit X une variable aléatoire dans L1 (Ω, A , P). L’espérance conditionnelle de X sachant B est la variable aléatoire définie par : Z E( X |B )(ω) = X d P(·|B )(ω) = E( X |B j )1B j (ω) X j ∈N pour tout ω ∈ Ω. Proposition 1.2.4. Soit X une variable aléatoire P-intégrable. 24 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 1. L’application ω 7→ E( X |B )(ω) satisfait : (a) E( X |B ) est B -mesurable Z Z (b) pour tout B ∈ B , on a E( X |B ) d P = X d P. B B En particulier en prenant B = Ω, on obtient E(E( X |B )) = E( X ). Exemple 1.2.1. Conditionnement par une variable aléatoire discrète. Soit Y une variable aléatoire discrète avec Y (Ω) = { yi , i ∈ I ⊂ N}. Alors, on a Ω = ∪ i∈ I B i où B i = Y −1 ({ yi }). La tribu engendrée par Y est la tribu engendrée par la partition constituée des événements B i. On note σ(Y ) cette tribu. On définit l’espérance de X sachant Y par E( X |Y ) = E( X |σ(Y )). La loi de X sachant Y étant P X (·|Y ) = P X (·|σ(Y ), ) nous avons donc E( X |Y ) = E( X |Y = yi )1{Y = yi }. X i ∈N 1.2.3 Conditionnement par une tribu Définition 1.2.3. Soit B une tribu et X une variable aléatoire. L’espérance conditionnelle de X sachant B est la classe des variables aléatoires E( X |B ) qui vérifient : E( X |B ) est B -mesurable (∗ ∗ ∗) Z Z pour tout B ∈ B , on a E( X |B ) d P = X d P. B B On appelle version de l’espérance conditionnelle un élément de cette classe. Proposition 1.2.5. Soit X une variable aléatoire P-intégrable. On suppose qu’il existe une variable aléatoire E( X |B ) qui satisfait (∗ ∗ ∗). Alors, E( X |B ) vérifie les propriétés suivantes. — E(·|B ) est linéaire. — Si X est positive alors E( X |B ) l’est aussi. Proposition 1.2.6. Beppo Levi Soit ( X n )n∈N une suite croissante de variables aléatoires positives qui converge vers X. Alors, nous avons lim E( X n |B ) = E( X |B ) n ↑ +∞ Proposition 1.2.7. Fatou Si ( X n )n∈N est une suite de variables aléatoires positives, alors E(lim X n |B ) ≤ lim E( X n |B ). Proposition 1.2.8. Convergence dominée. Si ( X n )n∈N est une suite de variables aléatoires qui converge vers X et s’il existe une variable aléatoire Y intégrable telle que pour tout n, X n ≤ Y alors lim E(| X n − X kB ) = 0. n→+∞ Proposition 1.2.9. Soit ( X , Y ) un couple de variables aléatoires. Si X est B -mesurable alors E( X Y |B ) = X E(Y |B ) presque sûrement. Proposition 1.2.10. Si X est indépendante de B alors E( X |B ) = E( X ) presque sûrement. 1.2. CONDITIONNEMENT 25 1.2.4 Interprétation géométrique Théorème 1.2.1. Soit H un espace de Hilbert. Soit E un sous-espace complet de H. Pour tout x ∈ H , il existe un unique élément y ∈ E tlque k y − xk = inf kω − xk. ω∈ E y− x ⊥ x.On note y = P E ( x) la projection orthogonale sur E. On sait que L2 (Ω, A , P) est un espace de Hilbert. Soit B une sous tribu de A et L2 (Ω, B , P) le sous espace L2 (Ω, A , P) constitué des classes d’équivalence d’applications B -mesurable. C’est un sous-espace complet de L2 (Ω, A , P). D’après le théorème précédent, si X ∈ L2 (Ω, A , P) alors la projection de X sur L2 (Ω, B , P) est une version de l’espérance conditionnelle. Théorème 1.2.2. Si X est une variable aléatoire dans L2 (Ω, A , P) alors la variable aléatoire Y = P L2 (Ω,B ,P) ( X ) est une version de l’espérance conditionnelle sachant B vérifiant (∗ ∗ ∗). 1.2.5 Conditionnement par une variable aléatoire 1.2.6 Définition Soit Y une variable aléatoire à valeurs dans l’espace mesureable (E, E ). On note σ(Y ) la tribu engendrée par Y , c’est à dire, σ(Y ) = σ({Y −1 ( A ), A ∈ E }). On a : E( X |σ(Y )) = E( X |Y ). Lemme 1.2.1. (Lemme de Doob). Soit U une variable aléatoire sur Ω. U est σ(Y )-mesurable si et seulement si il existe une application mesurable g de E dans R telle que U = g(Y ). L’espérance conditionnelle E( X |Y ) est donc de la forme g(Y ) avec g mesurable et Z Z g(Y ) d P = X dP ∀B ∈ σ(Y ). B B L’événement B peut aussi s’exprimer de la forme Y −1 (C ) avec C ∈ E. En utilisant le théorème du transfert, on obtient Z Z g ( y) d PY ( y) = X dP C Y −1 (C ) 1.2.7 Couple de variables aléatoires Soit ( X , Y ) un couple de variables aléatoires admettant une densité f par rapport à la mesure produit µ1 ⊗ µ2. Alors, on a Z P( X ∈ B, Y ∈ C ) = f ( x, y) d µ1 ⊗ µ2 ( x, y). B ×C Proposition 1.2.11. Si E| X | < +∞ alors x f ( x, Y ) d µ1 ( x) R E( X |Y ) = R. f ( x, Y ) d µ1 ( x) 26 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS Démonstration. Soit {ω : f ( x, Y (ω)) d µ1 ( x) = 0}. On a R ³ Z ´ Z 0 P {ω : f ( x, Y (ω)) d µ1 ( x) = 0} = d PY ( y) { y: f ( x,y) d µ1 ( x)=0} R Z = f Y ( y) d µ2 ( y) { y: f Y ( y)=0} =0 Proposition 1.2.12. La loi conditionnelle de X sachant Y admet pour densité : f ( x, y) f X |Y = y ( x ) = R 1 R f ( x,y) d µ1 ( x)6=0}. f ( x, y) d µ1 ( x) { y: 1.3 Convergences et Théorèmes limites 1.3.1 Modes de convergence 1.3.1.1 Convergence presque-sûre Soit X n et X des variables aléatoires définies sur le même espace probabilisé (Ω, A , P). Posons N = {ω ∈ Ω : X n (ω) ne converge pas vers X (ω)} Définition 1.3.1. On dit que la suite X n converge presque sûrement vers X si P(N ) = 0. On p.s écrit X n −→ X. X ³ ´ Proposition 1.3.1. Si pour tout ε > 0 P | X n − X | > ε < ∞ alors ( X n )n converge presque n≥0 sûrement vers X. 1.3.1.2 Convergence dans la norme L p (Ω, A , P) Soit X n et X des variables aléatoires définies sur le même espace probabilisé (Ω, A , P). Définition 1.3.2. On dit que la suite X n converge vers X dans L p (Ω, A , P) avec p ∈ [1, +∞[ si les X n et X sont dans L p et h i lim E | X n − X | p = 0. n→+∞ Lp On note X n −→ X. Proposition 1.3.2. Si p ≥ q, la convergence dans la norme L p (Ω, A , P) entraı̂ne la convergence dans la norme L p (Ω, A , P). 1.3.1.3 Convergence en probabilité Soit X n et X des variables aléatoires définies sur le même espace probabilisé (Ω, A , P). Définition 1.3.3. On dit que la suite X n converge en probabilité vers X si pour tout ε > 0, on a h i lim P | X n − X | > ε = 0. n→+∞ P On note X n −→ X. 1.3. CONVERGENCES ET THÉORÈMES LIMITES 27 1.3.1.4 Convergence en loi Pour ce mode de convergence, les variables aléatoires X n et X peuvent être définies sur des espaces probabilisés distincts. Seules les lois des variables aléatoires sont en cause. On notera P X n la loi de X n et P X la loi de X. On note C b (Rd ) l’espace des fonctions continues bornées de Rd dans R. On munit cet espace de la norme kϕk = sup |ϕ( x)|. x∈Rd Définition 1.3.4. Soient Pn et P des lois de probabilité sur Rd. On dit que Pn converge étroitement vers P si Z Z ∀ϕ ∈ C b (Rd ) ϕ d Pn −→ ϕ d P. Définition 1.3.5. Une suite de variables aléatoires ( X n )n≥1 à valeurs dans Rd converge en loi vers une variable aléatoire X si la suite P X n converge étroitement vers P X , c’est à dire ∀ϕ ∈ C b (Rd ) E(ϕ( X n )) −→ E(ϕ( X )). L On écrit X n −→ X. Proposition 1.3.3. Soit ( X n )n≥1 une suite de variables aléatoires à valeurs dans Rd. La suite ( X n )n≥1 converge en loi vers X si et seulement si la suite des fonctions caractéristiques converge vers la fonction caractéristique de X : ∀ t ∈ Rd φ X n ( t) −→ φ X ( t). Proposition 1.3.4. Soit ( X n )n≥1 une suite de variables aléatoires à valeurs dans Rd telle que ∀ t ∈ Rd φ X n ( t) −→ ψ( t) avec ψ continue en 0. Alors, ψ est la fonction caractéristique d’une variable aléatoire X. De plus, la suite ( X n )n≥1 converge en loi vers X. On suppose maintenant que les variables aléatoires X n et X sont à valeurs réelles et de fonctions de répartition respectives F n et F. Proposition 1.3.5. La suite ( X n )n≥1 converge en loi vers la variable aléatoire X si et seule- ment si F n ( t) −→ F ( t) pour tout point de continuité t de F. Si ( X n )n≥1 converge en loi vers X , on n’a pas nécessairement convergence de (F n ( t))n vers F ( t) si t n’est pas un point de continuité de F. Pour contre-exemple, prendre X n = 1/ n et X = 0 et considérer les fonctions de répartition au point 0. Théorème 1.3.1. Soient X n et X des variables aléatoires à valeurs dans E fini ou infini dénombrable. Alors L X n −→ X ⇐⇒ lim P( X n = j ) = P( X = j ) ∀ j ∈ E. n→+∞ Proposition 1.3.6. Soient ( X n )n≥1 une suite de variables aléatoires à valeurs dans Rd qui converge en loi vers une variable aléatoire X et g une fonction continue sur Rd. Alors g( X n ) converge en loi vers g( X ). Preuve. Si h est continue, bornée et g est continue alors h ◦ g est continue et bornée. 28 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 1.3.2 Relations entre les différents modes Dans cette section, nous donnons quelques résultats concernant les relations entre les différents modes de convergence d’une variable aléatoire. Proposition 1.3.7. Soit ( X n )n≥1 une suite de variables aléatoires à valeurs dans Rd qui converge en probabilité vers une variable aléatoire X. Alors ( X n )n≥1 converge en loi vers X. Démonstration. Soit g une fonction continue et bornée sur Rd. Pour tout ε > 0, on a |E( g( X n )) − E( g( X ))| ≤ ε + 2k gkP(| X n − X | > ε). En passant à la limite, on obtient pour tout ε > 0, ³ ´ 0 ≤ lim sup |E( g( X n )) − E( g( X ))| ≤ ε. La réciproque est en général fausse. Mais, elle est vraie lorsque la limite est une constante. Proposition 1.3.8. Soit ( X n )n≥1 une suite de variables aléatoires à valeurs dans Rd qui converge en loi vers une constante a. Alors ( X n )n≥1 converge en probabilité vers la constante a. Démonstration. On fait la preuve pour d = 1. Soit ε > 0. P(| X n − a| > ε) ≤ 1 − F n (a + ε) + F n (ε − a). On obtient le résultat car a + ε et a − ε sont des points de continuité de la fonction de répartition de la variable aléatoire égale à a presque sà rement. Proposition 1.3.9. Supposons qu’il existe p ≥ 1 tel que ( X n )n≥1 converge vers X dans L p (Ω). Alors ( X n )n≥1 converge en probabilité vers X. Démonstration. Pour tout ε > 0, d’après l’inégalité de Markov P(| X n − X | > ε) ≤ ε− p E(| X n − X | p ). Proposition 1.3.10. Si ( X n )n≥1 converge presque sûrement vers X alors ( X n )n≥1 converge en probabilité vers X. Démonstration. Posons Yn = inf{| X n − X |, 1}. On a Yn → 0 p.s. et |Yn | ≤ 1 ∀n. D’après le théorème de la convergence dominée E(Yn ) = E(|Yn |) → 0, c’est à dire Yn ∈ L1 (Ω). Par suite, Yn → 0 en probabilité. P Proposition 1.3.11. Si X n −→ X et il existe une variable aléatoire réelle Z , P-intégrable telle que | X n | p ≤ Z p.s. pour tout n avec p ≥ 1. Alors Lp X n k −→ X P Proposition 1.3.12. Si X n −→ X alors il existe une sous suite ( X n k ) telle que p.s. X n k −→ X. P Démonstration. Posons Z n = inf{| X n − X |, 1}. On obtient X n −→ 0 et | Z n | ≤ 1. D’après la proposition précédente, on a L1 X n k −→ 0. p.s. Il existe alors une sous suite Z n k telle que Z n k −→ 0. D’où le résultat. 1.3. CONVERGENCES ET THÉORÈMES LIMITES 29 1.3.3 Lois des grands nombres D’un point de vue concret les lois des grands nombres étudient le comportement de la moyenne empirique. Elles garantissent que la moyenne empirique se rapproche de plus en plus de la moyenne théorique quand on augmente n. 1.3.3.1 Loi faible des grands nombres Théorème 1.3.2. Soit ( X n )n≥1 une suite de variables aléatoires indépendantes de même loi et de carré intégrable, c’est à dire E( X 12 ) < ∞. Alors, on a 1X n P X i −→ E( X 1 ). n i=1 Ce théorème est encore vraie si on ne suppose que l’existence du moment d’ordre 1. Cepen- dant, l’hypothèse E( X 12 ) < ∞ permet une preuve facile. Démonstration. Pour tout ε > 0, ³¯ 1 Xn ¯ ´ 1 ³1 Xn ´ P ¯ X i − E( X 1 )¯ ≥ ε ≤ 2 var Xi ¯ ¯ n i=1 ε n i=1 var ( X 1 ) =. nε2 var ( X 1 ) Comme tend vers 0 quand n tend vers l’infini, on obtient le résultat. nε2 1.3.3.2 Loi forte des grands nombres Théorème 1.3.3. Soit ( X n )n≥1 une suite de variables aléatoires indépendantes de même loi telle que E(| X 1 |) < ∞. Alors, on a 1X n p.s. X i −→ E( X 1 ). n i=1 Démonstration. Admise. Illustration de la loi des grands nombres — Générer un échantillon de taille ( X 1 ,... , X 5000 ) de la loi exponentielle E (2) > Z=rexp(5000,2) > Z1=cumsum(Z) > Z2=rep(0,5000) > for(i in 1:5000){ + Z2[i]=Z1[i]/i + } > plot(1:length(Z2),Z2) 30 CHAPITRE 1. RAPPELS ET COMPLÉMENTS DE PROBABILITÉS 0.9 0.8 0.7 Z2 0.6 0.5 0.4 0 1000 2000 3000 4000 5000 1:length(Z2) 1.3.4 Théorème Central limite La loi forte des grands nombres dit que X n = E( X 1 ) + o(1) p.s pour une suite de variables aléatoires indépendantes identiquement distribuées, intégrables. Le Théorème central limite permet de préciser le comportement asymptotique de la loi de X n , c’est à dire, le comportement en loi du o(1). Théorème 1.3.4. Soit ( X n )n≥1 une suite de variables aléatoires indépendantes identiquement distribuées (i.i.d.) telles que E( X 1 ) = µ < +∞ et var( X 1 ) = σ2 ∈]0, +∞[. Alors, nous avons p n ( X n − µ) L −→ Z σ où Z est une variable aléatoire réelle de loi normale N (0, 1). En d’autres termes, quelque soit ³ la2 ´loi des X i , pour n suffisamment grand, X n suit approxi- mativement la loi normale N µ, σn. Illustration du théorème central limite > par(mfrow=c(3,3)) > plot(dpois(1:10,1)) 1.3. CONVERGENCES ET THÉORÈMES LIMITES 31 > n=c(1,2,4,8,20,30,50,100) > for (i in 1:length(n)) + { + X=rpois(500*n[i],1) + A=matrix(X,ncol=500) + M=apply(A,2,mean) + Z=sqrt(n[i])*(M-1) + hist(Z,freq=FALSE,main=paste("Poisson lambda=",1,"n=", n[i])) + curve(dnorm, add=TRUE) + } Poisson lambda= 1 n= 1 Poisson lambda= 1 n= 2 0.8 dpois(1:10, 1) 0.4 Density Density 0.2 0.4 0.2 0.0 0.0 0.0 2 4 6 8 10 −1 0 1 2 3 −1 1 2 3 4 Index Z Z Poisson lambda= 1 n= 4 Poisson lambda= 1 n= 8 Poisson lambda= 1 n= 20 0.4 0.4 0.4 Density Density Density 0.2 0.2 0.2 0.0 0.0 0.0 −2 0 1 2 3 −2 0 1 2 3 4 −3 −1 1 2 3 Z Z Z Poisson lambda= 1 n= 30 Poisson lambda= 1 n= 50 Poisson lambda= 1 n= 100 0.4 0.4 0.4 Density Density Density 0.2 0.2 0.2 0.0 0.0 0.0 −3 −1 1 2 3 −3 −1 1 2 3 −2 0 1 2 3 4 Z Z Z Théorè