Cours Probabilités - Licence - Mathématiques - PDF
Document Details
Uploaded by EasyToUseJasper7957
Université de La Rochelle
2009
Jean-Christophe Breton
Tags
Summary
This document is a course on probability theory, at the undergraduate level, specifically for third-year mathematics students at the University of La Rochelle. It presents various concepts and theorems in probability theory, from introduction to variables and vectors.
Full Transcript
Probabilités Licence de Mathématiques 3ème année Jean-Christophe Breton Université de La Rochelle Janvier–Mai 2009 version du 23 mai 2009 2 Table des matières 1 Variables aléatoires...
Probabilités Licence de Mathématiques 3ème année Jean-Christophe Breton Université de La Rochelle Janvier–Mai 2009 version du 23 mai 2009 2 Table des matières 1 Variables aléatoires 1 1.1 Rappel de théorie de la mesure........................ 1 1.2 Définition, exemples.............................. 2 1.3 Espérance probabiliste............................. 9 1.4 Convergences monotone et dominée...................... 13 1.5 Moments des variables aléatoires........................ 14 2 Vecteurs aléatoires 21 2.1 Rappels d’intégration.............................. 21 2.1.1 Théorèmes de Fubini.......................... 21 2.1.2 Changement de variable........................ 23 2.2 Vecteurs aléatoires............................... 26 2.3 Indépendance de variables aléatoires..................... 31 2.3.1 Définition................................ 31 2.3.2 Critères et exemples.......................... 32 2.3.3 Covariance et indépendance...................... 35 3 Somme de deux variables aléatoires indépendantes et convolution 37 3.1 Convolution de mesures............................ 37 3.2 Convolution de deux fonctions......................... 39 3.3 Loi d’une somme de variables aléatoires à densité indépendantes...... 41 3.4 Cas de variables aléatoires discrètes indépendantes.............. 43 4 Loi du 0/1 de Kolmogorov 45 4.1 π-système et d-système............................. 45 4.1.1 En théorie de la mesure........................ 45 4.1.2 En probabilité.............................. 47 4.2 Tribus du futur et tribu asymptotique..................... 49 4.3 Liminf et limsup d’ensembles.......................... 50 4.4 Lemmes de Borel-Cantelli........................... 53 i ii Table des matières 5 Convergences de variables aléatoires 55 5.1 Convergence presque sûre........................... 55 5.2 Convergence en norme p............................ 55 5.3 Convergence en loi............................... 56 5.4 Convergence en probabilité........................... 60 5.5 Lois des grands nombres (LGN)........................ 63 5.5.1 Version faible de la LGN........................ 63 5.5.2 Application : estimation d’une proportion inconnue......... 65 5.5.3 Version forte de la LGN........................ 66 6 Séries de vai et loi des grands nombres 71 6.1 Sommes de vai................................. 71 6.2 Convergence des sommes Sn.......................... 72 6.2.1 Les convergences ps et L1....................... 72 6.2.2 Convergence ps et L2......................... 74 6.3 Loi des grands nombres (LGN)........................ 76 6.3.1 LGN L2................................. 76 6.3.2 LGN L1................................. 77 6.4 Applications................................... 79 6.4.1 Estimateurs............................... 79 6.4.2 Méthode de Monte Carlo........................ 80 7 Fonction caractéristique 83 7.1 Définition et propriétés............................. 83 7.2 Variables et vecteurs gaussienn........................ 87 7.3 Théorème central limite (TCL)........................ 94 Chapitre 1 Variables aléatoires 1.1 Rappel de théorie de la mesure Définition 1.1.1 (Tribu) A ⊂ P(X) est une tribu (ou une σ-algèbre) si – X∈A – Si pour tout i ∈ N Ai ∈ A alors ∪i∈N Ai ∈ A : A est stable par réunion dénombrable. – Si A ∈ A alors Ac ∈ A : A est stable par complémentaire. On appelle (ensemble) mesurable tout ensemble A élément d’une tribu A. Un ensemble muni d’une tribu (X, A) s’appelle un espace mesurable. Définition 1.1.2 (Tribu borélienne) Lorsque X est un espace topologique (çàd muni d’une famille d’ouverts), la plus petite tribu contenant tous les ouverts est appelée tribu borélienne. Elle est notée B(X). Les mesurables A ∈ B(X) s’appelent aussi les boréliens. Par définition, les boréliens ty- piques sont les ouverts, les fermés. Définition 1.1.3 Une application f : (X, A) −→ (Y, B) est dite mesurable si ∀B ∈ B, f −1 (B) ∈ A. Exemple. Lorsqu’on travaille avec les tribus boréliennes, les fonctions f : X −→ Y conti- nues sont mesurables. Définition 1.1.4 (Mesure) Une mesure µ sur (X, A) est une application de A → [0, +∞] telle que – µ(∅) = 0 – si (An )n∈N est une suite dénombrable d’ensembles de A deux à deux disjoints alors +∞ [ +∞ X µ( An ) = µ(An ) σ-additivité. n=1 n=1 1 2 Chapitre 1. c JCB – L3 IMAE – Université de La Rochelle Le triplet (X, A, µ) est appelé un espace mesuré (espace mesurable + mesure). Exemples de mesure. – Mesure de Dirac sur (X, P(X)) : soit a ∈ X, 1 si a ∈ A δa (A) = 0 si a ∈ 6 A. – Mesure de Lebesgue sur (R, B(R)) : c’est la mesure qui généralise la notion de lon- gueur des intervalles. λ([a, b]) = b − a, λ(A + x) = λ(A). – Mesure image : Soit f : (X, A, µ) → (Y, B) une fonction mesurable. On définit sur (Y, B) la mesure image de f notée µf par : µf (B) = µ(f −1 (B)). 1.2 Définition, exemples Grâce à la théorie de la mesure, on unifie la présentation du cadre discret et du cadre continu des variables aléatoires. Par définition, il s’agit maintenant tout simplement des fonctions mesurables sur un espace de probabilité (Ω, F, P). Définition 1.2.1 Un espace de probabilité est un espace mesurable (Ω, F) muni d’une mesure de probabilité P, c’est à dire une mesure de masse totale 1 : P(Ω) = 1. Les ensembles mesurables A ∈ F sont appelés les évènements (ou les observables). Définition 1.2.2 (variable aléatoire) On appelle variable aléatoire (va) toute applica- tion mesurable X d’un espace de probabilité (Ω, F, P) dans R muni de la tribu borélienne B(R). Il s’agit donc tout simplement d’une application mesurable sur un espace de probabilité. Définition 1.2.3 (Loi) Soit X : Ω → R, on appelle loi de X la mesure PX , mesure image sur R de P par X : PX (A) = P(X ∈ A) = P(ω ∈ Ω | X(ω) ∈ A), A ∈ B(R). La loi PX d’une variable aléatoire X définit alors une mesure de probabilité sur (R, B(R)). Il est facile en effet de vérifier que PX (R) = P(X ∈ R) = 1 et que PX est σ-additive. Définition 1.2.4 Soit X une va. On appelle atome de X (ou de sa loi) tout x ∈ R telle que P(X = x) 6= 0. 1.2. Définition, exemples 3 Fonction de répartition Définition 1.2.5 (Répartition) On appelle fonction de répartition d’une v.a. X : Ω → R la fonction FX définie sur R par FX (x) = P(X ≤ x) = PX (] − ∞, x]). Proposition 1.2.1 (Propriétés de la fonction de répartition) a) FX est croissante. b) limx→−∞ FX (x) = 0 et limx→+∞ FX (x) = 1. c) FX est continue à droite et admet une limite à gauche : lim FX (x) = P(X < x0 ). x→x0 ,x≤x0 On dit que la fonction FX est cadlag (continue à droite avec une limite à gauche). d) En fait si x n’est pas un atome de X, alors FX est continue à gauche (donc continue) en x. Démonstration : a) est du à la croissance de la mesure de probabilité P. b) et c) s’obtiennent en appliquant les propriétés de monotonie séquentielle des mesures. T Pour b), prendre d’abord An =] − ∞, −n], on a n An = ∅, ensemble de mesure PX nulle, si bien que \ lim FX (x) = lim FX (−n) = lim P(X ≤ −n) = lim PX (An ) = PX ( An ) = 0. x→−∞ n→+∞ n→+∞ n→+∞ n S Puis prendre Bn =] − ∞, n] de réunion n Bn =] − ∞, +∞[= R de mesure PX (R) = P(X ∈ R) = 1 si bien que [ lim FX (x) = lim FX (n) = lim P(X ≤ n) = lim PX (Bn ) = PX ( Bn ) = PX (R) = 1. x→+∞ n→+∞ n→+∞ n→+∞ n T Pour le c), prendreTd’abord An =] − ∞, x + 1/n] d’intersection n An =] − ∞, x], ensemble de mesure PX ( n An ) = FX (x) si bien que \ lim+ FX (y) = lim FX (x+1/n) = lim P(X ≤ x+1/n) = lim PX (An ) = PX ( An ) = FX (x). y→x n→+∞ n→+∞ n→+∞ n S Ensuite, S prendre Bn =] − ∞, x − 1/n] de réunion n Bn =] − ∞, x[, ensemble de mesure PX ( n Bn ) = P(X < x). Attention : P(X < x) peut être distinct de P(X ≤ x) car P(X ≤ x) − P(X < x) = P({X ≤ x} \ {X < x}) = P(X = x) qui peut être non nul si la loi de X a un atome en x. On a alors [ lim− FX (y) = lim FX (x−1/n) = lim P(X ≤ x−1/n) = lim PX (Bn ) = PX ( Bn ) = P(X < x). y→x n→+∞ n→+∞ n→+∞ n 4 Chapitre 1. c JCB – L3 IMAE – Université de La Rochelle Pour le d), on constate que si P(X = x) = 0 alors P(X < x) = P(X ≤ x) et la continuité à gauche manquante vient. Remarque (culturelle). Toute fonction F : R → [0, 1] qui est croissante continue à droite et avec une limite à gauche en tout point et telle que lim F (t) = 0, lim F (t) = 1 t→−∞ t→+∞ est la fonction de répartition d’une certaine variable aléatoire X. De plus l’ensemble des points où la fonction F a un saut est l’ensemble des atomes de X. Variable aléatoire discrète Définition 1.2.6 (v.a. discrète) Une variable aléatoire X est discrète si elle est à valeur dans un ensemble au plus dénombrable (en bijection avec une partie de N). Autrement dit : X(Ω) est fini ou dénombrable (on peut compter ses éléments). Le support d’une v.a. X discrète est l’ensemble de ses atomes. Rappel (mesure de Dirac). La mesure de Dirac δa en a est définie par 1 si a ∈ A δa (A) = 0 sinon. Si X est une v.a. discrète alors sa loi est une somme de mesures de Dirac en ses atomes : X PX = P(X = x)δx x∈X(Ω) ce qui s’écrit X PX = pi δai. i∈I Le cas générique est une v.a. X qui P prend les valeurs {ai , i ∈ I}, i ∈ I, avec les probabilités respectives pi , i ∈ I, avec i∈I pi = 1 (où I est fini ou dénombrable). On a X(Ω) = {ai , i ∈ I}, PX (ai ) = P(X = ai ) = pi. Exemples : (v.a. discrètes usuelles) Si X = c est une v.a. constante, alors sa loi est PX = δc et X(Ω) = {c}. En effet PX (A) = P(X ∈ A) = P(c ∈ A) = δc (A). Soit X une v.a. qui prend les valeurs a1 ,... , an avec les probabilités respectives p1 ,... , pn et p1 + · · · + pn = 1. Alors son support est X(Ω) = {a1 ,... , an } et sa loi est donnée par : PX = p1 δa1 + · · · + pn δan. 1.2. Définition, exemples 5 Ici pi = P(X = ai ). C’est le cas général d’une loi discrète à support fini. Soit X la variable qui indique la face 1,... , 6 obtenue par le lancer d’un dé. La variable X est discrète. 1 1 PX = δ1 + · · · + δ6. 6 6 Il s’agit de la loi équirépartie sur {1,... , 6}. De façon générale, une v.a. X suit la loi equirépartie sur un ensemble fini {x1 ,... , xn } n X 1 si X(Ω) = {x1 ,... , xn } et PX = δx. i=1 n i Si A ∈ F est un évènement, alors X = 1A est une variable aléatoire. Elle vaut 1 si l’évènement A est réalisé 0 sinon, son support est donc X(Ω) = {0, 1} et sa loi : PX = pδ1 + (1 − p)δ0. Il s’agit de la loi de Bernoulli b(p) si p = P(A). De façon générale, une v.a. X suit la loi de Bernoulli de paramètre p ∈ [0, 1] si elle ne prend que deux valeurs, la plupart du temps 0 et 1 avec : P(X = 1) = p, P(X = 0) = 1 − p := q. Exemple : pile ou face avec p = 1/2 si la pièce est équilibrée, p 6= 1/2 si elle est truquée. La variable X qui indique le nombre de succès dans une suite de n épreuves chacune ayant une probabilité p de succès est discrète X(Ω) = {0,... , n}. n X PX = Cnk pk (1 − p)n−k δk. k=0 Il s’agit de la loi binomiale B(n, p) où p est la probabilité de succès à chaque épreuve. n! On rappelle que Cnk = est le coefficient binomial. Il s’agit bien d’une loi de k!(n − k)! probabilité car la formule du binome de Newton (d’où le nom de la loi) donne : n X n Cnk pk (1 − p)n−k = p + (1 − p) = 1n = 1. k=0 Soit X la variable qui indique le numéro du premier lancer où on obtient un 6 lors d’une suite infinie de lancer de dé. La variable X est discrète (l’ensemble des valeurs possibles est X(Ω) = N∗ ). +∞ X 1 1 PX = (1 − )n−1 δn. n=1 6 6 Il s’agit de la loi géométrique G(1/6). 6 Chapitre 1. c JCB – L3 IMAE – Université de La Rochelle De façon générale, une v.a. X suit la loi géométrique de paramètre p ∈]0, 1[ notée G(p) si X(Ω) = N∗ et X+∞ PX = (1 − p)n−1 pδn. n=1 Exemple : dans une suite infinie d’épreuves indépendantes avec probabilité p de succès à chacune, elle modélise le rang du premier succès. Une v.a. X suit la loi de Poisson P(λ) donnée par X(Ω) = N et +∞ −λ n X e λ PX = δn. n=0 n! Il s’agit donc d’une v.a. discrète puisque X(Ω) = N. Cette loi sert à modéliser le temps d’attente dans les files d’attente. Variables aléatoires à densité Définition 1.2.7 Soit (X, A) un espace mesurable muni de deux mesures µ et ν. On dit que µ est absolument continue par rapport à ν si pour tout A ∈ A, on a ν(A) = 0 =⇒ µ(A) = 0. On le note µ ν. Théorème 1.2.1 (de Radon Nikodym) Si µ ν, alors il existe f : (X, A) → R mesurable telle que pour tout A ∈ A Z µ(A) = f dν. A La fonction f s’appelle la densité de µ par rapport à ν. De plus si µ est une mesure finie alors f ∈ L1 (ν). On a le lien suivant entre les intégrales par rapport à ν et celles par rapport à µ : Z Z gdµ = gf dν. De façon formelle, on écrit « dµ = f dν ». Les lois des v.a. sont des mesures sur l’espace (R, B(R)). Cet espace a pour mesure de référence la mesure de Lebesgue λ. On peut donc se demander s’il y a une relation d’absolue continuité entre la loi PX d’une v.a. X et la mesure de Lebesgue λ sur R. Ce n’est évidemment pas toujours vrai. Par exemple la loi de Poisson P(α) n’est pas abolument continue par rapport à λ puisque si X ' P(α) : αn e−α PX ({n}) = , alors que λ({n}) = 0. n! 1.2. Définition, exemples 7 Plus généralement, aucune loi discrète n’est absolument continue par rapport à λ puisque qu’une telle loi PX a des atomes : PX (x) = P(X = x) > 0, alors que λ({x}) = 0. Par définition, les lois qui sont absolument continues par rapport à la mesure de Lebesgue sont les lois à densité : Définition 1.2.8 Une v.a. X est une variable aléatoire de densité f si PX λ et Z Z b P(X ∈ A) = f dλ, P(X ∈ [a, b]) = f (x)dx. A a Dans les calculs d’intégration, on a alors l’écriture symbolique dPX = f (x)dx. R Remarque 1.2.1 On observe que la densité f doit vérifier f (x) ≥ 0 et R f (x)dx = 1. Par exemple, 2 e−x /2 1 1 √ , 1[a,b] , αe−αx 1R+ (x), 2π b−a π(1 + x2 ) sont les densités respectivement des lois normale standard N (0, 1), uniforme U([a, b]), expo- nentielle E(α) et de Cauchy C(1). Plus généralement, la loi normale (ou de Gauss) N (m, σ 2 ) est de densité 2 2 e−(x−m) /(2σ ) fm,σ2 (x) = √. 2πσ 2 Dans le cas à densité, la densité f est reliée à la fonction de répartition FX de la façon suivante. Proposition 1.2.2 Si X est une v.a. de densité f , sa fonction de répartition FX vérifie : Z x 1) ∀x ∈ R, FX (x) = f (t) dt. −∞ 2) FX est continue sur R. 3) Si f est continue au point x0 , alors FX est dérivable en x0 de dérivée FX0 (x0 ) = f (x0 ). D’après 2), la fonction de répartition est toujours continue. De là, vient le nom qu’on donne parfois aux variables aléatoires à densité : variables aléatoires continues. Démonstration : Puisque X a pour densité f , et comme FX (b) = P(X ∈] − ∞, b]) = P(X ∈] − ∞, a]∪]a, b]) = FX (a) + P(X ∈]a, b]), on a pour tous réels a < b : Z b FX (b) − FX (a) = P(X ∈]a, b]) = f (t) dt. (1.1) a 8 Chapitre 1. c JCB – L3 IMAE – Université de La Rochelle 1) Il suffit d’appliquer la monotonie séquentielle des probabilités avec b = x fixé et a = −n pour chaque n ∈ N tel que n > −x. La suite d’évènements An = {ω, X(ω) ∈] − n, x]}, n > −x, est croissante pour l’inclusion et de réunion A = {ω, X(ω) ∈] − ∞, x]} = {X ≤ x}. Par la propriété de continuité monotone séquentielle (ou par convergence dominée), on a P(An ) ↑ P(A), d’où Z x Z x FX (x) = P(X ≤ x) = P(A) = lim P(An ) = lim f (t) dt = f (t) dt n→+∞ n→+∞ −n −∞ en notant que l’intégrale généralisée de la densité f converge en −∞. 2) On fixe x0 ∈ R quelconque. D’abord FX est continue à droite en tout point car c’est une fonction de répartition. Il reste à voir la continuité à gauche. Soit xn < x0 une suite croissante qui converge vers x0. Il faut vérifier lim FX (xn ) = FX (x0 ). n→+∞ On a Z x0 Z FX (x0 ) − FX (xn ) = f (t)dt = f (t)1[xn ,x0 ] (t)dt. xn Or |f (t)1[xn ,x0 ] (t)| ≤ f (t), intégrable, puisque f est une densité, puis pour presque chaque t ∈ R, f (t)1[xn ,x0 ] (t) → 0 puisque limn→+∞ 1[xn ,x0 ] (t) = 1[t0 ,t0 ] (t). Le théorème de convergence dominée de Lebesgue s’applique et donne Z lim FX (x0 ) − FX (xn ) = 0dt = 0, n→+∞ ce qui est le résultat souhaité. 3) Comme par hypothèse f est continue en x0 , elle est définie sur tout un voisinage de x0 et donc sur un intervalle [a, b] qui contient x0. La continuité de f en x0 s’écrit : ∀ε > 0, ∃δ > 0 tel que ]x0 − δ, x0 + δ[⊂]a, b[ et ∀t ∈]x0 − δ, x0 + δ[, |f (t) − f (x0 )| < ε. Z x0 +h Pour tout h tel que 0 < |h| < δ, on a alors FX (x0 + h) − FX (x0 ) = f (t) dt. D’où x0 Z x0 +h Z x0 +h |FX (x0 +h)−FX (x0 )−hf (x0 )| = f (t) − f (x0 ) dt ≤ f (t)−f (x0 ) dt ≤ |h|ε. x0 x0 En divisant par h puis en faisant h → 0, on constate que FX est dérivable en x0 , de dérivée FX0 (x0 ) = f (x0 ). 1.3. Espérance probabiliste 9 1.3 Espérance probabiliste Soit (Ω, F, P) un espace de probabilité et X : (Ω, F, P) → R+ une variable aléatoire positive. L’intégrale de X par rapport à la mesure P est appelée son espérance : Z Z Définition 1.3.1 E[X] = X(ω)dP(ω) = XdP. Ω Une variable X ≥ 0 est dite intégrable si son espérance est finie. Un exemple de variable aléatoire positive est X = 1A où A ∈ F est un évènement. On a alors Z E[X] = E[1A ] = 1A dP = P(A). Ω La variable 1A qui indique si l’évènement A se réalise ou non a pour espérance P(A). Définition 1.3.2 Soit X une variable de signe quelconque. Elle est dite intégrable si la va positive |X| est d’espérance (forcément définie) finie. On note alors Z E[X] = XdP. La quantité E[|X|] s’appelle aussi le moment d’ordre 1. On peut formuler de la façon suivante : X est intégrable si son moment d’ordre 1 est fini. Définition 1.3.3 Une va X intégrable est dite centrée si E[X] = 0. Conséquence : des propriétés de l’intégration, on déduit pour des variables aléatoires intégrables X, Y et des réels a, b : E[aX + bY ] = aE[X] + bE[Y ] (linéarité de E). E[X] Inégalité de Markov : Si X est une v.a. positive P(X ≥ t) ≤. t L’espérance n’est rien d’autre que l’intégrale (au sens de Lebesgue) de la fonction mesurable par rapport à la mesure de probabilité P. D’après le théorème de transfert, E[X] peut s’écrire comme l’intégrale par rapport à la loi. Rappelons d’abord, que si on considère (X, A) et (Y, B) deux espaces mesurables et ϕ : (X, A) → (Y, B) une fonction mesurable puis une mesure µ sur (X, A) alors la mesure image ν = µϕ est une mesure sur (Y, B). On a un lien entre les intégrales par rapport à µ sur X et celles par rapport à ν = µϕ sur Y : Théorème 1.3.1 (Transfert) Soit h : (Y, B) → K = (R, R̄, C) mesurable alors h est ν-intégrable ssi h ◦ ϕ est µ-intégrable et Z Z h ◦ ϕdµ = hdν. X Y 10 Chapitre 1. c JCB – L3 IMAE – Université de La Rochelle Démonstration : cf. cours de Calcul Intégral. Il s’agit d’une formule de changement de variable abstraite, très générale puisque la seule condition pour le changement de variable y = ϕ(x) est que ϕ soit mesurable ! Cependant, pour les calculs pratiques, ce résultat n’est pas très utile car la mesure image ν = µϕ est mal connue. Corollaire 1.3.1 Soit X : (Ω, F, P) → R une variable aléatoire de loi PX. Alors X est P-intégrable ssi Z |x|dPX < +∞. R et son espérance est alors Z Z E[X] = XdP = xdPX (x). R Démonstration : Appliquer le théorème de transfert avec la fonction mesurable ϕ = X : (Ω, F, P) → R, la mesure image PX et la fonction h(x) = x : Z Z h ◦ XdP = hdPX. Ω R Plus généralement, si h : R → R est borélienne (i.e. mesurable) et X : (Ω, F, P) → R est une variable aléatoire. Alors h(X) est une variable aléatoire car c’est une application de Ω dans R X h (Ω, F, P) −→ R −→ R, c’est à dire h ◦R X : (Ω, F, P) −→ R. Puis la variable h(X) est P-intégrable ssi h est PX -intégrable ( R |h(x)|dPX < +∞) et alors Z Z E[h(X)] = h(X)dP = h(x)dPX (x). Ω R Pour cela, appliquer le théorème de transfert avec (X, A, µ) = (Ω, F, P), (Y, B) = (R, B(R)) et ϕ = X. Espérance d’une variable discrète Soit X : (Ω, F, P) → R avec X(Ω) discret. La loi de X est donnée par la mesure discrète X PX = P(X = x)δx. x∈X(Ω) 1.3. Espérance probabiliste 11 La loi est une somme de mesures de Dirac : en chaque atome x ∈ X(Ω), il y a la masse P(X = x). Alors X est intégrable ssi X E[|X|] = |x|P(X = x) < +∞ x∈X(Ω) P et dans ce cas E[X] = x∈X(Ω) xP(X = x) où la somme est au plus dénombrable car X(Ω) est discret (la v.a. X est discrète). Si h : R → R est mesurable, alors h(X) est une variable discrète, elle est intégrable ssi X |h(x)|P(X = x) < +∞. x∈X(Ω) Son espérance est alors X E[h(X)] = h(x)P(X = x). x∈X(Ω) Exemples : (espérance des v.a. discrètes classiques) Si X = c est une v.a. constante, sa loi est PX = δc. Son espérance est Z Z Z E[X] = XdP = cdP = c dP = cP(Ω) = c. Ω Ω Ω Z On le retrouve aussi avec l’expression E[X] = xdδc (x) = c. R Soit X de loi de Bernoulli de paramètre p notée b(p). Son espérance est E[X] = p × 1 + (1 − p) × 0 = p. Soit X de loi equirépartie sur l’ensemble fini {x1 ,... , xn }. Son espérance est x1 + · · · + xn E[X] =. n Soit X de loi binomiale de paramètres n, p notée B(n, p). Son espérance est E[X] = np. En effet n X E[X] = kCnk pk (1 − p)n−k = np. k=0 Soit X de loi géométrique de paramètre p ∈]0, 1[, notée G(p). Son espérance est E[X] = 1/p. En effet +∞ X 1 E[X] = k(1 − p)k−1 p =. k=1 p Soit X de loi de Poisson de paramètre λ. Son espérance est E[X] = λ. En effet +∞ X λk E[X] = ke−λ = λ. k=0 k! 12 Chapitre 1. c JCB – L3 IMAE – Université de La Rochelle Espérance d’une variable à densité Soit X : (Ω, F, P) → R une variable de densité f. La loi de X est donnée par la mesure de forme intégrale Z Z PX (A) = f dλ = f (x)dx, ∀A ∈ B(R) A A où f est une fonction mesurable positive d’intégrale 1. Alors X est intégrable ssi Z E[|X|] = |x|f (x)dx < +∞ R Z et dans ce cas E[X] = xf (x)dx. R R Si h : R → R est mesurable, alors h(X) est une variable aléatoire, elle est intégrable ssi R |h(x)|f (x)dx < +∞. Son espérance est alors Z E[h(X)] = h(x)f (x)dx. R Notons que l’intégrale de Lebesgue unifie les 2 cas : v.a. discrètes et v.a. à densité. La différence entre les deux cas n’était donc que formelle. Exemples : (Lois à densité classiques) Loi uniforme La var. X suit une loi uniforme sur l’intervalle [a, b] (−∞ < a < b < +∞) si elle a une densité f constante sur cet intervalle et nulle en dehors. Sa densité est alors 1 1/(b − a) si t ∈ [a, b], f (t) = 1[a,b] (t) = b−a 0 si t 6∈ [a, b]. b+a Son espérance est E[X] =. 2 En fait on peut définir une loi uniforme sur un ensemble borélien A ⊂ R quelconque 1 (pas forcément un intervalle), c’est la loi de densité λ(A) 1A. Loi exponentielle La v.a. X suit une loi exponentielle de paramètre α > 0, notée E(α) si elle admet pour densité : f (t) = αe−αt 1[0,+∞[ (t). Elle est utilisée pour modéliser un temps d’attente d’un phénomène aléatoire. Le temps d’attente moyen est alors E[X] = 1/α. Loi de Cauchy Une variable aléatoire réelle suit une loi de Cauchy de paramètre a ∈ R∗+ si elle admet pour densité : a 1 f (t) =. π a2 + t 2 1.4. Convergences monotone et dominée 13 Z a|x| Son espérance n’est pas définie car E[|X|] = dx = +∞, la fonction x/(1 + R π(a2 + x2 ) x2 ) ' 1/x n’est pas intégrable en ±∞. Loi normale (standard) Une variable aléatoire X0 suit la loi normale standard N (0, 1) si elle admet pour densité 1 2 t 7→ √ e−t /2. 2π Son espérance est E[X0 ] = 0. Une variable aléatoire X de loi normale N (m, σ 2 ) peut alors se définir comme une translatée et dilatée de X0 par X = m + σX0. Son espérance est E[X] = m + σE[X0 ] = m. 1.4 Convergences monotone et dominée On rappelle dans un contexte probabiliste les théorèmes fondamentaux de Calcul In- tégral : convergence monotone, lemme de Fatou et théorème de convergence dominée. On renvoie au cours de Calcul Intégral pour les preuves. Définition 1.4.1 On dit que Xn converge vers X presque sûrement (ps) si l’ensemble des ω ∈ Ω tel que Xn (ω) → X(ω) est de probabilité 1 : P(Xn → X) = 1. Théorème 1.4.1 (Convergence monotone, Beppo Levi) Soit Xn une suite croissante de v.a. positives (0 ≤ Xn ≤ Xn+1 ). Soit X = limn→+∞ Xn la limite ps de Xn dans [0, +∞]. Alors lim E[Xn ] = E[X]. (1.2) n→+∞ Lemme 1.4.1 (Fatou) Soit Xn une suite de v.a. positives. Alors E[lim inf Xn ] ≤ lim inf E[Xn ]. n→+∞ n→+∞ Théorème 1.4.2 (Convergence dominée) Soit Xn une suite de v.a. telle que Xn → X ps quand n → +∞. S’il existe une v.a. Y intégrable (E[|Y |] < +∞) telle que pour tout n, |Xn | ≤ Y ps alors lim E[Xn ] = E[X]. (1.3) n→+∞ Conséquence. Si la convergence est dominée, on peut intervertir limite et espérance. 14 Chapitre 1. c JCB – L3 IMAE – Université de La Rochelle 1.5 Moments des variables aléatoires Définition 1.5.1 Une v.a. X : (Ω, F, P) → R a un moment d’ordre p ≥ 1 ssi Z p E[|X| ] = |X|p dP < +∞. Ω Définition 1.5.2 Lp (Ω, F, P) = {X : (Ω, F, P) → R | E[|X|p ] < +∞} Lp (Ω) est un espace vectoriel normé avec pour norme kXk = (E[|X|p ])1/p. Les résultats généraux sur les espaces Lp (X, A, µ) se formulent dans le cadre probabiliste de la façon suivante. Proposition 1.5.1 On dispose de Inégalité de Hölder : kXY k1 ≤ kXkp kY kq pour p, q exposants conjugués (1/p + 1/q = 1).1 Inégalité de Cauchy-Schwarz : kXY k1 ≤ kXk2 kY k2 (p = q = 2). Inégalité de Minkowki : kX + Y kp ≤ kXkp + kY kp (1 ≤ p < +∞). Si une v.a. est bornée, elle admet des moments de tous les ordres. Si X possède un moment d’ordre r, pour tout n ≤ r, X en possède un d’ordre n. (Lp (Ω, F, P), k · kp ) est un e.v.n. complet, c’est à dire un espace de Banach. Exercice : Faire la preuve des points 4 et 5. En plus du moment d’ordre 1, lié à l’espérance, le plus important est le moment d’ordre 2, lié à la variance. Définition 1.5.3 (Variance) Si X ∈ L2 (Ω, F, P), on définit la variance de X par Var(X) = E[(X − E[X])2 ]. (1.4) p On définit aussi l’écart-type σX = Var(X). Remarque 1.5.1 L’espérance d’une v.a. aléatoire donne la valeur moyenne (au sens pro- babiliste) de la va. Sa variance (ou son écart-type) mesure la dispersion des valeurs de la v.a. autour de sa moyenne. Il est équivalent de dire que la variance de X est finie et que X admet un moment d’ordre 2 fini. La définition de la variance est unifiée entre les deux principaux cas (discret et à densité) grâce à la théorie de la mesure. 1.5. Moments des variables aléatoires 15 ∗ Si X est discrète P de domaine X(Ω) = {xi , i ∈ I}, avec I = {1,... , n} ou I = N , la loi de X est PX = i∈I P(X = xi )δxi et la variance en (1.4) devient X X Var(X) = (xi − E[X])2 PX {xi } = (xi − E[X])2 P(X = xi ). i∈I i∈I Si X est une v.a. de densité f alors la loi de X est la mesure de densité f , dPX = f (x)dx et la variance en (1.4) devient Z Var(X) = (x − E[X])2 f (x)dx. R Proposition 1.5.2 (Propriétés de la variance) Var(X) ≥ 0. Var(X) = E[X 2 ] − E[X]2 (Formule de Koenig). Var(aX) = a2 Var(X). Var(X + b) = Var(X) pour toute constante b ∈ R. Var(X) = 0 ssi X est constante ps (et vaut alors E[X]). La variance est un opérateur quadratique non linéaire. Démonstration : Le premier point est clair. On développe Var(X), en notant µ = E[X] : Var(X) = E (X − µ)2 = E (X 2 − 2Xµ + µ2 ) = E[X 2 ] − 2E[Xµ] + µ2 = E[X 2 ] − 2E[X]µ + µ2 = E[X 2 ] − 2µ2 + µ2 = E[X 2 ] − E[X]2. Pour les troisième et quatrième points : Var(aX) = E[(aX − E[aX])2 ] = E[(a(X − E[X]))2 ] = a2 E[(X − E[X])2 ] = a2 Var(X) Var(X +b) = E[(X +b−E[X +b])2 ] = E[(X +b−E[X]−b)2 ] = E[(X −E[X])2 ] = Var(X). Si X = c une constante ps alors E[X] = E[c] = c et E[X 2 ] = E[c2 ] = c2 si bien que Var(X) = c2 − c2 = 0. Réciproquement, si Var(X) = E[(X − E[X])2 ] = 0 alors la variable (X −E[X])2 , positive d’espérance nulle, est elle même nulle ps, c’est à dire X = E[X] ps. Définition 1.5.4 (Covariance) Soient X, Y deux variables aléatoires avec des variances finies, on définit la covariance de X et de Y par Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X]E[Y ]. 16 Chapitre 1. c JCB – L3 IMAE – Université de La Rochelle Remarque : (X, Y ) 7→ Cov(X, Y ) est une application bilinéaire. Si X ou Y est centrée alors Cov(X, Y ) = E[XY ]. Cov(X, X) = Var(X). En quelque sorte la variance Var est une forme quadratique sur L2 (Ω), d’application bilinéaire associée la covariance Cov. Proposition 1.5.3 Si X et Y sont deux v.a. avec des moments d’ordre 2 alors Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ). Démonstration : Il suffit de développer : Var(X + Y ) = E[(X + Y )2 ] − (E[X + Y ])2 = E[X 2 + 2XY + Y 2 ] − (E[X] + E[Y ])2 = E[X 2 ] + 2E[XY ] + E[Y 2 ] − (E[X])2 − 2E[X]E[Y ] − (E[Y ])2 = E[X 2 ] − (E[X])2 + E[Y 2 ] − (E[Y ])2 + 2E[XY ] − 2E[X]E[Y ] = Var(X) + Var(Y ) + 2 Cov(X, Y ). Attention, en général, on n’a pas Var(X + Y ) = Var(X) + Var(Y ). Prendre par exemple X = Y. Par contre on verra que c’est vrai si X et Y sont des v.a. indépendantes. Proposition 1.5.4 p | Cov(X, Y )| ≤ Var(X) Var(Y ). Démonstration : On applique l’inégalité de Cauchy-Schwarz | Cov(X, Y )| = E[(X − E[X])(Y − E[Y ])] p p ≤ E[(X − E[X])2 ]E[(Y − E[Y ])2 ] = Var(X) Var(Y ). Définition 1.5.5 Soit X, Y deux variables aléatoires, leur coefficient de corrélation est Cov(X, Y ) ρ(X, Y ) = p. Var(X) Var(Y ) On constate facilement avec la Proposition 1.5.4 que ρ(X, Y ) ∈ [−1, 1]. Proposition 1.5.5 Si ρ(X, Y ) = ±1 alors il y a un lien linéaire entre X et Y : Y = aX+b, pour a, b ∈ R. En plus, on montre que Cov(X, Y ) a= , b = E[Y ] − aE[X]. Var(X) 1.5. Moments des variables aléatoires 17 Démonstration : En effet, ρ(X, Y ) = ±1 s’il y a égalité dans l’inégalité de Cauchy- Schwarz de la preuve de la Prop 1.5.4. Il est connu que c’est le cas s’il y a une relation linéaire entre X et Y. Puis, Cov(X, Y ) = Cov(X, aX + b) = a Cov(X, X) + Cov(X, b) = a Var(X) + 0 car Cov(X, b) = E[Xb] − E[X]E[b] = 0. On en déduit a. Puis comme Y = aX + b, on a E[Y ] = aE[X] + b, d’où vient b aussi. Moralement, si ρ(X, Y ) est proche de 1 ou −1, alors c’est que X et Y prennent des valeurs « peu » dispersées par rapport à une relation linéaire affine et on pourra supposer que c’est le cas. On a donc à peu près Y ' aX + b. De plus, si ρ est proche de 1 alors a > 0 et si ρ est proche de −1 alors a < 0. Théorème 1.5.1 (Inégalité de Tchebychev) Si Var(X) existe, on a Var(X) P(|X − E[X]| ≥ t) ≤. t2 Démonstration : Par l’inégalité de Markov, on a E[|X − E[X]|2 ] Var(X) P(|X − E[X]| ≥ t) = P(|X − E[X]|2 ≥ t2 ) ≤ 2 ≤. t t2 Application : On jette 3600 fois un dé. Minorer la probabilité que le nombre d’apparitions du 1 soit compris strictement entre 480 et 720. Notons S le nombre d’apparitions du 1. On peut voir S comme la somme de 3600 v.a. de Bernoulli indépendantes de paramètre p = 1/6 (probabilité d’apparition du 1 au cours d’un lancer). Par un raisonnement classique, S suit une loi B(3600, p). On cherche ici 719 X k P(480 < S < 720) = C3600 pk (1 − p)3600−k. k=481 Ce résultat exact ne peut être calculé en pratique, même un ordinateur très puissant ne pouvant calculer tous ces coefficients binomiaux pour des chiffres aussi grands. On peut penser à approximer la loi B(3600, 1/6) par P(600) mais il resterait à calculer 719 X 600k e−600 , k=481 k! 18 Chapitre 1. c JCB – L3 IMAE – Université de La Rochelle ce qui n’est pas évident non plus. On a alors recours à l’inégalité de Tchebychev : notons que E[S] = np = 3600/6 = 600 et Var(X) = npq = 3600 × 5/6 × 1/6 = 500. Remarquons de plus que 480 < S < 720 ⇐⇒ −120 < S − 600 < 120. D’où P(480 < S < 720) = P(−120 < S − 600 < 120) = P(|S − 600| < 120) = 1 − P(|S − 600| ≥ 120) 500 ≥ 1− 1202 ≥ 0, 95833... Remarque 1.5.2 Les valeurs 480 et 720 sont symétriques par rapport à la moyenne 600 de la v.a. considérée, ce sont 600±120. Ce n’est pas nécessaire : on peut aussi appliquer l’in- égalité de Tchebychev sur un intervalle non centré autour de l’espérance. Il suffit pour cela d’utiliser le plus grand intervalle centré sur l’espérance qu’il contient. Ainsi pour minorer P(550 < S < 700), il suffit de remarquer que 550 < S < 700 ⇐= 550 | < {z S < 650} ⇐⇒ −50 < S − 600 < 50. intervalle centré autour de 600 et P(550 < S < 700) ≥ P(550 < S < 650) = P(−50 < S − 600 < 50) = P(|S − 600| < 50) = 1 − P(|S − 600| ≥ 50) 500 ≥ 1 − 2 = 0, 8. 50 Tableau comparatif des formules pour des v.a. discrètes et conti- nues à densité Lorsque les intégrales et les séries concernées sont absolument convergentes, on a le tableau comparatif suivant entre le cas général et les déclinaisons discrètes et à densité (cas continu) : 1.5. Moments des variables aléatoires 19 X Cas général Variable discrète Variable à densité f X(Ω) quelconque {x1 , x2 ,... , xk ,...} R ou un borélien X Z b R P(a ≤ X ≤ b) Ω 1[a,b] (X(ω))dP(ω) P(X = xk ) f (t) dt a≤xk ≤b a X Z x R F (x) = P(X ≤ x) Ω X(ω)dP(ω) P(X = xk ) f (t) dt xk ≤x −∞ +∞ X Z +∞ R E[X] 1]−∞,x] (X(ω))dP(ω) xk P(X = xk ) tf (t) dt k=1 −∞ +∞ X Z +∞ R E[g(X)] Ω g(X(ω))dP(ω) g(xk )P(X = xk ) g(t)f (t) dt k=1 −∞ +∞ X Z +∞ 2 x2k P(X t2 f (t) dt R 2 E[X ] Ω X(ω) dP(ω) = xk ) k=1 −∞ +∞ Z +∞ R X 2 2 Var(X) Ω (X(ω) − E[X])2 dP(ω) xk − E[X] P(X = xk ) t − E[X] f (t) dt k=1 −∞ 20 Chapitre 1. c JCB – L3 IMAE – Université de La Rochelle Chapitre 2 Vecteurs aléatoires 2.1 Rappels d’intégration Définition 2.1.1 (Espace produit) Soit (X, A, µ) et (Y, B, ν) deux espaces mesurés. Sur l’espace produit X × Y = {(x, y), x ∈ X, y ∈ Y }, on définit la tribu produit A ⊗ B qui est la tribu de X × Y engendrée par les produits A × B pour A ∈ A, B ∈ B. Il s’agit de la tribu la plus naturelle sur X × Y. Sur l’espace produit X × Y muni de la tribu produit A × B, on définit la mesure produit µ ⊗ ν de la façon suivante µ ⊗ ν(A × B) = µ(A)ν(B). Exemple. Sur Rn , la tribu borélienne de Rn coı̈ncide avec la tribu produit des tribus boréliennes des espaces facteurs R : B(Rn ) = B(R) ⊗ · · · ⊗ B(R). | {z } n fois Un borélien typique de Rn est le pavé [a1 , b1 ] × · · · × [an , bn ]. En générale en dimension n, on utilise la mesure de Lebesgue de dimension n, il s’agit de la mesure produit des mesures de Lebesgue sur R : λn = λ | ⊗ ·{z · · ⊗ λ}. Par exemple, n fois λn ([a1 , b1 ] × · · · × [an , bn ]) = (b1 − a1 ) × · · · × (bn − an ). 2.1.1 Théorèmes de Fubini Sous de bonnes conditions, le théorème de Fubini permet de permuter les intégrations dans des intégrales multiples. Ainsi les intégrales multiples, ou par rapport à des mesures produits, se ramènent à des intégrales simples emboitées. 21 22 Chapitre 2. c JCB – L3 IMAE – Université de La Rochelle Théorème 2.1.1 (Fubini-Tonelli) Soit f : (X × Y, A ⊗ B) → [0, +∞] une fonction avec µ et ν des mesures σ-finies sur Z(X, A) et (Y, B). Alors mesurable, Z 1) x 7→ f (x, ·)dν est A-mesurable et y 7→ f (·, y)dµ est B-mesurable. Y X 2) Puis, on a Z Z Z Z Z f d(µ ⊗ ν) = f (x, y)dν(y) dµ(x) = f (x, y)dµ(x) dν(y). X×Y X Y Y X Démonstration : cf poly de Calcul Intégral. Le théorème de Fubini-Tonelli ne s’applique qu’à des fonctions mesurables positives (sans conditions supplémentaires). Pour des fonctions quelconques, on a le résultat suivant Théorème 2.1.2 (Fubini) Soient (X, A, µ) et (Y, B, ν) des espaces σ-finis et f : (X × Y, A ⊗ B, µ ⊗ ν) → R ou C une fonction (µ ⊗ ν)-intégrable, çàd Z |f |d(µ ⊗ ν) < +∞. X×Y Alors 1) Pour µ-presque chaque x, f (x, ·) est ν-intégrable et pour ν-presque chaque y, f (·, y) est µ-intégrable. R R Posons I(x) = Y f (x, ·)dν et J(y) = X f (·, y)dµ, alors 2) I et J sont intégrables. 3) Z Z Z f d(µ ⊗ ν) = Idµ = Jdν. X×Y X Y On a donc en écrivant les variables d’intégration Z Z Z Z Z f (x, y) d(µ ⊗ ν) = f (x, y) dν(y)dµ(x) = f (x, y) dµ(x)dν(y). X×Y X Y Y X Démonstration : cf poly de Calcul Intégral. Remarque 2.1.1 En pratique, on raisonne de la façon suivante : 1) On montre que f est mesurable (arguments généraux), R 2) pour montrer que f est intégrable, on calcule |f |d(µ ⊗ ν) en appliquant Fubini- Tonelli à la fonction positive |f | : Z Z Z Z Z |f |d(µ ⊗ ν) = |f (x, y)|dµ dν = |f (x, y)|dν dµ Y X X Y en choisissant la forme la plus convenable (intégrer d’abord en x ou en y) pour faire le calcul. 2.1. Rappels d’intégration 23 3) On applique Fubini. Si F est positive, on peut intervertir directement les intégrations (par la version Fubini-Tonelli du résultat). Si f ne l’est pas, il faut vérifier l’intégrabilité en calculant l’intégrale de |f | en appliquant par exemple la version Fubini-Tonelli à |f | > 0 pour se ramener à des intégrales simples. L’utilisation du théorème de Fubini permet de ramener de nombreux calculs d’in- tégrales doubles (ou triples ou plus généralement multiples) à des calculs successifs d’in- tégrales simples (aussi bien pour des calculs effectifs que pour montrer des convergences d’intégrales). 2.1.2 Changement de variable Transfert Soient (X, A) et (Y, B) deux espaces mesurables et ϕ : (X, A) → (Y, B) une fonction mesurable. Si on considère une mesure µ sur (X, A) alors la mesure image ν = µϕ est une mesure sur (Y, B). On a un lien entre les intégrales par rapport à µ sur X et celle par rapport à ν = µϕ−1 = µϕ sur Y : Théorème 2.1.3 (Transfert) Soit h : (Y, B) → K = R, R̄, C mesurable alors h est ν- intégrable ssi h ◦ ϕ est µ-intégrable et Z Z h ◦ ϕdµ = hdν. (2.1) X Y Il s’agit d’une formule de changement de variable abstraite, très générale puisque la seule condition pour le changement de variable y = ϕ(x) est que ϕ soit mesurable ! Malheureusement, la nouvelle mesure ν = µϕ n’est pas explicite du tout. Ce résultat est donc essentiellement abstrait et difficile à utiliser pour des calculs explicites. On propose ici des résultats plus explicites, avec des conditions plus restrictives sur le changement de variables. Rappel : intégrale de Riemann Soit I un intervalle de R et ϕ : I → R strictement monotone et C 1 tel que ϕ0 ne s’annule pas sur I. Alors on a Z Z f (x)dx = f (ϕ−1 (y))|(ϕ−1 )0 (y)| dy. I ϕ(I) Pour cela, on pose y = ϕ(x) ou x = ϕ−1 (y) et en dérivant on a la relation entre dx et dy dx = (ϕ−1 )0 (y) c’est à dire dx = (ϕ−1 )0 (y)dy. dy 24 Chapitre 2. c JCB – L3 IMAE – Université de La Rochelle Changement de variable Définition 2.1.2 Soit F : D ⊂ Rn → D0 ⊂ Rn où D et D0 sont des ouverts. F est appelé un difféomorphisme si c’est une bijection de classe C 1 dont la bijection réciproque est aussi de classe C 1. Définition 2.1.3 La matrice jacobienne d’un changement de variable y = F (x) ⇐⇒ (y1 ,... , yn ) = (F1 (x1 ,... , xn ),... , (Fn (x1 ,... , xn )) est ∂F1 ∂F1 ∂x1 ··· ∂xn JF (x) = JF (x1 ,... , xn ) = .... . .. ∂Fn ∂Fn ∂x1 ··· ∂xn Le jacobien est le déterminant de la matrice jacobienne. La matrice jacobienne est la matrice des dérivées partielles. Rappel : Calculs des déterminants d’ordre 2 et 3 : a b = ad − bc, c d a1 b 1 c 1 Règle de Sarrus : a2 b2 c2 = a1 b2 c3 + b1 c2 a3 + c1 a2 b3 − a3 b2 c1 − b3 c2 a1 − c3 a2 b1. a3 b 3 c 3 Développements selon une ligne ou une colonne pour se ramener à des déterminants d’ordre inférieur. Théorème 2.1.4 (Changement de variable) Soit V un ouvert de Rd et ϕ un C 1 -difféomorphisme de V dans ϕ(V ) ⊂ Rd. Alors, on a les formules de changements de variables Z Z f (x)dλ(x) = f (ϕ−1 (y)) |Jϕ−1 (y)|dλ(y) Z V Zϕ(V ) h(ϕ(x))dλ(x) = h(y) |Jϕ−1 (y)|dλ(y) V ϕ(V ) pour toutes fonctions f et h mesurables telle que f est λ-intégrable et h ◦ ϕ est λ-intégrable. Démonstration : Admis. Coordonnées polaires et sphériques Un changement de variables utile dans le plan R2 est le changement de variables en polaire qui consiste à passer de (x, y) représentant des coordonneés cartésiennes dans un repère orthonormé à (r, θ) les coordonnées polaires correspondantes données par −1 x = r cos θ (r, θ) = ϕ(x, y) ⇐⇒ ϕ : , r ∈ [0, +∞[, θ ∈ [0, 2π[. y = r sin θ 2.1. Rappels d’intégration 25 On remplace alors dxdy par rdrdθ car le jacobien du changement de variable est r : cos θ −r sin θ Jϕ−1 (r, θ) = = r cos2 θ + r sin2 θ = r. sin θ r cos θ Ainsi : Z Z Z ∞ Z ∞ f (x, y)dxdy = f (x, y)dxdy R2 −∞ −∞ Z Z = f (r cos θ, r sin θ)rdrdθ. [0,+∞[×[0,2π[ Exemples : +∞ 2 √ Z Normalisation de la loi normale e−x /2 dx = 2π. Z +∞ −∞ −x2 /2 Notons I = e dx et montrons que I 2 = 2π. On a −∞ Z +∞ Z +∞ −x2 /2 2 /2 I 2 = e dx × e−y dy −∞ −∞ Z +∞ Z +∞ Z Z −x2 /2 −y 2 /2 2 +y 2 )/2 = e e dxdy = e−(x dxdy −∞ −∞ R×R Z 2π Z +∞ 2 /2 = e−r rdrdθ 0 0 Z 2π Z +∞ h i+∞ −r2 /2 −r2 /2 = dθ re dr = 2π −e = 2π 0 0 0 où on a utilisé le théorème de Fubini à la 2ème ligne puis on a fait un changement de variables en polaires à la 3ème ligne. Aire d’un disque : ∆ = {(x, y) | x2 + y 2 ≤ R2 } : Z 2π Z R R r2 ZZ ZZ λ2 (∆) = dxdy = rdrdθ = dθ rdr = 2π = πR2. B(0,R) [0,R]×[0,2π[ 0 0 2 0 En dimension 3, le changement de variables utile est le changement en coordonnées sphériques donné par x = r cos θ cos ϕ −1 (r, θ, ϕ) = φ(x, y, z) ⇐⇒ φ : y = r cos θ sin ϕ z = r sin θ où θ ∈] − π/2, π/2[ est la latitude, ϕ ∈ [0, 2π[ est la longitude et r ∈ [0, +∞[ la distance à l’origine. 26 Chapitre 2. c JCB – L3 IMAE – Université de La Rochelle Le jacobien du changement de variable est cos θ cos ϕ −r sin θ cos ϕ −r cos θ sin ϕ Jφ−1 (r, θ, ϕ) = cos θ sin ϕ −r sin θ sin ϕ r sin θ cos ϕ = r2 cos θ. sin θ r cos θ 0 Ainsi : Z Z Z f (x, y, z)dxdydz 3 Z ZR Z = f (r cos θ cos ϕ, r cos θ sin ϕ, r sin θ)r2 cos θdrdθdϕ. [0,+∞[×[0,2π[×]− π2 , π2 [ Ce type de changement de variable (polaire en dimension 2, sphérique en dimension 3) se généralise en dimension n avec x1 = r cos θ1 cos θ2... cos θn−2 cos θn−1 , x2 = r cos θ1 cos θ2... cos θn−2 sin θn−1 , x = r cos θ1 cos θ2... cos θn−3 sin θn−2 , 3 x4 = r cos θ1 cos θ2... cos θn−4 sin θn−3 ,... =... x = r cos θ1 sin θ2 , n−1 xn = r sin θn. Exemple : Calcul du volume d’une boule euclidienne de rayon R est ZZZ ZZZ λ3 (B(0, R)) = dxdydz = r2 cos θdrdθdϕ B(0,R) [0,R]×]−π/2,π/2[×[0,2π[ 2π π/2 R R r3 Z Z Z 2 π/2 = dϕ cos θdθ r dr = 2π[sin θ]−π/2 0 −π/2 0 3 0 4 3 = πR 3 où λ3 désigne la mesure de Lebesgue en dimension 3. 2.2 Vecteurs aléatoires Définition 2.2.1 On appelle vecteur aléatoire toute application de (Ω, F, P) dans (Rn , B(Rn )) mesurable. Définition 2.2.2 Si on note pi : Rn → R la i-ème projection qui à x = (x1 ,... , xn ) associe pi (x) = xi , on appelle i-ème marginale du vecteur X la variable aléatoire Xi = pi (X) X = (X1 ,... , Xn ), Xi est la i-ème marginale. 2.2. Vecteurs aléatoires 27 Définition 2.2.3 La loi du vecteur aléatoire X est la mesure image sur Rn de la probabilité par X : PX (A1 ×· · ·×An ) = P(X ∈ A1 ×· · ·×An ) = P(X1 ∈ A1 ,... , Xn ∈ An ), Ai ∈ B(R), 1 ≤ i ≤ n. C’est une mesure de probabilité dans (Rn , B(Rn )). Définition 2.2.4 Un vecteur aléatoire X est discret si l’ensemble de ses valeurs X(Ω) est discret dans Rn. Un vecteur aléatoire X de Rn est de loi à densité si sa loi est absolument continue par rapport à la mesure de Lebesgue dans Rn : PX λn. Autrement dit, sa loi s’exprime comme une intégrale (multiple) : Z dPX (x) = f (x1 ,... , xn )dx1... dxn ⇐⇒ PX (A) = f (x1 ,... , xn )dx1... dxn , A ∈ B(Rn ). A On vérifie que comme PX (Rn ) = P(X ∈ Rn ) = 1, une densité en dimension n satisfait f (x1 ,... , xn ) ≥ 0 et Z f (x1 ,... , xn )dx1... dxn = 1. Rn Proposition 2.2.1 Si (X, Y ) est un couple de loi PX,Y = µ alors les lois marginales PX et PY de X et Y s’obtiennent par PX (A) = µ(A × R), P(Y ∈ B) = µ(R × B), A, B ∈ B(R). Démonstration : C’est évident si on remarque que {X ∈ A} = {(X, Y ) ∈ A × R}. Autrement dit les lois marginales s’obtiennet par intégration partielle, qu’elle soit dis- crète ou continues comme on le voit avec les cas particuliers suivants : Proposition 2.2.2 (Cas discret) Si (X, Y ) est un couple aléatoire de v.a. discrètes de domaine (X, Y )(Ω) = {(x1 , y1 ),... , (xi , yi ),...}, les domaines des marginales X, Y s’ob- tiennent par projection : X(Ω) = p1 (X, Y )(Ω) = {xi , i ∈ I}, Y (Ω) = p2 (X, Y )(Ω) = {yi , i ∈ I} où p1 , p2 sont les première et seconde projections R2 → R R2 → R p1 : , p2 :. (x, y) 7→ x (x, y) 7→ y Les lois marginales PX , PY (i.e. les lois de X et Y, ses marginales) sont données par : X ∀xi ∈ X(Ω), PX (xi ) = P(X = xi ) = P(X = xi , Y = yj ), yj ∈Y (Ω) X ∀yi ∈ Y (Ω), PY (yj ) = P(Y = yj ) = P(X = xi , Y = yj ). xi ∈X(Ω) 28 Chapitre 2. c JCB – L3 IMAE – Université de La Rochelle Ici, l’intégration partielle est une somme. Démonstration : Il suffit de faire la preuve pour le domaine et les probabilités de X. Or pour i fixé {X = xi } est la réunion de la famille dénombrable d’évènements deux à deux disjoints {X = xi , Y = yj } pour tous les j tels que yj ∈ Y (Ω) car {ω; Y (ω) = yj }j est une partition de Ω. On conclut alors par σ-additivité de P : [ P(X = xi ) = P {X = xi } ∩ {Y = yj } j [ X = P {X = xi , Y = yj } = P(X = xi , Y = yj ). j yj ∈Y (Ω) Puis {x1 ,... , xi ,...} et {y1 ,... , yj ,...} sont bien d’une part les projections de (X, Y )(Ω) sur les premier et second facteurs de R2 = R × R et d’autre part les domaines de X et Y. Proposition 2.2.3 (Cas à densité) Si (X, Y ) est un couple aléatoire de loi de densité f , ses lois marginales PX , PY sont à densité de densités données par : Z +∞ fX (x) = f (x, y) dy, −∞ Z +∞ fY (y) = f (x, y) dx. −∞ Les densités fX de X et fY de Y sont appelées les densités marginales. Démonstration : La preuve est une application directe du théorème de Fubini-Tonelli sur les intégrales doubles une fois qu’on a remarqué que PX (A) = P(X ∈ A) = P(X ∈ A, Y ∈ R) = P((X, Y ) ∈ A × R) = P(X,Y ) (A × R) Z Z Z Z = f (x, y) dxdy = f (x, y)dy dx = fX (x)dx A×R A R A R +∞ avec la densité anoncée fX (x) = −∞ f (x, y)dy. Il s’applique sans problème car par défini- tion d’une densité, f est positive (et même intégrable sur R2 ). Idem pour Y. De même si X = (X1 ,... , Xn ) est de densité f , la i-ème marginale Xi est de densité Z fXi (xi ) = f (x1 ,... , xn )dx1... dxi−1 dxi+1... dxn. Rn−1 Remarque 2.2.1 Attention, si la connaissance de la loi du couple ou d’un vecteur permet d’en déduire celle des lois marginales, la réciproque est en général fausse. Voir l’exemple suivant. 2.2. Vecteurs aléatoires 29 Exemples : Pour des variables discrètes. On donne le tableau de P(X = xi , Y = yj ) : X \ Y y1 = −1 y2 = 2 y3 = 3 y4 = 5 x1 = 0 0, 1 0, 05 0, 15 0 0, 3 x2 = 2 0, 05 0, 2 0, 05 0, 1 0, 4 x3 = 3 0, 1 0 0, 1 0, 1 0, 3 0, 25 0, 25 0, 3 0, 2 1 On en déduit la loi de X : X(Ω) = {0, 2, 3} et P(X = 0) = 0, 3, P(X = 2) = 0, 4, P(X = 3) = 0, 3 et celle de Y : Y (Ω) = {−1, 2, 3, 5} et P(Y = −1) = 0, 25, P(Y = 2) = 0, 25, P(Y = 3) = 0, 3, P(Y = 5) = 0, 2. Notons qu’il n’y a pas unicité des couples (X, Y ) donnant les mêmes marginales. Ainsi, le couple suivant différent du précédent partage les mêmes marginales. X \ Y y1 = −1 y2 = 2 y3 = 3 y4 = 5 x1 = 0 0, 1 0, 1 0 0, 1 0, 3 x2 = 2 0, 1 0, 1 0, 1 0, 1 0, 4 x3 = 3 0, 05 0, 05 0, 2 0 0, 3 0, 25 0, 25 0, 3 0, 2 1 Exemples : Pour des variables à densité. Considérons f (x, y) = 13 1[0,1]×[−1,2] (x, y). Il s’agit bien d’une densité car f est positive et Z Z Z Z 1 f (x, y) dxdy = 1[0,1]×[−1,2] (x, y) dxdy R2 3 2 Z ZR 1 = 1[0,1] (x) × 1[−1,2] (y) dxdy 3 R2 1 +∞ Z Z +∞ = 1[0,1] (x) dx 1[−1,2] (y) dy 3 −∞ −∞ | {z } | {z } =1 =2−(−1)=3 = 1. Considérons un couple (X, Y ) de loi de densité f. La loi de X est alors de densité donnée par : Z +∞ 1 +∞ 1 +∞ Z Z fX (x) = f (x, y)dy = 1[0,1]×[−1,2] (x, y)dy = 1[0,1] (x) × 1[−1,2] (y)dy −∞ 3 −∞ 3 −∞ 30 Chapitre 2. c JCB – L3 IMAE – Université de La Rochelle Z +∞ 1 = 1[0,1] (x) × 1[−1,2] (y)dy 3 −∞ | {z } =1 = 1[0,1] (x). De la même façon, fY (y) = 13 1[−1,2] (y). 2 +2xy+5y 2 1 −x Soit f (x, y) = 3π e 6. Il s’agit d’une densité car Z Z Z Z dxdy x2 +2xy+5y 2 f (x, y)dxdy = e− 6 R2 2 3π Z ZR Z Z (x+y)2 +4y 2 dxdy (x+y)2 4y 2 dxdy = e − 6 = e− 2×3 e− 2×3 2 3π R2 3π Z RZ Z Z (x+y)2 4y 2 dy z2 4y 2 dy = e− 2×3 dx e− 2×3 = e− 2×3 dz e− 2×3 3π 3π ZR R R R √ Z 4y 2 dy y2 dy = 2π × 3e− 2×3 = e− 2×(3/4) p =1 R 3π R 2π × 3/4 Z t2 √ en utilisant que e− 2σ2 dt = 2πσ 2 d’après la normalisation de la loi normale N (0, σ 2 ). R Considérons un couple (X, Y ) de densité f , alors X est de densité √ ( √1 x+ 5y)2 +4x2 /5 Z Z Z dy −x 2 +2xy+5y 2 − 5 dy fX (x) = f (x, y)dy = e 6 = e 6 R R 3π R 3π √ ( √1 x+ 5y)2 √ 2π × 3 Z Z 5 4x2 dy 4x2 z2 dz 4x2 = e− 6 e− 30 = e− 30 e− 2×3 √ = e− 30 √ R 3π R 3π 5 3π 5 1 4x2 = p e− 30. 15π/2 et Y de densité Z Z Z Z 2 − x +2xy+5y 2 dx (x+y)2 +4y 2 dx (x+y)2 4y 2 dx fY (y) = f (x, y)dx = e 6 = e− 6 = e− 2×3 e− 6 3π 3π 3π R R √ R R 2π × 3 Z 4y 2 (x+y) dx 2 4y 2 1 4y 2 = e− 6 e− 2×3 = e− 6 =p e− 6. R 3π 3π 3π/2 Les marginales X et Y sont donc de lois N (0; 15/4) et N (0; 3/4). Généralisation au cas gaussien. Soit Φ : Rn → R une forme quadratique positive. Notons Z C= e−Φ(x1 ,...,xn ) dx1... dxn. Rn 2.3. Indépendance de variables aléatoires 31 Alors tout vecteur aléatoire de densité 1 −Φ(x1 ,...,xn ) f (x1 ,... , xn ) = e C est dit gaussien. Ses marginales sont des v.a. gaussiennes en dimension 1. On traitera ce type de vecteur en détail plus tard. 2.3 Indépendance de variables aléatoires 2.3.1 Définition Cette notion a déjà été abordée en L2. Il s’agit d’une notion fondamentale en probabilité. Rappelons d’abord que Définition 2.3.1 (Indépendance d’évènements) Deux évènements A, B ∈ F d’un espace de probabilité (Ω, F, P) sont indépendants si P(A ∩ B) = P(A)P(B). On note A ⊥ ⊥ B. n évènements observables A1 ,... , An sont mutuellement indépendants si pour toute sous-famille Ai1 ,... , Aip avec 1 ≤ i1 < · · · < ip ≤ n, on a P(Ai1 ∩ · · · ∩ Aip ) = P(Ai1 ) × · · · × P(Aip ). Une suite infinie d’évènements est dite (mutuellement) indépendante si toute sous- famille finie est formée d’évènements mutuellement indépendants (au sens précédent). En particulier, A et B incompatibles ne peuvent pas être indépendants à moins que l’un des deux ne soit de probabilité nulle. Sinon P(A ∩ B) = P(∅) = 0, tandis que P(A)P(B) > 0. Il ne faut donc pas confondre les deux notions. La notion d’indépendance se généralise aux tribus de la façon suivante : Définition 2.3.2 (Indépendance de tribus) Deux tribus F et G sur un même espace Ω sont indépendantes si pour tout A ∈ F et B ∈ G on a P(A ∩ B) = P(A)P(B). On note toujours F ⊥ ⊥ G. Une famille de tribus (Fi )i∈I est dite indépendante si pour tous Ai ∈ Fi , la famille d’évènements (Ai )i∈I est (mutuellement) indépendante. Enfin en associant à chaque v.a. X une tribu σ(X), on définit l’indépendance pour des va. 32 Chapitre 2. c JCB – L3 IMAE – Université de La Rochelle Définition 2.3.3 (Tribu engendrée par une va) Soit X une v.a. sur l’espace de pro- babilité (Ω, F, P) alors la tribu engendrée par X est celle engendrée par les ensembles X −1 (A) pour tout A ∈ B(R). On la note σ(X). Heuristiquement, la tribu σ(X) est la tribu qui contient toutes les informations liées à la v.a. X. Définition 2.3.4 (Indépendance de va) Deux v.a. X et Y sont indépendantes ssi leur tribu engendrée sont indépendantes. On note toujours σ(X) ⊥ ⊥ σ(Y ). Toute suite (Xi )i∈I de v.a. est indépendante ssi leur tribu associée sont indépendantes. 2.3.2 Critères et exemples Par définition des tribus engendrées par les va, il est immédiat de voir que des critères plus concrets d’indépendance sont : Proposition 2.3.1 (Indépendance de va) Indépendance de deux va Deux v.a. X, Y sont dites indépendantes si pour A, B ∈ B(R), mesurables de R, les évènements {X ∈ A}, {Y ∈ B} sont indépendants : P(X ∈ A, Y ∈ B) = P(X ∈ A) × P(Y ∈ B). Indépendance d’une famille finie de va Les m variables aléatoires X1 ,... , Xm sont dites (mutuellement) indépendantes si pour tout boréliens A1 ,... , Am , les évènements {X1 ∈ A1 },... , {Xm ∈ Am } sont mutuellement indépendants : P(X1 ∈ A1 ,... , Xm ∈ Am ) = P(X1 ∈ A1 )... P(Xm ∈ Am ). Indépendance d’une suite de va Une suite (Xi )i∈N de v.a. est dite indépendante si toute sous-suite finie de (Xi )i∈N , la propriété précédente est vraie. On a d’autres critères pour l’indépendance des va. Ils portent sur la structure de la loi du vecteur associé, considérée comme mesure dans l’espace produit Rn (cf. la définition 2.1.1). Proposition 2.3.2 Un vecteur aléatoire X = (X1 ,... , Xn ) est à composantes indépen- dantes ssi sa loi PX est une loi produit (de ses lois marginales) : PX = PX1 ⊗ · · · ⊗ PXn. (2.2) Démonstration : Soit B = B1 × · · · × Bn pavé de B(Rn ), alors P(X1 ,...,Xn ) (B) = P((X1 ,... , Xn ) ∈ B) = P((X1 ,... , Xn ) ∈ B1 × · · · × Bn ) = P(X1 ∈ B1 ,... , Xn ∈ Bn ) = P(X1 ∈ B1 )... P(Xn ∈ Bn ) 2.3. Indépendance de variables aléatoires 33 = PX1 (B1 ) × · · · × PXn (Bn ) = (PX1 ⊗ · · · ⊗ PXn )(B1 × · · · × Bn ) = (PX1 ⊗ · · · ⊗ PXn )(B). Comme les pavés B = B1 × · · · × Bn engendrent B(Rn ) et P(X1 ,...,Xn ) et PX1 ⊗ · · · ⊗ PXn coı̈ncident sur les pavés alors ces mesures coı̈ncident sur B(Rn ). Pour la réciproque, prendre B un pavé et remonter les étapes. Corollaire 2.3.1 Les v.a. X1 ,... , Xn sont indépendantes ssi pour tout x1 ,... , xn , on a P(X1 ≤ x1 ,... , Xn ≤ xn ) = P(X1 ≤ x1 ) × · · · × P(Xn ≤ xn ). Démonstration : Appliquer le résultat précédent avec la famille d’ensembles B =] − ∞, x1 ] × · · · ×] − ∞, xn ]. C’est suffisant car on montre que cette famille d’ensembles en- gendre la tribu B(Rn ). Remarque 2.3.1 Dans les cas discret et à densité, on peut préciser les critères d’indépen- dances : – Les v.a. discrètes X et Y sont indépendantes si et seulement si ∀xi ∈ X(Ω), ∀yj ∈ Y (Ω), P(X = xi , Y = yj ) = P(X = xi ) P(Y = yj ). (2.3) – Les v.a. X, Y de densités respectives f et g sont indépendantes si et seulement si le couple (X, Y ) est de densité f ⊗ g : R2 → R, (x, y) 7→ f (x)g(y). (2.4) Remarque 2.3.2 Une conséquence importante : si on connait les lois de X et Y , des variables supposées indépendantes, on peut reconstruire la loi du couple (X, Y ) à partir des marginales par (2.2) (dans le cas discret par (2.3) et dans le cas à densité par (2.4)). Insistons sur le fait que ce n’est pas vrai en général quand X et Y ne sont pas indépendantes. Dans les deux exemples de la page 29, X et Y ne sont pas indépendantes car par exemple pour le premier : P(X = 2, Y = 2) = 0, 2, tandis que P(X = 2) × P(Y = 2) = 0, 4 × 0, 25 = 0, 1. et pour le second : P(X = 3, Y = 5) = 0, tandis que P(X = 3) × P(Y = 5) = 0, 3 × 0, 2 = 0, 06. 34 Chapitre 2. c JCB – L3 IMAE – Université de La Rochelle Exemples : On donne le tableau de la loi d’un couple (X, Y ) en donnant les probabilités ponctuelles P(X = xi , Y = yj ) : X \ Y y1 y2 y3 x1 0, 12 0, 08 0, 20 0, 4 x2 0, 18 0, 12 0, 30 0, 6 0, 3 0, 2 0, 5 = 1 On vérifie ici que X et Y sont indépendantes car pour tout i = 1, 2 et j = 1, 2, 3, on a P(X = xi , Y = yj ) = P(X = xi ) P(Y = yj ). Considérons le couple (X, Y ) de loi donnée par la densité f(X,Y ) (x, y) = 31 1[0,1]×[−1,2] (x, y). On a vu que X et Y avaient pour densité fX (x) = 1[0,1] (x) et fY (y) = 13 1[−1,2] (y). On a alors 1 1 f(X,Y ) (x, y) = 1[0,1]×[−1,2] (x, y) = 1[0,1] (x) × 1[−1,2] (y) = fX (x)fY (y). 3 3 Les variables X et Y sont donc indépendantes. 2 2 1 − x +2xy+5y Soit (X, Y ) le couple aléatoire de loi donnée par la densité f(X,Y ) (x, y) = 3π e 6. On a vu que les densités marginales sont 1 4x2 1 4y 2 fX (x) = p e− 30 , fY (y) = p e− 6. 15π/2 3π/2 On a alors 1 4x2 1 4y 2 1 − x2 +2xy+5y2 fX (x)fY (y) = p e− 30 × p e− 6 6= e 6 = f(X,Y ) (x, y). 15π/2 3π/2 3π Dans ce cas, X et Y ne sont pas indépendantes. Proposition 2.3.3 Soient Xi 1 ≤ i ≤ n, des v.a. indépendantes et hi : R → C des fonctions boréliennes telles que hi (Xi ) soit P-intégrable. Alors ni=1 hi (Xi ) est P-intégrable Q et n n Y Y E[ hi (Xi )] = E[hi (Xi )]. i=1 i=1 Démonstration : On utilise le théorème de transfert, l’indépendance et Fubini : " n # Z Y n Y E hi (Xi ) = hi (xi )dP(X1 ,...,Xn ) (x1 ,... , xn ) i=1 i=1 n Z Y = hi (xi )dPX1 (x1 )... dPXn (xn ) i=1 2.3. Indépendance de variables aléatoires 35 Z Z = h(x1 )dPX1 (x1 ) × · · · × h(xn )dPXn (xn ) n Y = E[hi (Xi )]. i=1 Corollaire 2.3.2 Soient X1 ,... , Xn des v.a. réelles (ou complexes) indépendantes avec des moments d’ordre 1 E[X1... Xn ] = E[X1 ]... E[Xn ]. Démonstration : Appliquer le résultat précédent avec la fonction hi (x) = x. 2 La réciproque R +1 3 est fausse : soit X1 de loi uniforme sur [−1, 1] et X2 = X1 , on a E[X1 X2 ] = 3 E[X1 ] = −1 x1 dx1 = 0 et E[X1 ] = 0 si bien qu’on a E[X1 X2 ] = 0 = E[X1 ]E[X2 ] mais X1 et X2 ne sont pas indépendantes car par exemple P(X1 ∈ [0, 1/2], X2 ∈ [0, 1/4]) = 1/4, P(X1 ∈ [0, 1/2]) × P(X2 ∈ [0, 1/4]) = 1/8. 2.3.3 Covariance et indépendance Proposition 2.3.4 Soient X et Y deux vecteurs aléatoires indépendants de variances fi- nies. Alors Cov(X, Y ) = 0. Démonstration : Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])] = E[XY − Y E[X] − XE[Y ] − E[X]E[Y ]] = E[XY ] − E[Y E[X]] − E[XE[Y ]] + E[X]E[Y ] = E[XY ] − E[Y ]E[X] − E[X]E[Y ] + E[X]E[Y ] = E[XY ] − E[X]E[Y ] = 0 car par indépendance E[XY ] = E[X]E[Y ]. La réciproque est fausse : si X et Y sont de covariance nulle alors ils sont nécéssaire- ment indépendants. Cependant dans le cas de variables X, Y gaussiennes, on verra que la réciproque est vraie. Pour la somme d’une variance, on déduit Corollaire 2.3.3 Si X et Y sont deux v.a. indépendantes avec des moments d’ordre deux alors Var(X + Y ) = Var(X) + Var(Y ). 36 Chapitre 2. c JCB – L3 IMAE – Université de La Rochelle Démonstration : C’est immédiat puisque Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ) et Cov(X, Y ) = 0 quand X ⊥ ⊥Y. Chapitre 3 Somme de deux variables aléatoires indépendantes et convolution 3.1 Convolution de mesures On considère un espace vectoriel mesurable (X, A). Il y a donc sur X une structure d’espace vectoriel et une tribu. L’exemple typique est R ou Rn. Définition 3.1.1 Soient µ et ν deux mesures quelconques sur un espace vectoriel mesu- rable (X, A). La convolée µ ∗ ν de ces deux mesures est Z µ ∗ ν(A) = µ(A − x)dν(x) (3.1) X où A − x = {a − x | a ∈ A}. On vérifie facilement que µ ∗ ν est une mesure (la σ-additivité vient de celle de µ et du théorème de convergence monotone). Proposition 3.1.1 La convolution est commutative : µ ∗ ν = ν ∗ µ. Démonstration : En effet par le théorème de Fubini, on a Z Z µ ∗ ν(A