Probabilité et Statistique 2023 PDF

Probabilité et statistique Yoav Zemel Adapté des cours de D. Kuonen, A. C. Davison, V. M. Panaretos, G. Dehaene, E. Thibaud, E. Koch, et M. Wilhelm 1 Introduction 2 Votre avenir... Une mer de données... et plein d’emplois intéressants pour ceux qui peuvent la 3 naviguer... Meilleurs emplois 2019 4 Pires emplois 2019 5 Statistique : définition ? utiliser les mathématiques pour extraire des informations à partir de données en présence d’ incertitude. 6 Statistique : objectifs Entre autres : Description de données. Modélisation de données (ajustement d’un modèle statistique) pour, par exemple : effectuer des prévisions (météorologiques, climatiques, économiques, politiques,...) ; analyser le risque associé à certains phénomènes (calcul de la probabilité d’événements extrêmes,...). Evaluation de l’exactitude d’une théorie scientifique (en physique, chimie, médecine, pharmacologie,...) en comparant les implications de la théorie et les données. 7 Mauvaise utilisation de la statistique 8 Et les probabilités ? La théorie des probabilités nous aide pour la partie “incertitude”. Il s’agit de la discipline mathématique qui étudie les phénomènes aléatoires (ou stochastiques). Elle sert de base permettant de construire des modèles statistiques prenant en compte le caractère aléatoire du phénomène étudié de manière adéquate. Elle fournit également un cadre et de nombreux outils permettant de comprendre et quantifier l’effet de la présence d’aléas sur les informations (conclusions) que l’on extrait des données. 9 Etapes de la démarche statistique On peut identifier quatre étapes majeures dans la démarche statistique : Planification de l’expérience (description théorique du problème, élaboration du plan expérimental) ; Recueil des données ; Analyse des données ; Présentation et interprétation des résultats, suivies de conclusions pratiques et d’actions potentielles, toute en prenant en compte l’incertitude. Dans ce cours on va se concentrer sur l’analyse des données. 10 Quantifier l’incertitude 11 Analyse de données L’analyse de données est souvent décrite comme comprenant deux phases : Phase 1 : l’analyse exploratoire (“statistique descriptive”) a recours principalement à des méthodes simples, flexibles, souvent graphiques. Elle permet d’étudier la structure des données et de détecter des structures spécifiques (tendances, formes, observations atypiques) Exemples : dans quel intervalle la majorité de vos tailles se situe-t-elle ? est-ce que vos tailles et vos poids sont associées ? y-a-t il des personnes “extraordinaires” ? Cette phase n’utilise pas des idées probabilistes de façon explicite, elle suggère des hypothèses de travail et des modèles pouvant être formalisés et vérifiés dans la Phase 2 (en principe pas avec les mêmes données !) Phase 2 : l’inférence statistique conduit à des conclusions statistiques en utilisant des notions probabilistes — des méthodes de test, d’estimation et de prévision 12 Le camping car du professeur 13 Le camping car du professeur 14 Le camping car du professeur 15 Structure du cours Ce cours sera divisé en quatre chapitres : 1. Statistique exploratoire (2 semaines)—types de données, étude graphique des variables, synthèses numériques de distribution, le boxplot, la loi normale 2. Calcul des probabilités (6 semaines)—probabilités d’événements, variables aléatoires, valeurs caractéristiques, théorèmes fondamentaux 3. Idées fondamentales de la statistique (4–5 semaines)—modèles statistiques et estimation des paramètres, estimation par intervalles, tests statistiques, tests khi-deux 4. régression linéaire (2–1 semaines)—introduction, principe des moindres carrées, régression linéaire simple, régression linéaire multiple 16 Matériel de cours De bons livres de probabilités sont Ross, S. M. (2007) Initiation aux probabilités. PPUR : Lausanne Dalang, R. C. et Conus, D. (2018) Introduction à la théorie des probabilités, deuxième édition. PPUR : Lausanne mais il y a aussi beaucoup d’autres excellents livres de base : regarder au RLC En statistiques : Introduction à la statistique, S. Morgenthaler, PPUR, 2014. Notes de cours en ligne 17 1. Statistique exploratoire 18 1.1 Idées de base 19 Population, échantillon Imaginons qu’une étude statistique s’intéresse à une caractéristique spécifique (une variable statistique, par exemple le poids) chez les individus d’un certain type (par exemple les étudiants de l’EPFL). Population : tout ensemble sur lequel porte une étude statistique Echantillon : sous-ensemble de la population Illustration: Population : ensemble des étudiants à l’EPFL Echantillon : ensemble des étudiants de 2me année à l’EPFL Individu : Un(e) étudiant(e) de 2me année Donnée : le poids de l’individu 20 Types de variables Une variable peut être quantitative ou qualitative Une variable quantitative peut être discrète (souvent entière) ou continue : variables quantitatives discrètes : nombre d’enfants dans une famille variables quantitatives continues : poids en kilos Une variable qualitative (catégorielle) peut être nominale (non-ordonnée) ou ordinale (ordonnée) variables qualitatives nominales : le groupe sanguin (A, B, AB, O) variables qualitatives ordinales : le plat du jour (bon, passable, mauvais) Parfois on convertit des variables quantitatives en variables catégorielles : la taille en cm ⇒ (S, M, L,...) 21 1.2 Étude graphique de variables 22 Étude d’une variable qualitative Le groupe sanguin de 25 donneurs a été relevé : AB B A O B O B O A O B O B B B A O AB AB O A B AB O A La table de fréquences est la suivante : Classe Fréquence absolue Fréquence relative A 5 5/25 = 0.2 B 8 8/25 = 0.32 O 8 8/25 = 0.32 AB 4 4/25 = 0.16 Total 25 25/25=1 23 Diagrammes en camembert et en barres Diagramme en barres (bar plot) 8 Diagramme en camembert/en secteurs (pie chart) 6 B A 4 2 AB 0 O A B O AB Nous jugeons mieux les distances que les angles, donc le diagramme en barres est meilleur (et aussi plus flexible) 24 Diagramme en barres Death Rates in Virginia (1940) 100 50−54 55−59 60−64 65−69 80 70−74 60 40 20 0 Rural Male Rural Female Urban Male Urban Female 25 Histogramme Un histogramme montre le nombre d’observations dans des classes issues d’une division en intervalles de même longueur h > 0 avec un point de départ a ∈ R. L’histogramme normalisé est l’histogramme divisé par nh. Pour construire un histogramme, il est utile de disposer d’une table de fréquences. Celle-ci peut être considérée comme un résumé des valeurs observées. 26 Histogramme : exemple Les vitesses (en 1000km/s) avec lesquelles n = 82 galaxies de la région couronne boréale sont en train de diverger de notre galaxie. 9.172 9.350 9.483 9.558 9.775 10.227 10.406 16.084 16.170 18.419 18.552 18.600 18.927 19.052 19.070 19.330 19.343 19.349 19.440 19.473 19.529 19.541 19.547 19.663 19.846 19.856 19.863 19.914 19.918 19.973 19.989 20.166 20.175 20.179 20.196 20.215 20.221 20.415 20.629 20.795 20.821 20.846 20.875 20.986 21.137 21.492 21.701 21.814 21.921 21.960 22.185 22.209 22.242 22.249 22.314 22.374 22.495 22.746 22.747 22.888 22.914 23.206 23.241 23.263 23.484 23.538 23.542 23.666 23.706 23.711 24.129 24.285 24.289 24.366 24.717 24.990 25.633 26.960 26.995 32.065 32.789 34.279 Exemple de table de fréquences avec a = 5 et h = 5 : Classe Fréquence absolue Histogramme normalisé [5, 10) 5 0.012 [10, 15) 2 0.005 [15, 20) 24 0.059 [20, 25) 45 0.109 [25, 30) 3 0.007 [30, 35) 3 0.007 27 Histogramme : exemple Histogrammes pour les données des vitesses des galaxies, avec deux choix de h ; les données sont représentées à l’aide des ‘tapis’ en-dessous Histogram of galaxy Histogram of galaxy 0.10 0.20 0.08 0.15 0.04 0.06 Density Density 0.10 0.05 0.02 0.00 0.00 5 10 15 20 25 30 35 5 10 15 20 25 30 35 Speed (10^3 km/second) Speed (10^3 km/second) 28 Histogramme, remarques Avantage : l’histogramme peut être appliqué tout aussi bien à un grand nombre de données qu’à un petit nombre Inconvénients : les principaux inconvénients de l’histogramme sont la perte d’informations en raison de l’absence des valeurs des observations et le choix délicat de la largeur des boîtes. Il y a différentes possibilités d’interprétation ! Remarque : Il existe des améliorations de l’histogramme, tel que l’estimateur de noyau 29 1.3 Synthèses numériques 30 Caractéristiques principales des données Pour des variables quantitatives, on s’intéresse généralement aux caractéristiques suivantes : 1. la tendance centrale qui informe sur le “milieu” (la position/lieu, le centre), par exemple la moyenne et la médiane 2. la dispersion qui renseigne sur la variabilité des données autour du centre, par exemple l’étendue, l’écart-type et l’étendue interquartile 3. la symétrie ou asymétrie par rapport au centre 4. le nombre de modes (“bosses”) 5. la présence éventuelle de valeurs aberrantes (outliers), qui pourraient provenir d’erreurs de mesures (et donc sont à supprimer), mais pourraient aussi être les données les plus intéressantes, si elles sont correctes 31 Formes des densités A B 0.6 0.6 0.5 0.5 0.4 0.4 Frequences Frequences 0.3 0.3 0.2 0.2 0.1 0.1 0.0 0.0 −5 0 5 −5 0 5 Variable Variable C D 0.6 0.6 0.5 0.5 0.4 0.4 Frequences Frequences 0.3 0.3 0.2 0.2 0.1 0.1 0.0 0.0 −5 0 5 −5 0 5 Variable Variable Centre / dispersion différents ; symétrie vs asymétrie 32 Tendance centrale Indicateurs de tendance centrale (mesures de position) : La moyenne (arithmétique) est n y1 + · · · + yn 1X y= = yi. n n i=1 Exemple : la moyenne des vitesses des glaxies est de 20834 km/s. La médiane est la valeur qui partage l’ensemble des observations ordonnées en deux parties de même taille. Ainsi, 50% des données sont plus petites que la médiane et 50% sont plus grandes. Elle est notée med(y1 ,... , yn ) ou med(y) si y ∈ Rn est un vecteur de données. 33 Médiane Afin de définir la médiane, on ordonne les données min(y1 ,... , yn ) = y(1) ≤ y(2) ≤ · · · ≤ y(n) = max(y1 ,... , yn ). Définition: med(y ) = y(⌈n/2⌉) , où ⌈y ⌉ est le plus petit entier ≥ y. Exemple avec n = 7 : 1, 4, 7, 14, 10, 12, 9 Exemple avec n = 8 : 1, 4, 7, 25, 10, 12, 14, 9 Parfois on utilise une définition symétrique : ( y((n+1)/2) , n impaire, (y(n/2) + y(n/2+1) )/2, n paire. Exemple calculer la version symétrique dans les deux exemples ci-dessus 34 Moyenne et médiane Si la distribution est symétrique, alors la moyenne ≈ la médiane La moyenne est plus sensible aux données atypiques (aberrantes) que la médiane : ȳ = 2, y1 = 1, y2 = 2, y3 = 3 ⇒ med(y ) = 2, ȳ = 11, y1 = 1, y2 = 2, y3 = 30 ⇒ med(y ) = 2, On dit que la médiane est résistante (robuste). 35 Quantiles La médiane partage les données y1 ,... , yn en 50%–50%. Et si on voulait les partager en 25%–75% ou bien une autre fraction ? Définition: Pour p ∈ (0, 1) le pème quantile de y1 ,... , yn est b q (p) := y(⌈np⌉). Cas particuliers importants : La médiane est y(⌈n/2⌉) les quartiles sont b q (0.25) = y(⌈n/4⌉) (inférieur) et b q (0.75) = y(⌈3n/4⌉) (supérieur) Parfois on parle de pourcentile (percentile) : le p-quantile est le 100p-pourcentile Exemple : Calculer des 0.32, 0.01 et 0.95 quantiles des données 42, 27, 31, 45, 31, 31, 29, 36, 34, 39 Les quantiles sont utiles car : ils sont faciles à calculer ils suggèrent la forme d’une loi sous-jacente ils résistent bien aux valeurs aberrantes 36 Mesures de dispersion l’écart-type (standard deviation),  1/2   1/2 n n  1 X   1 X  s= (yj − ȳ )2 =  yj2 − n ȳ 2  , n − 1  n − 1  j=1 j=1 où s 2 est la variance de l’échantillon (on verra plus tard pourquoi on divise par n − 1) l’étendue (range), y(n) − y(1) = max(y1 ,... , yn ) − min(y1 ,... , yn ) l’étendue/écart interquartile (interquartile range, IQR), IQR(y ) = y(⌈3n/4⌉) − y(⌈n/4⌉) 37 1.4 Le boxplot (boîte à moustache) 38 Boxplot (boîte à moustache) Poids (en pounds) de 92 étudiants d’une école américaine 140 145 160 190 155 165 150 190 195 138 160 155 153 145 170 175 175 170 180 135 170 157 130 185 190 155 170 155 215 150 145 155 155 150 155 150 180 160 135 160 130 155 150 148 155 150 140 180 190 145 150 164 140 142 136 123 155 140 120 130 138 121 125 116 145 150 112 125 130 120 130 131 120 118 125 135 125 118 122 115 102 115 150 110 116 108 95 125 133 110 150 108 Le “five-number summary” est la liste des cinq valeurs y(1) , y(⌈n/4⌉) , y(⌈n/2⌉) , y(⌈3n/4⌉) , y(n) , donnant un résumé numérique simple et pratique des données Cette liste est à la base de la boîte à moustache (boxplot) 39 Boxplot (boîte à moustache) 100 120 140 160 180 200 Pour les poids, le “five-number summary” est 95, 125, 145, 156, 215, et donc IQR(y ) = y(⌈3n/4⌉) − y(⌈n/4⌉) = 156 − 125 = 31 C = 1.5 × IQR(y ) = 1.5 × 31 = 46.5 y(⌈n/4⌉) − C = 125 − 46.5 = 78.5 y(⌈3n/4⌉) + C = 156 + 46.5 = 202.5 Les limites de la moustache sont les yi les plus extrêmes qui se trouvent à l’intérieur de l’intervalle [y(⌈n/4⌉) − C , y(⌈3n/4⌉) + C ] Les yi à l’extérieur de la moustache sont montrés individuellement 40 Boxplot (boîte à moustache) Le boxplot est utile pour la comparaison de groupes d’observations Boxplots du poids des étudiants selon le sexe, et de trois groupes d’observations simulées : 3 200 2 180 1 160 0 140 −1 120 −2 100 −3 41 Boy Girl 1 2 3 Ozone atmosphérique Observations de la concentration de l’ozone au Jungfraujoch, de janvier 1987 à décembre 2005 (quelques valeurs manquantes), et résultats d’une modélisation Observed (black), model (red) 65 Ozone concentration (ppbv) 40 45 50 35 55 60 1990 1995 2000 2005 Time Est-ce que la modélisation est bonne ? 42 Ozone atmosphérique Comparison of Observed and Modelled ozone Observed Group Model 35 40 45 50 55 60 65 Observed ozone concentration (ppbv) Boxplot des données réeles et celles issues du modèle 43 Ozone atmosphérique Observed minus Modelled ozone −15 −10 −5 0 5 Ozone (ppbv) Différences des données réeles et celles issues du modèle 44 Commentaires Il n’est pas toujours facile de créer de bons graphiques. Quelques conseils : essayer autant que possible de montrer les données elles-mêmes—pas de fioritures/chart-junk (couleurs/lignes/... inutiles etc.) mettre des unités et explications claires pour les axes et la légende pour comparer des quantités liées, utiliser les mêmes axes et mettre les graphiques en relation proche choisir les echelles telles que les relations systématiques apparaissent à un angle de ∼ 45◦ des axes transformer les données peut aider à la visualisation dessiner le graphique de sorte que les départs du ‘standard’ apparaissent comme départs de la linéarité ou d’un nuage aléatoire de points 45 Chartjunk Ce graphique montre 5 chiffres ! 46 Chartjunk et échelle 47 Choisir les bons axes Effet du choix des axes sur la perception d’une relation : 65 60 45 50 55 60 Model ozone (ppbv) Model ozone (ppbv) 50 55 40 45 35 35 40 45 50 55 60 65 35 40 45 50 55 60 65 Observed ozone (ppbv) Observed ozone (ppbv) 48 Changements d’échelles Pour certaines données, il est intéressant de les transformer avant de les représenter Exemple : Population mondiale entre l’an 0 et 2000. L’échelle logarithmique permet de visualiser clairement le taux de croissance log10 de la population mondiale population mondiale (milliards) 6 9.5 4 9.0 2 8.5 0 0 500 1000 1500 2000 0 500 1000 1500 2000 année année La population en 1200 était de 360 millions, et en 1600 de 545 millions 49 La campagne russe de 1812 50 Mesures de corrélation On veut souvent mesurer la dépendance de paires de données (x1 , y1 ),... , (xn , yn ) pour n individus (par exemple, y = note lors d’un test, x = quantité de bière consommée le soir avant) Souvent on utilise la coefficient de la corrélation (empirique) (correlation coefficient), Pn n−1 j=1 (xj − x̄ )(yj − ȳ ) rxy = n o1/2 , Pn Pn n−1 j=1 (xj − x̄ )2 × n−1 j=1 (yj − ȳ )2 qui satisfait (a) −1 ≤ rxy ≤ 1 ; (b) si rxy = ±1, alors les (xj , yj ) sur une droite, de pente positive si rxy = 1, et de pente négative si rxy = −1 (c) si rxy = 0 il n’y a pas de dépendance LINÉAIRE ! (d) si (xj , yj ) 7→ (a + bxj , c + dyj ) (avec bd ̸= 0), alors rxy 7→ sign(bd)rxy 51 Limitations de la corrélation Une corrélation entre deux variables n’implique pas une causalité entre elles rxy mesure la dépendance linéaire (panneaux supérieurs) On peut avoir rxy ≈ 0, mais dépendance forte mais non-linéaire (en bas au milieu) Une corrélation pourrait être forte mais specieuse, comme en bas à droite, ou deux sous-groupes, chacun sans corrélation, sont combinés rho=−0.3 rho=0.9 4 4 2 2 0 0 y y −2 −2 −4 −4 −4 −2 0 2 4 −4 −2 0 2 4 x x rho=0 rho=0.9 3 4 4 2 2 2 1 0 0 y y 0 −1 −2 −2 −2 −4 −4 −3 −3 −2 −1 0 1 2 3 −4 −2 0 2 4 −4 −2 0 2 4 x x 52 Corrélation ̸= causalité Deux variables peuvent être très corrélées sans lien de causalité. Le graphique à gauche ici montre une corrélation forte entre le nombre de naissances et les mâts de communication dans les villes anglaises... rho=0.92 rho=−0.09 22 18 Total births in 2009 2e+04 Birth rate in 2009 10 12 14 2e+03 2e+02 20 50 200 1000 5000 20 50 200 1000 5000 Number of transmitter masts Number of transmitter masts 53 1.5 Stratégie 54 Analyse initiale des données On a maintenant une stratégie pour explorer des données issues d’une variable quantitative : 1) toujours faire des représentations graphiques d’abord 2) étudier la structure globale des données et identifier d’éventuelles valeurs atypiques / aberrantes (“outliers”)—trouver pourquoi elles apparaissent 3) calculer des synthèses numériques pour décrire la tendance centrale (position / centre / lieu) et la dispersion (échelle) 4) souvent, la structure globale est si régulière qu’on aimerait la décrire par une courbe lisse. Cette courbe est une description mathématique pour la distribution des données 55 Modélisation des données Souvent on suppose que les données sont issues d’un échantillon aléatoire tiré d’une population d’intérêt Cette population est considérée comme très grande, d’une taille presque infinie En statistique ces modèles mathématiques sont souvent des courbes de densité, une fonction qui est toujours ≥ 0 et qui s’intègre à 1 ; l’aire sous cette courbe est la fréquence relative On peut comprendre la courbe de densité comme la limite d’un histogramme normalisé décrivant la structure d’un population de taille n, quand n → ∞ et h → 0 56 Modélisation des données, courbe de densité n=50 n=500 0.4 0.4 0.2 0.3 Density Density 0.2 0.1 0.0 0.0 −6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6 x x n=50000 n=5000000 0.4 0.3 0.3 Density Density 0.2 0.2 0.1 0.1 0.0 0.0 −6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6 x x 57 1.5 La loi normale 58 Distribution normale Une classe particulière et importante de densités est la densité normale (densité gaussienne), N (µ, σ 2 ) ( ) 1 (x − µ)2 fµ,σ (x ) = exp − , −∞ < x , µ < ∞, σ > 0, (2πσ 2 )1/2 2σ 2 où µ est la moyenne et σ est l’écart-type fµ,σ (x ) est la hauteur de la courbe au point x 0.4 0.3 phi(x) 0.2 0.1 0.0 −4 −2 0 2 4 x 59 Tiges en acier Diamètres de 947 tiges en acier en pouces (inches) 7 300 6 250 5 200 Frequency 4 Density 150 3 100 2 50 1 0 0 0.2 0.3 0.4 0.5 0.6 0.2 0.3 0.4 0.5 0.6 Diamètres de tiges en acier (en inches) Diamètres de tiges en acier (en inches) 60 Tiges en acier Pour obtenir les paramètres, on calcule la moyenne x̄ = 0.4 et l’écart-type s = 0.051 Courbe précédente : N (µ = 0.40, σ 2 = 0.0512 ) 472 des 947 tiges ont un diamètre ≤ 0.4 inches. Donc leur fréquence relative est 472 = 0.498 947 L’aire correspondante de la surface sous la courbe précédente vaut 0.5 — proche de 0.498, donc donne une bonne approximation 61 Propriétés de N (µ, σ 2 ) Il y a une infinité des densités normales selon le choix de µ et σ, mais toutes ont des propriétés communes. En voici quelques-unes : La majorité des observations d’une “population normale” est proche du centre µ La règle “68-95-99.7” :   68% des observations sont dans [µ ± σ]  2 N (µ, σ ) ⇒ 95% dans [µ ± 2σ]   99.7% dans [µ ± 3σ] Exemple des tiges: Diamètres de 947 tiges d’acier : 69.06% dans [x̄ ± s] 92.05% dans [x̄ ± 2s] 99.8% dans [x̄ ± 3s]. Le modèle normal semble-t-il être une bonne approximation ? Si oui, comment calculer ces mêmes proportions à l’aide de ce modèle ? 62 Standardisation Si x est une observation issue d’une densité de moyenne µ et d’écart-type σ, alors la valeur standardisée de x est x −µ z= σ z est une observation issue d’une densité de moyenne 0 et d’écart-type 1 Exemple de tiges: Ici, n = 947, x̄ = 0.400, s = 0.051, et alors si on met µ = x̄ et σ = s, on a 0.4239 − 0.400 x(644) = 0.4239 ⇒ z(644) = = 0.452 0.051 et de même, la tranformée x → 7 z = (x − µ)/σ donne x̄ = 0.400 ⇒ z̄ = 0 sx = 0.051 ⇒ sz = 1 63 Distribution N (0, 1) La transformée x 7→ z = (x − µ)/σ donne N (µ, σ 2 ) 7→ N (0, 1) Ici N (0, 1) dénote la distribution normale centrée réduite (loi normale standard), dont la densité est 1 2 ϕ(z) = √ e −z /2 , z ∈R 2π On définit aussi Z z Z z 1 2 Φ(z) = ϕ(x ) dx = √ e −x /2 dx , z ∈R −∞ 2π −∞ Φ ( z) z Par symétrie de ϕ(z) autour de z = 0, Φ(−z) = 1 − Φ(z) La proportion d’observations dans [z1 , z2 ] est Φ(z2 ) − Φ(z1 ) 64 Tableau de N (0, 1) Φ ( z) z z 0 1 2 3 4 5 6 7 8 9 0.0.50000.50399.50798.51197.51595.51994.52392.52790.53188.53586 0.1.53983.54380.54776.55172.55567.55962.56356.56750.57142.57535 0.2.57926.58317.58706.59095.59483.59871.60257.60642.61026.61409 0.3.61791.62172.62552.62930.63307.63683.64058.64431.64803.65173 0.4.65542.65910.66276.66640.67003.67364.67724.68082.68439.68793 0.5.69146.69497.69847.70194.70540.70884.71226.71566.71904.72240 0.6.72575.72907.73237.73565.73891.74215.74537.74857.75175.75490 0.7.75804.76115.76424.76730.77035.77337.77637.77935.78230.78524 0.8.78814.79103.79389.79673.79955.80234.80511.80785.81057.81327 0.9.81594.81859.82121.82381.82639.82894.83147.83398.83646.83891 1.0.84134.84375.84614.84850.85083.85314.85543.85769.85993.86214 1.1.86433.86650.86864.87076.87286.87493.87698.87900.88100.88298 1.2.88493.88686.88877.89065.89251.89435.89617.89796.89973.90147 1.3.90320.90490.90658.90824.90988.91149.91309.91466.91621.91774 1.4.91924.92073.92220.92364.92507.92647.92786.92922.93056.93189 1.5.93319.93448.93574.93699.93822.93943.94062.94179.94295.94408 1.6.94520.94630.94738.94845.94950.95053.95154.95254.95352.95449 1.7.95543.95637.95728.95818.95907.95994.96080.96164.96246.96327 1.8.96407.96485.96562.96638.96712.96784.96856.96926.96995.97062 1.9.97128.97193.97257.97320.97381.97441.97500.97558.97615.97670 65 2.0.97725.97778.97831.97882.97932.97982.98030.98077.98124.98169 Exemple Exemple des tiges: Supposons le modèle normal avec µ = x̄ et σ 2 = s 2 , alors la proportion de x ’s dans [x̄ − s, , x̄ + s] est la même que celle de z’s dans [−1, 1], car [x̄ − s, x̄ + s] − x̄ [x̄ − s, x̄ + s] 7→ = [−1, 1]. s Donc la proportion est Φ(1) − Φ(−1) = Φ(1) − {1 − Φ(1)} = 2Φ(1) − 1 = 0.6826. De même on trouve 0.9544 et 0.9973 pour les proportions des tiges dans [x̄ − 2s, x̄ + 2s] 7→ [−2, 2], [x̄ − 3s, x̄ + 3s] 7→ [−3, 3], c’est à dire ∼ 95% et ∼ 99.7% de l’échantillon des tiges, respectivement. 66 Q-Q plot normale L’histogramme ou le boxplot nous donnent des indices sur des propriétés d’une distribution normale, dont : pas de valeurs atypiques, symétrie, unimodalité Mais il faut le savoir plus précisément : le meilleur outil pour “vérifier" la normalité graphiquement est le “Q-Q plot normal” Si les points sur ce dernier sont proches d’une droite, cela signifie que les observations pourront être modélisées par un modèle normal Les valeurs aberrantes apparaissent comme des points isolés La pente et l’intercepte pour x = 0 donnent des estimations de σ et µ respectivement 67 Q-Q plot—tiges Histogramme et Q-Q plot normale du diamètre de 947 tiges en acier (en inches) 0.60 7 0.55 6 Diamètres de tiges en acier (en inches) 0.50 5 0.45 4 Density 0.40 3 0.35 2 0.30 1 0.25 0 0.2 0.3 0.4 0.5 0.6 −3 −2 −1 0 1 2 3 Diamètres de tiges en acier (en inches) Quantiles de la loi standard normale 68 Q-Q plot—Newcomb Q-Q plot normaux de 66 temps de passage de la lumière, mésurés par Simon Newcomb, pour traverser une distance connue : Tous les données Sans les deux valeurs aberrantes 40 40 35 20 Temps de passage Temps de passage 30 0 25 −20 20 −40 −2 −1 0 1 2 −2 −1 0 1 2 Quantiles de la loi standard normale Quantiles de la loi standard normale 69 2. Probabilité 70 Expériences aléatoires La théorie des probabilités permet de décrire et modéliser les phénomènes aléatoires. Les actions qui mènent à des résultats aléatoires sont appellées des expériences aléatoires. Plus précisément, une expérience est dite aléatoire s’il est impossible de prévoir son résultat. En principe, on admet qu’une expérience aléatoire peut être répétée (indéfiniment) dans des conditions identiques ; son résultat peut donc varier d’une réalisation à l’autre. Exemples : lancer d’un dé ou d’une pièce de monnaie ; tirage d’une carte. 71 2.1. Probabilité d’événements 72 Modèles probabilistes d’une expérience aléatoire Ensemble fondamental Ω : tous les résultats possibles Événement élémentaire ω ∈ Ω : un résultat possible. Événement : un sous-ensemble (raisonnable) A ⊆ Ω. Un événement peut réunir plusieurs événements élémentaires. On dit qu’un événement est réalisé si le résultat de l’expérience aléatoire (événement élémentaire) appartient à cet événement. Exemple Lancer d’une pièce de monnaie : Ω = {P, F }. A = {P} = “Pile” est un événement (élémentaire) Exemple Lancer d’un dé : Ω = {1, 2, 3, 4, 5, 6}. A = “obtenir 1” = {1} est un événement (élémentaire). B = “obtenir un chiffre pair” = {2, 4, 6} est un événement (composé). 73 Diagramme de Venn et opérations entre événements A ∪ B = B ∪ A union ∅ ensemble vide A ∩ B = B ∩ A intersection A = {2, 4, 6} (pair) Ac complémentaire B = {2, 3, 5} (premier) A \ B = A ∩ B c différence ; A \ B ̸= B \ A 74 Fonction de probabilité Définition: Les événements A et B sont disjoints si A ∩ B = ∅. Événements A1 , A2 ,... , An sont disjoints si Ai ∩ Aj = ∅ quand i ̸= j. Définition: Une fonction de probabilité, notée ici Pr, est une fonction telle que 0 ≤ Pr(A) ≤ 1 pour tout événement A ; Pr(Ω) = 1, (événement certain) ; Si A1 ,... , An est une collection disjointe d’événements, alors n n ! [ X Pr Ai = Pr(Ai ) i=1 i=1 De même pour une collection infinie dénombrable A1 , A2 ,... 75 Propriétés d’une fonction de probabilité Pr(∅) = 0, (événement impossible) ; Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B) ; Pr(Ac ) = 1 − Pr(A), (événement complémentaire de A) ; A ⊆ B ⇒ Pr(A) ≤ Pr(B). Exemple Deux lancers d’une pièce de monnaie : Ω = {PP, PF , FP, FF }. (a) Expliciter les événements A =“au moins un P”, B =“au moins un F”, A ∩ B, et A ∪ B. (b) Trouver les probabilités correspondantes si Pr({PP}) = · · · = Pr({FF }) = 1/4. 76 Solution (diapositive 76) 77 Evénements élémentaires équiprobables Sous l’hypothèse d’équiprobabilité des événements élémentaires, pour tout événement A de Ω, nombre d’événements élémentaires dans A Pr(A) = nombre total d’événements élémentaires dans Ω nombre de cas favorables à A =. nombre total de cas possibles Exemple Lancer d’un dé. Supposons que les six faces ont les mêmes chances d’apparaître (événements élémentaires équiprobables). Alors 1 Pr({1}) = Pr({2}) = · · · = Pr({6}) = , 6 et Pr(“obtenir un nombre pair”) = Pr({2, 4, 6}) = Pr({2}) + Pr({4}) + Pr({6}) 3 1 = =. 6 2 Exemple Lancers de deux dés. Trouver Pr(“la somme des faces vaut 7”). 78 Solution (diapositive 78) 79 Probabilité conditionnelle et indépendance La probabilité que l’événement A se réalise peut être influencée par la réalisation d’un autre événement B. Pour formaliser cette idée, on introduit les concepts de probabilité conditionnelle et d’indépendance : Définition: La probabilité conditionnelle de A sachant que B s’est réalisé est définie par Pr(A ∩ B) Pr(A | B) = , si Pr(B) > 0. Pr(B) Définition: Deux événements A et B sont dits indépendants si Pr(A ∩ B) = Pr(A) × Pr(B). Intuition : si Pr(B) > 0, c’est équivalent à Pr(A | B) = Pr(A). 80 Exemples Exemple Deux lancers d’une pièce de monnaie. Trouver la probabilité d’obtenir pile au 2ème lancer sachant qu’on a obtenu pile au 1er lancer. Exemple Lancer d’un dé Les événements A = {2, 4} et B = {2, 4, 6} sont-ils indépendants ? Ne pas confondre indépendance et incompatibilité (A et B disjoints) ! Soient A, B disjoints tels que Pr(A), Pr(B) > 0. On a Pr(A ∩ B) = Pr(∅) = 0, mais Pr(A) × Pr(B) ̸= 0, donc A et B sont dépendants. Donc A∩B = ∅ ⇒ A et B dépendants, et ainsi, A et B indépendants ⇒ A∩B ̸= ∅. Par ailleurs A ∩ B ̸= ∅ ⇏ A et B indépendants. 81 Solution diapositive 81 82 Solution diapositive 81 83 Indépendance : généralisation Définition: Les événements A1 ,... , An sont indépendants si, pour tout sous-ensemble d’indices {i1 ,... , ik } ⊆ {1,... , n}, on a k ! k \ Y Pr Aij = Pr(Aij ). j=1 j=1 Exemple Un système de n composants est appelé système en parallèle s’il fonctionne dès qu’au moins un de ses composants fonctionne. Un système en série fonctionne si et seulement si tous ses composants fonctionnent. (a) Si le ième composant fonctionne indépendamment de tous les autres et avec une probabilité pi , i = 1,... , n, quelle est la probabilité de fonctionnement d’un système en parallèle ? (b) Même question pour un système en série. (c) Même question pour un système composé. 84 Solution diapositive 84 85 Formule des probabilités totales Définition: Soit A un événement quelconque de Ω, et {Bi }i=1,...,n une partition de Ω, c’est-à-dire, n [ Bi ∩ Bj = ∅, i ̸= j, Bi = Ω. i=1 La formule des probabilités totales n X n X Pr(A) = Pr(A ∩ Bi ) = Pr(A | Bi ) Pr(Bi ). i=1 i=1 Elle est également valide pour une partition infinie dénombrable. Exemple Trois machines M1 , M2 et M3 fabriquent des pièces dans les proportions respectives 25%, 35% et 40%. On sait que respectivement 5%, 4% et 2% des pièces produites par M1 , M2 et M3 sont défectueuses. On choisit une pièce aléatoirement. Calculer Pr(“la pièce est défectueuse”). 86 Formule des probabilités totales : diagramme de Venn 87 Solution diapositive 86 Définissons les événements : D = “la pièce est défectueuse” et pour i = 1, 2, 3, Ai = “la pièce a été fabriquée par Mi ”. 88 Théorème de Bayes Théorème de Bayes Soient A ⊆ Ω et {Bi }i=1,...,n une partition (éventuellement infinie dénombrable) de Ω. Si Pr(A) > 0 alors on a, pour tout i = 1,... , n, Pr(Bi ∩ A) Pr(A | Bi )Pr(Bi ) Pr(Bi | A) = = Pn. Pr(A) j=1 Pr(A | Bj )Pr(Bj ) La formule de Bayes est très simple mais très utile, car elle permet une ‘inversion du point de vue’ dont on a souvent besoin en pratique. Exemple Pour dépister une maladie, on applique un test. Si la maladie est présente, le test le découvre avec probabilité 0.99. Si la personne est saine, le test le trouve malade avec probabilité 0.02. Sachant qu’en moyenne un patient sur 1000 est atteint de la maladie, calculer la probabilité qu’un patient soit atteint sachant que son test a été positif. Comment améliorer ce resultat ? 89 Solution exemple Bayes Soit M l’événement “le patient est atteint de la maladie”, M c l’événement complémentaire, et A l’événement “le résultat du test est positif”. 90 Types d’indépendance Les événements A1 ,... , An sont indépendants si pour tout ensemble fini d’indices F ⊆ {1,... , n} qui est non-vide, on a   \ Y Pr  Ai  = Pr(Ai ). i∈F i∈F Définition: Les événements A1 ,... , An sont conditionnellement indépendants sachant B si pour tout ensemble fini d’indices F ⊆ {1,... , n} qui est non-vide, on a   \ Y Pr  Ai | B  = Pr(Ai | B). i∈F i∈F 91 Exemples : indépendance conditionnelle Exemple Une année donnée, la probabilité qu’un conducteur fasse une déclaration de sinistre à son assurance est µ, indépendamment des autres années. La probabilité pour une conductrice est de λ < µ. Un assureur a le même nombre de conducteurs que de conductrices, et sélectionne une personne au hasard. (a) Donner la probabilité que la personne déclare un sinistre cette année (b) Donner la probabilité que la personne déclare des sinistres durant 2 années consécutives (c) Si la compagnie sélectionne au hasard une personne ayant fait une déclaration, quelle est la probabilité que cette personne fasse une déclaration l’année suivante ? (d) Montrer que la connaissance qu’une déclaration de sinistre ait été faite une année augmente la probabilité de déclarer un autre l’année suivante 92 Solution 92 93 2.2 Variables aléatoires 94 Définition Exemple : lancer de deux dés. On s’intéresse à la somme obtenue plutôt qu’au fait de savoir si c’est le couple {1, 6}, {2, 5}, {3, 4}, {5, 2} ou plutôt {6, 1} qui est apparu. Après avoir effectué une expérience aléatoire, on s’intéresse davantage à une fonction du résultat qu’au résultat lui-même—c’est une variable aléatoire. Définition: Soit Ω un ensemble fondamental. Une variable aléatoire définie sur Ω est une fonction de Ω dans R (ou dans un sous-ensemble H ⊆ R) : X : Ω −→ R ω −→ X (ω), où ω est un événement élémentaire. L’ensemble H des valeurs prises par la variable aléatoire X peut être discret ou continu. Par exemple : Nombre de piles obtenus en n lancers d’une pièce : H = {0, 1,... , n}. Nombre d’appels téléphoniques pendant une journée : H = {0, 1,...}. Temps d’attente au M1 : H = [0, Tmax ]. Quantité de pluie demain : H = R+. 95 Variables aléatoires discrètes Définition: Une variable aléatoire X est dite discrète si elle prend un nombre fini ou dénombrable de valeurs. Dénotons xi , i = 1, 2,... , les valeurs possibles de X. Alors la fonction fX (xi ) = Pr(X = xi ) est appelée fonction de masse (ou fonction des fréquences). Le comportement d’une variable aléatoire discrète X est complètement décrit par les valeurs x1 ,... , xk (k pas nécessairement fini) que X peut prendre ; les probabilités correspondantes fX (x1 ) = Pr(X = x1 ),... , fX (xk ) = Pr(X = xk ). 96 Fonction de masse La fonction de masse fX satisfait : 0 ≤ fX (xi ) ≤ 1, pour i = 1, 2,... fX (x ) = 0, pour toutes les autres valeurs de x. Pk i=1 fX (xi ) = 1. Exemple On lance deux dés équilibrés. Trouver : (a) la fonction de masse de la somme ; (b) la fonction de masse du maximum. 97 Solution 97 (a) 98 Solution 97 (b) 99 Fonction de répartition (cas discret ou continu) Définition: La fonction de répartition FX de la variable aléatoire (générale) X est FX (x ) = Pr(X ≤ x ), x ∈ R. Elle a les propriétés suivantes : FX prend des valeurs dans [0, 1] FX est continue à droite et monotone non décroissante, avec lim FX (x ) = 0, lim FX (x ) = 1 x →−∞ x →∞ Pr(a < X ≤ b) = FX (b) − FX (a) Pr(X > x ) = 1 − FX (x ) si X est discrète, alors X FX (x ) = Pr(X = xi ), x ∈ R. {i: xi ≤x } et (sauf certains cas pathologiques) FX est une fonction en escalier avec des sauts de taille fX (xi ) en xi Exemple Donner la fonction de répartition pour le maximum des résultats de deux dés. 100 Solution 100 101 Quelques notations (cas discret ou continu) Par la suite, nous utilisons les notations suivantes : Les variables aléatoires sont notées en majuscules (X , Y , Z , W , T ,...). Les valeurs possibles des variables aléatoires sont notées en minuscules (x , y , z, w , t,... ∈ R). La fonction de répartition d’une variable aléatoire X est notée FX. La fonction de masse (ou de densité dans le cas continu, cf plus loin) d’une variable aléatoire X est notée fX. Ces dernières sont notées F ou f s’il n’y pas de risque de confusion. X ∼ F signifie “la variable aléatoire X suit la loi F , i.e., admet F pour fonction de répartition”. app X ∼ F signifie “la variable aléatoire X suit approximativement la loi F ”. 102 Loi de Bernoulli Définition: Une variable aléatoire de Bernoulli satisfait ( x1 = 0 si échec probabilité 1 − p, X= x2 = 1 si succès probabilité p; on écrit X ∼ B(p). Sa loi de probabilité est donc xi 0 1 Total fX (xi ) = Pr(X = xi ) 1 − p p 1 où p est la probabilité de succès. Exemple du lancer d’une pièce de monnaie avec probabilité p fixée d’obtenir “Pile”. 103 Loi binomiale Définition: On effectue m fois indépendamment une expérience qui mène soit à un succès (avec probabilité p) soit à un échec (avec probabilité 1 − p). Soit X le nombre de succès obtenus. Alors on écrit X ∼ B(m, p), et m x fX (x ) = p (1 − p)m−x , x = 0,... , m. x Ceci est la loi binomiale avec nombre d’essais m et probabilité p. Dans le cas m = 1, X est une variable de Bernoulli. m s’appelle dénominateur et p probabilité de succès. Exemple : m lancers indépendants d’une pièce de monnaie avec Pr(“Pile”) = p fixée. Exemple Trouver la loi du nombre X de personnes présentes à ce cours ayant leur anniversaire ce mois-ci. 104 Fonctions de masse binomiale B(10,0.5) B(10,0.3) 0.30 0.30 0.20 0.20 f(x) f(x) 0.10 0.10 0.00 0.00 0 2 4 6 8 10 0 2 4 6 8 10 x x B(20,0.1) B(40,0.9) 0.30 0.30 0.20 0.20 f(x) f(x) 0.10 0.10 0.00 0.00 0 5 10 15 20 0 10 20 30 40 105 x x Solution Exemple 104 106 Variable aléatoire de Poisson Définition: Une variable aléatoire X pouvant prendre pour valeurs 0, 1, 2,... est dite de Poisson avec paramètre λ > 0 si λx −λ fX (x ) = e , x ∈ {0, 1, 2,...}, λ > 0. x! On écrit X ∼ Poiss(λ). Applications : nombre d’appels téléphoniques par minute dans une centrale téléphonique nombre de fautes de frappe dans les notes de cours nombre d’avalanches mortelles en Suisse cet hiver Exemple : E. coli Le niveau residuel des bactéries E. coli dans l’eau traitée est de 2/100 ml, en moyenne. (a) Trouver la probabilité qu’il y ait k = 0, 1, 2, 3 présent dans un échantillon de 200 ml d’eau. (b) Si on en trouve 10 dans un tel échantillon, l’eau est-elle bonne ? 107 Fonctions de masse Poisson Poiss(0.5) Poiss(1) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.3 0.2 f(x) f(x) 0.1 0.0 0 5 10 15 20 0 5 10 15 20 x x Poiss(4) Poiss(10) 0.20 0.12 0.15 0.08 0.10 f(x) f(x) 0.04 0.05 0.00 0.00 0 5 10 15 20 0 5 10 15 20 108 x x Solution Exemple 107 109 Approximation poissonienne de la loi binomiale Soit X ∼ B(m, p) avec m grand et p petit. Alors app X ∼ Poiss(λ = mp). Ceci s’appelle parfois la loi des petits nombres. Exemple D’après IS-Academia, vous êtes m étudiant(e)s. Soit X le nombre de personnes parmi vous dont l’anniversaire a lieu aujourd’hui. Calculer les probabilités que X = 0, X = 1, et X > 1, sous la loi binomiale et son approximation poissonienne. 110 m = 106, p = 1/365 m = 308, p = 1/365 1.0 1.0 B(m,p) B(m,p) 0.8 Poiss(mp) Poiss(mp) 0.8 0.6 0.6 f(x) f(x) 0.4 0.4 0.2 0.2 0.0 0.0 111 0 2 4 0 2 4 Variables aléatoires continues Définition: On dit qu’une variable aléatoire X est continue s’il existe une fonction fX : R → [0, ∞) appelée fonction de densité telle que Z Pr(X ∈ A) = fX (u)du, A où A ⊆ R est un ensemble ’raisonnable’. Par exemple, pour A = (a, b], Z b Pr(X ∈ A) = Pr(a < X ≤ b) = fX (x )dx. a fX n’est pas une probabilité, mais une limite 1 fX (x ) = lim Pr(x − h ≤ X ≤ x + h) h→0 2h Une variable continue peut prendre une infinité des valeurs, souvent dans un intervalle (borné, demi-droite, ou tout R). 112 Fonctions de densité et de répartition : propriétés Propriétés de la fonction de densité : fX (x ) ≥ 0 pour tout x ∈ R ; R∞ −∞ fX (x )dx = 1. Si l’on pose a = b, on a Z a Pr(X = a) = fX (x )dx = 0. a La fonction de répartition, FX , vérifie Z a FX (a) = Pr(X ≤ a) = Pr(X < a) = fX (x )dx , a ∈ R. −∞ On a, pour tout a, b ∈ R tels que a < b, Pr(a < X ≤ b) = FX (b) − FX (a) = Pr(a < X < b). On a d fX (x ) = FX (x ) = FX′ (x ), x ∈ R. dx 113 Quelques lois continues Loi uniforme : X ∼ U(a, b), pour a < b, de densité ( 1/(b − a) si a ≤ x ≤ b, fX (x ) = 0 sinon. Loi exponentielle : X ∼ exp(λ), pour λ > 0, de densité ( λe −λx si x ≥ 0, fX (x ) = 0 sinon. Loi normale : X ∼ N (µ, σ 2 ), pour µ ∈ R, σ > 0, de densité 1 2 /(2σ 2 ) fX (x ) = √ e −(x −µ) , x ∈ R. 2πσ 2 Si X ∼ N (µ, σ 2 ), alors Z = (X − µ)/σ ∼ N (0, 1) (“standardisation”). Notations : fZ (z) = ϕ(z) et FZ (z) = Φ(z). 114 Quelques lois continues 115 Exemple Exemple Le M1 passe toutes les 5.5 minutes. Si j’arrive à un moment choisi au hasard, quelle est la probabilité que je doive attendre (a) plus de 3 minutes ? (b) moins de 2 minutes ? (c) entre 1 et 4 minutes ? 116 Exemple Exemple La probabilité qu’il pleuve pendant la journée est de 0.2. S’il pleut, la quantité de pluie journalière suit une loi exponentielle de parametre λ = 0.05 mm−1. Trouver (a) la probabilité qu’il tombe au plus 5mm demain, (b) la probabilité qu’il tombe au moins 2mm demain. 117 Exemples Exemple La quantité annuelle de pluie dans une certaine région est une variable aléatoire normale de moyenne µ = 140 cm et de variance σ 2 = 16 cm2. Quelle est la probabilité qu’il tombe entre 135 et 150 cm ? 118 2.2.3 Variables aléatoires conjointes 119 Variables aléatoires conjointes / simultanées Soient X et Y deux variables aléatoires définies sur le même ensemble Ω. La fonction de répartition conjointe (ou simultanée) de X et Y est définie par FX ,Y (x , y ) = Pr(X ≤ x , Y ≤ y ), x , y ∈ R. Cas discret (i.e., X et Y sont discrètes) : la loi de probabilité conjointe de X et Y est parfaitement déterminée si l’on connaît leur fonction de masse conjointe, i.e., fX ,Y (xi , yj ) = Pr(X = xi , Y = yj ) pour tous les couples (xi , yj ) possibles. Cas continu (i.e., X et Y sont continues) : la loi de probabilité conjointe de X et Y est parfaitement déterminée si l’on connaît leur fonction de densité conjointe, définie (si elle existe) par ∂ 2 FX ,Y (x , y ) fX ,Y (x , y ) = , x , y ∈ R. ∂x ∂y 120 Cas discret : propriétés Propriétés de la fonction de masse conjointe : 0 ≤ fX ,Y (xi , yj ) ≤ 1, i, j = 1, 2,... fX ,Y (x , y ) = 0, pour toutes les autres valeurs de x et y. P i,j fX ,Y (xi , yj ) = 1. La fonction de répartition conjointe vérifie X FX ,Y (x , y ) = fX ,Y (xi , yj ), x , y ∈ R. {(i,j): xi ≤x ,yj ≤y } 121 Cas continu : propriétés Propriétés de la densité conjointe : fX ,Y (x , y ) ≥ 0, x , y ∈ R. R∞ R∞ −∞ −∞ fX ,Y (u, v )dv du = 1. La fonction de répartition conjointe vérifie Z x Z y FX ,Y (x , y ) = Pr(X ≤ x , Y ≤ y ) = fX ,Y (u, v )dv du, x, y ∈ R −∞ −∞ On a, pour tout a1 , a2 , b1 , b2 ∈ R tels que a1 < b1 et a2 < b2 , Z b1 Z b2 Pr(a1 < X ≤ b1 , a2 < Y ≤ b2 ) = fX ,Y (u, v )dv du. a1 a2 122 Lois marginales Définition: Soient X , Y deux variables aléatoires ayant pour densité (ou fonction de masse) conjointe fX ,Y. Les densités marginales du couple (X , Y ) sont respectivement les densités de X et Y , i.e., fX et fY. De même, les fonctions de répartition marginales du couple (X , Y ) sont respectivement les fonctions de répartition de X et Y , i.e., FX et FY. Dans le cas des densités, on a P P cas discret : fX (xi ) = j fX ,Y (xi , yj ), fY (yj ) = i fX ,Y (xi , yj ); R∞ R∞ cas continu : fX (x ) = f (x , y )dy , fY (y ) −∞ X ,Y = −∞ fX ,Y (x , y )dx. Concernant les fonctions de répartition, on a P P cas discret : FX (x ) = {i:xi ≤x } fX (xi ), FY (y ) = {j:yj ≤y } fY (yj ); Rx Ry cas continu : FX (x ) = −∞ X f (u) du, FY (y ) = −∞ fY (v ) dv. Exemple X , Y prennent les valeurs (1, 2), (1, 4), (2, 3), (3, 2), (3, 4) avec 123 probabilités égales. Trouver les lois marginales de X et de Y. Solution 123 et 125 Exemple X , Y prennent les valeurs (1, 2), (1, 4), (2, 3), (3, 2), (3, 4) avec probabilités égales. Trouver les lois marginales de X et de Y. 124 Indépendance Définition: Deux variables aléatoires X et Y sont indépendantes si Pr(X ≤ x , Y ≤ y ) = Pr(X ≤ x ) × Pr(Y ≤ y ), ∀x , y ∈ R. Dans ce cas on écrit X ⊥ ⊥ Y. Donc X ⊥ ⊥ Y ⇐⇒ ∀x , y ∈ R : FX ,Y (x , y ) = FX (x )FY (y ) si X ⊥⊥ Y et fX , fY sont connues, on peut obtenir fX ,Y. Ceci est faux pour des variables dépendantes si X ⊥ ⊥ Y , alors g(X ) ⊥ ⊥ h(Y ) pour toutes fonctions g, h ‘raisonnables’ Pour des variables aléatoires discrètes ∀x , y ∈ R : fX ,Y (x , y ) = fX (x )×fY (y ) ⇐⇒ ∀x , y ∈ R : FX ,Y (x , y ) = FX (x )×FY (y ) Pour des variables aléatoires continues =⇒ est vrai et pour montrer une dépendance il suffit de trouver x , y auxquels fX ,Y , fX et fY sont continues et fX ,Y (x , y ) ̸= fX (x ) × fY (y ) Exemple Les variables aléatoires X , Y de l’exemple précédant sont-elles indépendantes ? 125 Cas continu La fonction de répartition conjointe est Z y Z x Pr(X ≤ x , Y ≤ y ) = FX ,Y (x , y ) = fX ,Y (u, v ) du dv. −∞ −∞ Propriétés : fX ,Y (x , y ) ≥ 0 pour tout (x , y ) ∈ R2 R∞ R∞ −∞ −∞ fX ,Y (u, v ) du dv = 1 ∂ 2 FX ,Y (x ,y ) fX ,Y (x , y ) = ∂x ∂y R b2 R b 1 Pr(a1 < X ≤ b1 , a2 < Y ≤ b2 ) = a2 a1 fX ,Y (u, v ) du dv Plus généralement, pour A ⊆ R2 ’raisonnable’ Z Pr((X , Y ) ∈ A) = fX ,Y (u, v )dudv A Exemple Soient X ∼ U[0, 1] et Y ∼ U[0, 2] indépendantes. Trouver Pr(X > Y ). Noter : Y ′ = 2X ∼ U[0, 2] mais Pr(X > Y ′ ) = 0 ; X et Y ′ sont dépendantes ! 126 Solution 126 127 Densité conditionelle Définition: La densité conditionnelle de X sachant Y = y (tel que fY (y ) > 0) est définie par fX ,Y (x , y ) fX |Y (x | y ) = , x ∈ R. fY (y ) Si X et Y sont indépendantes, on a fX |Y (x | y ) = fX (x ), fY |X (y | x ) = fY (y ), pour tout x et y ∈ R. (mathématiquement, c’est pour ’presque’ tout x , y ) Exemple Soient X et Y de densité conjointe ( x +y si 0 < x < 1, 0 < y < 1, fX ,Y (x , y ) = 0 sinon. Trouver les densités marginales de X et Y , et la densité conditionnelle fX |Y. Les deux variables sont-elles indépendantes ? 128 Solution Exemple 128 129 2.3 Valeurs caractéristiques 130 Mesure de tendance centrale Définition: L’espérance d’une variable aléatoire X est P E(X ) = R ∞i xi fX (xi ), X discrète, −∞ xfX (x ) dx , X continue, si la somme/intégrale converge Propriétés : Interprétation 1 : espérance ≡ centre de gravité d’un ensemble de masses Interprétation 2 : espérance ≡ moyenne pondérée par des masses si X1 ,... , Xn sont des variables aléatoires et a, b1 ,... , bn des constantes, alors n ! n X X E a+ bi Xi =a+ bi E(Xi ) i=1 i=1  P  i g(xi )fX (xi ), X discrète pour g fonction ’raisonnable’, E{g(X )} =  R∞ −∞ g(x )fX (x )dx , X continue si X , Y sont indépendantes et g, h des fonctions ’raisonnables’, alors E{g(X )h(Y )} = E{g(X )}E{h(Y )} 131 Exemples Exemple Pour X ∼ B(m, p), trouver E(X ). Exemple Pour X ∼ Poiss(λ), trouver E(X ) et E{X (X − 1)}. 132 Exemples Exemple Soit X ∼ N (µ, σ 2 ), trouver E(X ). 133 Mesure de dispersion Définition: La variance d’une variable aléatoire X est définie comme var(X ) = E[{X − E(X )}2 ] = · · · = E(X 2 ) − E(X )2 Propriétés : Interprétation physique : variance ≡ moment d’inertie relatif au centre de masse var(X ) ≥ 0, et var(X ) = 0 implique que X est constante p la déviation standard de X est définie comme sd(X ) = var(X ) ≥ 0 si a, b sont des constantes, alors var(a + bX ) = b 2 var(X ) si X1 ,... , Xn sont indépendantes et a, b1 ,... , bn des constantes, alors n ! n X X var a+ bi Xi = bi2 var(Xi ) i=1 i=1 Exemple Si X ∼ Poiss(λ), montrer que var(X ) = λ. Exemple Si X ∼ B(m, p), montrer que var(X ) = m p(1 − p). Exemple Si X ∼ N (µ, σ 2 ), montrer que var(X ) = σ 2. 134 Exemples : variance ExempleSi X ∼ Poiss(λ), montrer que var(X ) = λ. ExempleSi X ∼ B(m, p), montrer que var(X ) = m p(1 − p). ExempleSi X ∼ N (µ, σ 2 ), montrer que var(X ) = σ 2. 135 Covariance Définition: La covariance des variables aléatoires X , Y est cov(X , Y ) = E [{X − E(X )}{Y − E(Y )}] = · · · = E(XY ) − E(X )E(Y ). Interprétation : C’est une mesure de dépendance linéaire entre X et Y Propriétés : la covariance dépend des unités dont on mesure X , Y cov(X , Y ) = cov(Y , X ) cov(X , X ) = var(X ) cov(X +Y , Z +W ) = cov(X , Z )+cov(Y , Z )+cov(X , W )+cov(Y , W ) si a, b, c, d sont des constantes, alors cov(a X + b, c Y + d) = ac cov(X , Y ) var(X ± Y ) = var(X ) + var(Y ) ± 2cov(X , Y ) si X et Y sont indépendantes, alors cov(X , Y ) = 0. Mais attention, l’inverse n’est pas vraie en général ! 136 Exemple Exemple (voir diapositive 128) Soient X et Y de densité conjointe ( x + y si 0 < x < 1, 0 < y < 1, fX ,Y (x , y ) = 0 sinon. Trouver Var(X ), Var(Y ), et Cov(X , Y ). 137 Corrélation Définition: La corrélation de X et Y est cov(X , Y ) ρX ,Y = ρ(X , Y ) = corr(X , Y ) = p var(X )var(Y ) (zéro si une des variances est zéro). Propriétés : ρX ,Y mesure la dépendance linéaire (et seulement linéaire !) entre X et Y ρ(a + bX , c + dY ) = sign(bd)ρ(X , Y ) corr(X , Y ) = corr(Y , X ) corr(X , X ) = 1 (si X n’est pas constante) corr(X , −X ) = −1 (si X n’est pas constante) −1 ≤ corr(X , Y ) ≤ 1 (inegalité de Cauchy–Schwarz) si X et Y sont indépendantes, alors corr(X , Y ) = 0, mais la réciproque est faux ! 138 corrélation ̸= causalité ! Corrélation empirique Version empirique (si Pr((X = xi , Y = yi ) = 1/n pour i = 1,... , n) Pn n−1 j=1 (xj − x̄ )(yj − ȳ ) n Pn Pn o1/2 , −1 2 −1 2 n j=1 (xj − x̄ ) × n j=1 (yj − ȳ ) 139 Exemple : ozone atmosphérique Prof. Isabelle Bey (SIE) : observations de la concentration d’ozone au Jungfraujoch de janvier 1987 à décembre 2005 (quelques valeurs manquantes), et résultats d’une modélisation. Observed (black), model (red) 65 Ozone concentration (ppbv) 40 45 50 35 55 60 1990 1995 2000 2005 Time La modélisation vous paraît-elle bonne ? 140 Exemple : ozone atmosphérique 65 60 45 50 55 60 Model ozone (ppbv) Model ozone (ppbv) 50 55 40 45 35 35 40 45 50 55 60 65 35 40 45 50 55 60 65 Observed ozone (ppbv) Observed ozone (ppbv) La corrélation empirique est ρ = 0.707. 141 Limitations de la corrélation ρ mesure la dépendance linéaire (panneaux supérieurs) On peut avoir ρ ≈ 0, mais dépendance forte mais non-linéaire (en bas au milieu) Une corrélation pourrait être forte mais specieuse, comme en bas à droite, ou deux sous-groupes, chacun sans corrélation, sont combinés Une corrélation entre deux variables n’implique pas une causalité entre elles rho=−0.3 rho=0.9 4 4 2 2 0 0 y y −2 −2 −4 −4 −4 −2 0 2 4 −4 −2 0 2 4 x x rho=0 rho=0.9 3 4 4 2 2 2 1 0 0 y y 0 −1 −2 −2

Probabilité et Statistique 2023 PDF

Document Details

Tags

Related

Summary

Full Transcript

Upgrade to continue