Bases pour l’analyse statistique descriptive et inférentielle (théorie) 2024-2025 PDF
Document Details
Uploaded by Deleted User
2024
Marielle BRUYNINCKX
Tags
Summary
This document is a course outline for a statistical analysis course covering descriptive and inferential statistics. It describes the course content, including topics like data presentation, statistical measures, probability, and sampling techniques. The course is for a 2024-2025 academic year and is presented by Professor Marielle Bruyninckx.
Full Transcript
Bases pour l’analyse statistique descriptive et inférentielle (théorie) Prof. Marielle BRUYNINCKX Année académique 2024-2025 1 Plan du cours Chapitre 1 : statistique descriptive...
Bases pour l’analyse statistique descriptive et inférentielle (théorie) Prof. Marielle BRUYNINCKX Année académique 2024-2025 1 Plan du cours Chapitre 1 : statistique descriptive Tableaux de données et représentations graphiques Indices statistiques (moyenne, mode, écart type, quantiles, note z, note u,...) Corrélation paramétrique (coefficient r de Bravais-Pearson) - aspects descriptifs Chapitre 2: statistique inférentielle Notions de probabilités et distributions théoriques (normale et binomiale) Échantillonnage Intervalles de confiance Tests statistiques (F de Snédecor, t de Student pour 1 échantillon, pour 2 échantillons indépendants/appareillés) Note importante Les différents syllabus du cours de Bases pour l’analyse statistique descriptive et inférentielle sont conçus pour être très concrets et vous aider au mieux dans la compréhension de la théorie et des exercices. Pour cela, nous utilisons régulièrement des exemples qui permettent de comprendre rapidement les principes de base et les différents concepts en lien avec la matière. Vous en verrez notamment plusieurs dans lesquels nous utilisons les termes « filles » et « garçons ». Nous avons bien conscience que la réalité est bien plus complexe et compte plus de deux « catégories ». Cependant, dans un souci de simplicité des exemples, nous faisons le choix de n’utiliser que celles-ci. 2 Table des matières Chapitre 1 : statistique descriptive (descriptive statistics)..................................................................... 9 1. Présenter et organiser les données recueillies......................................................................... 10 1.1. Tableaux de données : introduction.................................................................................. 10 1.2. Ensembles et tableaux de données................................................................................... 11 1.2.1. Ensemble homogène (homogeneous population):................................................... 12 1.2.2. Ensemble hétérogène (heterogeneous population):..................................................... 13 a. Groupes indépendants.................................................................................................. 13 b. Groupes appareillés....................................................................................................... 14 c. Groupes hybrides.......................................................................................................... 15 1.2.3. Effectifs............................................................................................................................ 16 1.2.4. Données (data)................................................................................................................ 17 1.3. Différents types de données............................................................................................. 18 a. Données métriques (numerical data)............................................................................ 18 b. Données non métriques (non numerical data)............................................................. 19 Ordinales par rang..................................................................................................... 19 Ordinales par catégories........................................................................................... 20 Nominales.................................................................................................................. 21 1.4. Comment présenter les données? Situation 1 : petits effectifs (N50).......................... 32 1.5.1 Notions de base................................................................................................................ 32 a. Domaine de la variable.................................................................................................. 32 b. Etendue des données.................................................................................................... 33 c. Nombre de valeurs possibles........................................................................................ 33 Comment grouper les données en classes ?........................................................................ 33 3 1.5.2. Représentation graphique des données métriques en classes....................................... 34 a. Limites de classe............................................................................................................ 34 b. Bornes de classe............................................................................................................ 35 c. Centres de classe........................................................................................................... 35 d. Intervalle de classe........................................................................................................ 35 e. Effectifs de classe.......................................................................................................... 36 f. Proportions d’effectifs................................................................................................... 36 g. Densités d’effectifs........................................................................................................ 37 h. Présentation numérique des données groupées en classes......................................... 37 i. Construction de l’histogramme..................................................................................... 38 1.5.3. En résumé............................................................................................................................ 39 2. Caractériser l’ensemble des données par une valeur numérique............................................ 41 2.1. Indices de position............................................................................................................. 41 2.1.1. Moyenne................................................................................................................... 41 a. Moyenne pondérée....................................................................................................... 44 A partir de nombres.................................................................................................. 44 A partir de moyennes................................................................................................ 46 A partir des centres de classe................................................................................... 47 2.1.2. Mode......................................................................................................................... 47 2.1.3. Indices quantiles........................................................................................................ 52 Médiane..................................................................................................................... 52 Les quartiles (the quartiles)....................................................................................... 54 Les déciles (the deciles).......................................................................................... 54 Les (per)centiles (the (per)centiles)...................................................................... 55 2.2. Indices de dispersion......................................................................................................... 57 2.2.1. Etendue des données (the range)............................................................................. 57 2.2.2. Ecart type (the standard deviation).......................................................................... 57 2.2.3. Variance (the variance)............................................................................................. 58 2.2.4. En résumé.................................................................................................................. 59 2.3. La fonction de densité....................................................................................................... 60 2.3.1. Caractéristiques......................................................................................................... 60 2.3.2. Les formes les plus courantes................................................................................... 61 a. Symétrique (symmetrical distribution)......................................................................... 61 b. Biaisée à droite (skewed distribution - positive skew).................................................. 62 4 c. Biaisée à gauche (skewed distribution - negative skew)............................................... 63 d. Monomodales............................................................................................................... 63 e. Plurimodales.................................................................................................................. 64 2.3.3. Eléments remarquables............................................................................................. 64 2.3.4. Travail d’intégration.................................................................................................. 69 2.4. Loi normale ou loi de Laplace-Gauss (the normal distribution or the normal curve)....... 70 2.4.1. Caractéristiques............................................................................................................... 70 2.4.2. Allure.............................................................................................................................. 71 2.5. Indices de relation............................................................................................................. 74 2.5.1. La note z ou variable centrée réduite....................................................................... 74 a. Définition....................................................................................................................... 74 b. Propriétés de la moyenne et de l’écart type................................................................. 75 Propriété de la moyenne........................................................................................... 75 Corollaire................................................................................................................... 76 Propriété de l’écart type........................................................................................... 76 Corollaire................................................................................................................... 77 c. Formule de la note z...................................................................................................... 79 d. Distribution centrée réduite.......................................................................................... 80 e. Calcul de proportions sous la loi normale centrée réduite........................................... 81 Calcul d’une proportion entre deux points (a et b) : principes................................. 81 Utilisation de la table des aires sous la courbe normale centrée réduite................. 82 Surface délimitée par la moyenne et une coupure à droite................................. 83 Surface délimitée par la moyenne et une coupure à gauche............................... 83 Surface délimitée par une coupure à gauche et une coupure à droite................ 83 Surface délimitée par deux coupures à droite...................................................... 84 Surface délimitée par deux coupures à gauche.................................................... 84 Surface inférieure à une coupure à droite............................................................ 84 Surface supérieure à une coupure à gauche......................................................... 85 Surface supérieure à une coupure à droite........................................................... 85 Surface inférieure à une coupure à gauche.......................................................... 85 En résumé.............................................................................................................. 86 2.5.2. Calcul d’aires sous n’importe quelle courbe normale............................................... 86 2.6. Le coefficient de corrélation r de Bravais-Pearson........................................................... 93 2.6.1. Concepts de base....................................................................................................... 93 5 a. Groupes appareillés (paired groups)............................................................................. 93 b. Coefficient de corrélation (correlation coefficient)...................................................... 93 c. Diagramme de dispersion (scatter plot ; scatter diagram)........................................... 93 d. Ligne de régression (regression line)............................................................................. 94 e. Corrélation et régression simples.................................................................................. 95 f. Corrélation et régression multiples............................................................................... 95 g. Corrélation linéaire........................................................................................................ 96 h. Corrélation non linéaire................................................................................................ 96 2.6.2. Caractéristiques du coefficient r de Bravais-Pearson............................................... 97 a. Diagrammes de dispersion: situations.......................................................................... 97 r = 1............................................................................................................................ 97 r = -1.......................................................................................................................... 98 r = 0............................................................................................................................ 99 0 < r < 1.................................................................................................................... 100 -1 < r < 0................................................................................................................... 101 b. Droite de régression de y en x.................................................................................... 102 c. Droite de régression de x en y.................................................................................... 102 d. Droites de régression: situations................................................................................. 102 r = 1.......................................................................................................................... 102 r = -1........................................................................................................................ 103 r = 0.......................................................................................................................... 103 0 < r < 1.................................................................................................................... 104 -1 < r < 0................................................................................................................... 104 e. Droites de régression: synthèse.................................................................................. 104 2.6.3. Comment interpréter un coefficient de corrélation ?............................................. 106 2.6.4. Synthèse.................................................................................................................. 107 2.7. En résumé........................................................................................................................ 107 Chapitre 2 : statistique inférentielle............................................................................................ 109 1. Notions élémentaires de probabilités..................................................................................... 109 1.1. Probabilité simple............................................................................................................ 109 1.2. Probabilité a priori (the a priori probability)................................................................... 111 1.3. Evènements impossible et certain.................................................................................. 113 1.4. Probabilités complémentaires, variable dichotomique et évènements incompatibles. 114 6 1.5. Théorèmes d’addition et de multiplication ; tirages exhaustifs et non exhaustifs ; évènements indépendants et dépendants................................................................................. 116 1.5.1. Théorème d’addition (addition rule)....................................................................... 117 1.5.2. Théorème de multiplication(multiplication rule).................................................... 117 1.5.3. Synthèse.................................................................................................................. 124 1.5.4. Travail d’intégration................................................................................................ 124 2. Loi binomiale (binomial distribution)...................................................................................... 127 2.1. Binôme de Newton.......................................................................................................... 127 2.2. Description et utilisation de la loi binomiale................................................................... 129 2.3. Propriétés de la loi binomiale.......................................................................................... 134 2.4. Approche de la loi binomiale par la loi normale............................................................. 139 2.5. Synthèse.......................................................................................................................... 141 2.6. En résumé : choix de la méthode.................................................................................... 141 2.7. Exercice d’intégration :.................................................................................................... 142 3. Techniques inférentielles........................................................................................................ 143 3.1. Objectifs........................................................................................................................... 143 3.2. Echantillonnage............................................................................................................... 144 3.2.1. Concepts de base..................................................................................................... 144 3.2.2. Représentativité de l’échantillon............................................................................ 145 3.2.3. Statistiques et paramètres...................................................................................... 145 3.2.4. Nombre de degrés de liberté.................................................................................. 147 3.2.5. Distributions d’échantillonnage.............................................................................. 148 3.2.6. Paramètre estimé et erreur type sur l’indice.......................................................... 149 a. Distribution d’échantillonnage de la moyenne........................................................... 149 b. Distribution d’échantillonnage de l’écart type............................................................ 150 c. Distribution d’échantillonnage des proportions......................................................... 150 3.2.7. Intervalle de confiance............................................................................................ 150 3.2.8. Quelles questions faut-il se poser lorsqu’on cherche à déterminer un intervalle de confiance?............................................................................................................................... 151 a. Dans quelle distribution d’échantillonnage dois-je travailler?................................... 151 b. Quelle est la forme de cette distribution d’échantillonnage?.................................... 151 Distribution d’échantillonnage de la moyenne....................................................... 152 Distribution d’échantillonnage de l’écart type........................................................ 152 Distribution d’échantillonnage des proportions................................................... 152 c. Quelle est la probabilité que je souhaite associer à l’intervalle de confiance?.......... 153 7 3.2.9. Détermination de la note z (u ou t)......................................................................... 153 3.2.10. En résumé............................................................................................................ 153 3.2.11. Rédaction des phrases de conclusion.................................................................. 155 3.2.12. Travail d’intégration............................................................................................ 155 3.3. Tests d’hypothèse (hypothesis testing)........................................................................... 158 3.3.1. Tests de conformité (test of conformity)................................................................ 158 3.3.2. Tests d’homogénéité (test of homogeneity)........................................................... 159 3.3.3. Principes.................................................................................................................. 160 3.3.4. Hypothèse nulle (null hypothesis)........................................................................... 160 3.3.5. Intervalle de confiance (I.C.)(Confidence interval).................................................. 161 3.3.6. Test à deux issues (two-tailed test)........................................................................ 164 3.3.7. Test à une issue (one-tailed test)............................................................................ 166 3.3.8. Exercices d’intégration............................................................................................ 168 3.3.9. Rédaction des phrases de conclusion..................................................................... 169 3.3.10. Exercices d’intégration........................................................................................ 171 3.3.11. Transformer un résultat pour un test à 1 issue en un résultat pour un test à 2 issues 172 3.3.12. Transformer un résultat pour un test à 2 issues en un résultat pour un test à 1 issue 172 3.3.13. En résumé............................................................................................................ 173 3.3.14. Comment décider si le résultat d’un test est globalement significatif?.............. 175 3.4. Le test F de Snedecor.................................................................................................. 176 3.5. Le test t de Student..................................................................................................... 177 3.5.1. Le test t de Student pour échantillons indépendants............................................. 177 3.5.2. Le test t de Student pour échantillons appareillés.................................................. 178 3.5.3. Le test t de conformité............................................................................................ 179 3.6. Entraînement à l’utilisation des tables et à l’interprétation....................................... 180 Test F de Snédécor...................................................................................................... 180 Test t de Student......................................................................................................... 186 8 Chapitre 1 : statistique descriptive (descriptive statistics) Premier objectif : organiser et présenter les données recueillies lors d’une expérimentation, d’une enquête ou d’une observation Second objectif: caractériser l’ensemble des données par une valeur numérique La statistique descriptive offre ainsi des techniques pour organiser et présenter les données sous forme de tableaux ou de graphes. Elle permet également de caractériser l'ensemble à l’aide de valeurs numériques spécifiques (ou indices) comme la moyenne arithmétique par exemple. La plupart des techniques de la statistique descriptive reposent sur des traitements arithmétiques élémentaires, fournissant des images simples d'une réalité parfois complexe. Exemple Un chercheur a pour mission d’évaluer la taille des jeunes à la fin de l'adolescence. Il procède pour ce faire à la mesure d’un groupe d’étudiants de dernière année du secondaire et consigne ces données sur une liste alphabétique. La simple consultation de cette liste ne permet pas de se faire aisément une idée d’ensemble. Il est nécessaire de traiter les données recueillies pour en extraire les éléments pertinents comme, par exemple, la taille moyenne ou encore, la taille la plus fréquemment présente (cet indice particulier est appelé le mode). Il peut également résumer les données sous la forme d'un tableau ordonné ou encore, d'un graphique. 9 1. Présenter et organiser les données recueillies 1.1. Tableaux de données : introduction Hommes Femmes Haïti 60 66 Rép. Dom. 69 76 Jamaïque 68 73 Belgique 80 84 Norvège 82 85 RDC 57 65 Tableau 1 : espérance de vie à la naissance (2021) hommes/femmes – en années (source: worldbank, 2023) Questions Qui a la plus grande espérance de vie? Les hommes ou les femmes? Cette constatation est-elle valable pour tous les pays présentés dans le tableau? Dans quel pays les femmes ont-elles l’espérance de vie la plus courte? Dans quel pays les hommes ont-ils l’espérance de vie la plus longue? De combien est l’espérance de vie pour les femmes en Belgique? Le tableau de données permet d’organiser et de présenter les données simplement. Grâce à la légende qui se trouve sous le tableau, chacun peut effectuer une lecture aisée des données. On verra plus tard que les graphiques permettent, eux aussi, une présentation aisément lisible des données. 10 Autre exemple Tableau 1 bis : centenaires par sexe pour les régions et la Belgique, 2010 et 2020 (source : Statbel, 2020) Questions Quel est le sexe pour lequel on recense le nombre de centenaires le plus élevé? Cette constatation est-elle valable pour toutes les régions? Le nombre d’hommes centenaires a-t-il augmenté en 10 ans dans la région wallonne ? Le nombre de femmes centenaires a-t-il augmenté en 10 ans dans la région wallonne? Combien y avait-il de femmes centenaires en Belgique au 01/01/2020? 1.2. Ensembles et tableaux de données Une expérience en sciences humaines conduit à recueillir des données à partir de mesures, ou d’observations, effectuées sur les éléments constituant l’ensemble considéré. Ces éléments seront ainsi appelés, selon les cas, objets de mesure ou objets d’observation. Le choix de la méthode statistique dépend d’une part, des caractéristiques de cet ensemble et d’autre part, du type de données recueillies. 11 L’ensemble peut être constitué : d’un seul groupe de données (on parlera dans ce cas d’ensemble homogène) de plusieurs groupes de données (on parlera dans ce cas d’ensemble hétérogène). 1.2.1. Ensemble homogène (homogeneous population): Ensemble de données recueillies à l’occasion d’une seule prise de mesures et formant un ensemble homogène. Julie 8 Anna 9 Franco 3 Gaëlle 6 Jules 5 Hassan 8 Lola 9 Tom 3 Dylan 8 Nathan 10 Tableau 2 : résultats au test de calcul (/10) de la classe de 1ère A de l’Ecole Victor Hugo 12 1.2.2. Ensemble hétérogène (heterogeneous population): Ensemble de données recueillies à l’occasion de deux prises de mesure parallèles et formant un ensemble hétérogène. Les groupes peuvent être indépendants, appareillés ou hybrides a. Groupes indépendants Des groupes sont dits indépendants si, a priori, il n'y a aucune raison d'associer les données d’un groupe à celles de l’autre. Ex.: résultats de deux classes à un même test de calcul Le nombre de données du premier groupe peut être différent de celui du second groupe. 13 ère ère Classe de 1 A Classe de 1 B Décrivez l’ensemble des données ci-contre : Julie 8 Steve 5 Anna 9 Laura 7 Franco 3 Emma 4 Gaëlle 6 Kevin 7 Jules 5 Thomas 3 Hassan 8 Milo 8 Lola 9 Leila 6 Tom 3 Zara 9 Dylan 8 Nathan 10 Tableau 3 : résultats au test de calcul (/10) des deux classes de première année de l’Ecole Victor Hugo b. Groupes appareillés Des groupes sont dits appareillés si on peut associer chaque donnée d'un groupe à une seule donnée d'un autre groupe. Ensemble de données recueillies à l’occasion de deux prises de mesure sur les mêmes sujets et formant un ensemble hétérogène. Ex. : les résultats d'une classe à deux examens Le nombre de données du premier groupe doit être identique à celui du second groupe : on travaille avec des paires de données. 14 Test de calcul Test de lecture Décrivez l’ensemble des données ci- Julie 8 7 contre : Anna 9 8 Franco 3 4 Gaëlle 6 7 Jules 5 3 Hassan 8 10 Lola 9 7 Tom 3 5 Dylan 8 7 Nathan 10 8 Tableau 4 : résultats au test de calcul (/10) et au test de lecture (/10) de la classe de 1ère A de l’Ecole Victor Hugo Note : des groupes appareillés sont généralement constitués à partir de plusieurs mesures, ou observations, effectuées sur les mêmes objets. Ces mesures, ou observations, sont soit similaires et effectuées à des moments différents, soit différentes et réalisées au cours d’une même période. Exemples : a. Les résultats d’une classe à l’examen de mathématique en janvier et en juin → pour chaque élève, on peut associer une note de mathématique en janvier à une note de mathématique en juin. b. Les résultats d’une classe aux examens de physique et de mathématique → pour chaque élève, on peut associer une note de mathématique à une note de physique. c. Groupes hybrides Les groupes sont hybrides s'ils possèdent certains éléments communs. Ex. : dans une classe, le groupe des élèves qui pèsent plus de 60 kg et celui de ceux qui mesurent plus de 160 cm. 15 Ce type d’ensemble ne se prête généralement pas aux traitements statistiques. 1.2.3. Effectifs Dans le cas d’un ensemble homogène, on recueille une donnée pour chaque objet; l’effectif total est donc égal au nombre d’objets de mesure ou d’observation (donc, de données). L’effectif total est noté N. Ex : donner l’effectif du tableau 2 → Donnez les effectifs des différents groupes ainsi que l’effectif total des tableaux 3 et 4 ; utilisez les notations correctes : ère ère Classe de 1 A Classe de 1 B Calculez les effectifs et décrivez l’ensemble des Julie 8 Steve 5 données ci-contre : Anna 9 Laura 7 Franco 3 Emma 4 Gaëlle 6 Kevin 7 Jules 5 Thomas 3 Hassan 8 Milo 8 Lola 9 Leila 6 Tom 3 Zara 9 Dylan 8 Nathan 10 Tableau 3 : résultats au test de calcul (/10) des deux classes de première année de l’Ecole Victor Hugo 16 Test de calcul Test de lecture Calculez les effectifs et décrivez l’ensemble des Julie 8 7 données ci-contre : Anna 9 8 Franco 3 4 Gaëlle 6 7 Jules 5 3 Hassan 8 10 Lola 9 7 Tom 3 5 Dylan 8 7 Nathan 10 8 Tableau 4 : résultats au test de calcul (/10) et au test de lecture (/10) de la classe de 1ère A de l’Ecole Victor Hugo 1.2.4. Données (data) Les données sont notées Xi Julie 8 Donnez la valeur des données demandées : Anna 9 X= 1 Franco 3 X= 3 Gaëlle 6 X= Jules 5 7 Hassan 8 X= 9 Lola 9 Tom 3 Dylan 8 Nathan 10 Tableau 2 : résultats au test de calcul (/10) de la classe de 1ère A de l’Ecole Victor Hugo 17 1.3. Différents types de données Pour réaliser des représentations graphiques, il faut pouvoir reconnaître les différents types de données: 1. Données métriques 2. Données non métriques Ordinales par rang (ranked ordinal data; ordinal ranking) Ordinales par catégories (grouped ordinal data; ordinal data organized by category) Nominales (nominal data) a. Données métriques (numerical data) Les données métriques proviennent de mesures, ou de comptages, effectués sur les éléments de l'ensemble. Exemples. a. La taille et le poids des élèves d’une classe (données métriques issues de mesures). b. Le nombre de fautes dans une dictée (données métriques issues de comptages). Chaque donnée peut être située sur un axe pourvu d'une unité correspondant à la mesure. Si elles sont issues de mesures, elles sont théoriquement continues (c’est-à-dire sans interruption) car tous les points de l'axe peuvent théoriquement représenter une donnée. En pratique, la mesure est déterminée par la précision de la mesure et les données ne peuvent se situer qu'en des endroits précis, discrets de l'axe, ce qui a pour conséquence que toutes les données métriques peuvent, au final, être considérées comme discrètes. Ex. : tailles mesurées avec une précision de mesure de 1 cm 18 Si elles proviennent de comptages, les données métriques se répartissent sur l'axe de manière discontinue (ou discrète). Ex : nombres de fautes dans une dictée b. Données non métriques (non numerical data) Les données non métriques ne sont pas issues d’une mesure ou d’un comptage mais proviennent plutôt d’un processus de classement ou de répartition (individuelle ou en catégories) des éléments de l'ensemble. Ordinales par rang Hiérarchie, ordre ➔ classement individuel et ordonné Chaque élément est caractérisé par un nombre correspondant à sa place dans le classement (ou rang). Lorsque deux ou plusieurs valeurs sont identiques, leur rang est égal à la moyenne arithmétique des rangs de ces valeurs. Autres exemples : classement des élèves par ordre de tailles (prof de gym) ; chevaux à l’arrivée d’une course (premier, deuxième et troisième). Attribuez un rang à chacune de ces 8 tailles: 155 160 162 162 170 176 182 187 19 Ordinales par catégories Hiérarchie, ordre ➔ données réparties en classes mutuellement exclusives et ordonnées La caractérisation d'une catégorie se fait par le dénombrement de ses éléments (cet effectif est toujours un nombre entier) : 5 grands, 6 moyens, 10 petits. Les données ordinales peuvent également faire l’objet de présentations sous la forme de pourcentages. Degré de satisfaction Pourcentages Je la recommande 74% Très satisfait 17% satisfait 5% Moyennement satisfait 3% Pas du tout satisfait 1% Tableau 5 : degré de satisfaction des participants à une formation 20 Nominales Hiérarchie, ordre ➔ données réparties en classes mutuellement exclusives mais pas ordonnées, pas hiérarchisées La caractérisation d'une catégorie se fait par le dénombrement de ses éléments (cet effectif est toujours un nombre entier) : 6 cheveux blonds; 10 cheveux bruns; 4 cheveux noirs. Les données nominales peuvent également faire l’objet de présentations sous la forme de pourcentages. Religions Pourcentages Hindouisme 49% Christianisme 32% Islam 17% Bouddhisme et religions chinoises 1% Sans religion et autres 1% Tableau 6 : Principales religions en présence à l’Ile Maurice (selon le recensement de 2011) 21 22 1.4. Comment présenter les données? Situation 1 : petits effectifs (N50) Lorsque l’effectif de l’échantillon augmente, on va procéder à un groupement en classes des données brutes (ex: maternité où on va « classer » les bébés nés cette année en fonction de leur poids à la naissance). Graphiquement, les données groupées en classes seront représentées par un histogramme: représentation graphique des données métriques groupées en classes, constituée d’un ensemble de rectangles. 1 classe = 1 rectangle 1.5.1 Notions de base a. Domaine de la variable On appelle domaine de la variable, l’ensemble de toutes les données théoriquement observables. Le domaine de la variable est déterminé par les valeurs théoriques extrêmes en- dehors desquelles il n'est pas possible de trouver des données. Ex. : 32 b. Etendue des données On appelle étendue des données, l'écart (donc, la différence) entre la plus grande et la plus petite valeur réellement observées. Ex. : c. Nombre de valeurs possibles On appelle nombre de valeurs possibles, le nombre de valeurs différentes que peuvent prendre les données réelles à l'intérieur de l'étendue des données. Il peut être calculé comme suit: 𝐸𝑡𝑒𝑛𝑑𝑢𝑒 𝑑𝑒𝑠 𝑑𝑜𝑛𝑛é𝑒𝑠 +1 𝑝𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 𝑚𝑒𝑠𝑢𝑟𝑒 Comment grouper les données en classes ? Déterminer l’étendue des données (E.D.) Déterminer le nombre de valeurs possibles (V.P.) Choisir le nombre de classes (entre 5 et 20) avec un intervalle constant Pas de classes vides Si possible, nombre de valeurs par classe impair pour que le centre soit une donnée 33 1.5.2. Représentation graphique des données métriques en classes Lorsque l’effectif de l’échantillon augmente et que le nombre de valeurs possibles est supérieur à 20 ou 25, le groupement des données en classes métriques s'avère plus commode que la présentation sous la forme d'une suite ordonnée. Pour représenter une distribution en classes métriques, nous devons définir l'intervalle, les limites, le centre, les bornes et l'effectif de chacune des classes. a. Limites de classe On appelle limites de classe (lk) les valeurs extrêmes des données de chaque classe. Les limites de classes sont toujours des données de la distribution Ex. : 34 b. Bornes de classe On appelle borne de classe la valeur située entre la limite supérieure d'une classe et la limite inférieure de la classe suivante. Son utilité est de délimiter des classes continues ; elle est notée B k c. Centres de classe On appelle centre de classe la valeur qui se situe au centre de la classe; c’est la moyenne des deux bornes entre lesquelles il se trouve; il est noté C k d. Intervalle de classe L’intervalle de classe représente l’amplitude de chaque classe (c’est-à-dire Bs-Bi); il est noté ik 35 e. Effectifs de classe On appelle effectif de classe (fk) le nombre de données comprises dans une classe. Ce nombre entier peut être transformé en proportion d'effectifs. En effet, lorsque le nombre N d'éléments de l'ensemble est grand, on obtient une meilleure idée générale de la distribution des données en convertissant les effectifs fk de chaque catégorie en proportions d'effectifs f. Proportions d’effectifs La proportion d’effectif (pk) d’une classe est égale à l’effectif de la classe divisé par l’effectif total: 𝑓𝑘 𝑝𝑘 = 𝑁 Avec 𝑝𝑘 : 𝑝𝑟𝑜𝑝𝑜𝑟𝑡𝑖𝑜𝑛 𝑑 ′ 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑓𝑘 : 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒 𝑁: 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑡𝑜𝑡𝑎𝑙 Note : au lieu de parler de proportions d'effectifs, qui sont toujours des nombres décimaux, on parle de la même manière de pourcentages d'effectifs, c'est-à-dire, la proportion d'effectifs multipliée par 100. Ex: dans un auditoire de 200 étudiants, il y en a 60 dont la taille est comprise entre 1.70 m et 1.75 m. Quelle proportion représentent ces étudiants? 36 Nous pouvons également calculer la densité d’effectifs qui exprime la concentration des données à l’intérieur de chacune des classes. g. Densités d’effectifs La densité d’effectif (yk) d’une classe est égale à la proportion d’effectif de la classe divisée par l’intervalle de celle-ci. 𝑝𝑘 𝑦𝑘 = 𝑖𝑘 Avec : 𝑦𝑘 : 𝑑𝑒𝑛𝑠𝑖𝑡é 𝑑 ′ 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑝𝑘 : 𝑝𝑟𝑜𝑝𝑜𝑟𝑡𝑖𝑜𝑛 𝑑 ′ 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑖𝑘 : 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙𝑒 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒 h. Présentation numérique des données groupées en classes Bk Lk ck fk pk yk ------------------- 136.5 ------------------------------------------------- 137 classe 1.................................... 141 4.0500.0056 145 ------------------- 145.5 ------------------------------------------------- 146 classe 2.................................... 150 10.1250.0139 154 ------------------- 154.5 ------------------------------------------------- 155 classe 3.................................... 159 22.2750.0306 163 ------------------- 163.5 ------------------------------------------------- 164 classe 4.................................... 168 25.3125.0347 172 ------------------- 172.5 ------------------------------------------------- 173 classe 5.................................... 177 14.1750.0194 181 ------------------- 181.5 -------------------------------------------------- 182 classe 6.................................... 186 5.0625.0069 190 ------------------- 190.5 -------------------------------------------------- Total....................................................80 1 Nous observons que la somme des effectifs de classe est égale au N de l’échantillon et que, à l’arrondi près, la somme des proportions est égale à 1 (100% des données). 37 i. Construction de l’histogramme L’histogramme est la représentation graphique des données groupées en classes. Il est constitué d’un ensemble de rectangles ayant comme base (sur l'axe d’abscisse), l'amplitude (notée ik) de la classe et comme hauteur (sur l’axe d’ordonnée) la densité d’effectifs (notée yk) de la classe. Rappel : 38 Pour construire l'histogramme, nous avons porté les bornes de classes (et donc, l’intervalle) en abscisse et la densité d'effectifs en ordonnée. Toutes les classes ont la même étendue (intervalle de classe constant) mais ont une densité d'effectifs différente, puisque proportionnelle à l'effectif de chacune d’entre elles. 1.5.3. En résumé La présentation numérique et la représentation graphique dépend du type de données: données non métriques ▪ Ordinales par rang On attribue un nombre correspondant au rang de chaque donnée. Pas de représentation graphique. ▪ Ordinales par catégories On procède au dénombrement des données dans chaque catégorie hiérarchisée et on calcule les proportions d’effectifs. La représentation graphique est hiérarchisée (rectangle). ▪ Nominales On procède au dénombrement des données dans chaque catégorie et on calcule les proportions d’effectifs. La représentation graphique n’est pas hiérarchisée (disque). 39 données métriques ▪ Données brutes Données présentées sans aucun souci d’ordonnancement. ▪ Suite ordonnée Données présentées sous la forme d’une suite ordonnée par ordre croissant ou décroissant; chaque donnée est associée à un effectif. Représentation graphique “en bâtonnets”. ▪ Données groupées en classe (N>50) Données groupées en classes métriques. Pour chacune des classes, on précise intervalle, bornes, limites, centres et effectifs. Leur représentation graphique est l’histogramme. 40 2. Caractériser l’ensemble des données par une valeur numérique Introduction à la notion d’indices statistiques (statistical indices) Si la forme de l'histogramme permet de se faire une idée générale de la distribution des données, il est également possible de calculer certaines valeurs numériques (ou indices) qui permettent de résumer les caractéristiques essentielles de cette distribution. Ces indices représentent, selon les cas, des points ou des distances sur l'histogramme. Ils peuvent également exprimer des relations entre les données. Un indice statistique est donc une valeur numérique qui représente un ensemble de données. On peut essentiellement en rencontrer trois types : Indices de position Indices de dispersion Indices de relation 2.1. Indices de position Moyenne Mode Indices quantiles ▪ Médiane ▪ Quartiles ▪ Déciles ▪ Centiles 2.1.1. Moyenne La moyenne arithmétique d'un ensemble de données métriques est un indice de tendance centrale. C’est la valeur de la variable qui représente au mieux l’ensemble des données; c’est un point central autour duquel semblent se concentrer toutes les valeurs de la distribution. Elle est influencée par les valeurs extrêmes de la distribution. ̅. Elle est notée m, mx ou 𝑿 41 Géométriquement, la moyenne arithmétique est l'abscisse du centre de gravité de l'histogramme. La moyenne est égale à la somme des données ( X ) sur l’effectif total (N) : i ∑ 𝑋𝑖 𝑚= 𝑁 Ex. : Voici les notes obtenues par un étudiant durant le premier semestre (notes sur 10). Calculez sa moyenne. 7 4 6 2 7 3 1 7 2 6 7 7 1 6 42 Attention aux notations (cf p.1 du recueil de formules et tables). 1 groupe 2 groupes 2 groupes indépendants appareillés Moyenne ̅ 𝑋 𝑋1 𝑋2 𝑋̅ 𝑌̅ 𝑚 𝑚1 𝑚2 𝑚𝑥 𝑚𝑦 Complétez le tableau suivant : Recueil de formules et tables p. 1 Ensemble hétérogène constitué de deux groupes indépendants de données Notations: N1 et m1 N2 et m2 43 Complétez le tableau suivant : Recueil de formules et tables p. 1 Ensemble hétérogène constitué de deux groupes appareillés de données Notations: Nx et mx Ny et my a. Moyenne pondérée A partir de nombres Nous avons vu dans le module précédent qu’il est parfois plus pratique d’envisager une présentation où l’on associe à chaque donnée, un nombre entier (effectif) qui indique le nombre d'éléments de l'ensemble caractérisés par cette donnée. Chaque donnée est ainsi affectée d’un certain “poids” : on dit que la donnée est pondérée par son nombre d'apparitions (ou effectif). La moyenne pondérée peut dès lors être obtenue de la manière suivante: ∑ 𝑓𝑖 𝑋𝑖 𝑋̅ = 𝑁 44 Exemple : Franco 3 Tom 3 Jules 5 Gaëlle 6 Julie 8 Hassan 8 Dylan 8 Anna 9 Lola 9 Nathan 10 N = 10 m =26.9 Tableau Exercice : Un psychologue fait passer un test de connaissances aux 14 enfants d’une classe de sixième année. Les résultats sont les suivants (test noté sur 10): 1 6 7 7 2 3 1 2 4 6 6 7 7 7 1. Calculez la moyenne arithmétique 2. Rangez les données par ordre croissant et associez chacune d’entre elles à sa fréquence d’apparition 3. Calculez la moyenne pondérée 45 A partir de moyennes Si parmi N nombres, f1 ont une moyenne m1; f2 une moyenne m2,... fk une moyenne mk, et que f1 + f2 +... fk = N, la moyenne des N nombres est: ∑ 𝑁𝑖 𝑚𝑖 𝑋̅ = 𝑁 Exemple : Un établissement d’enseignement primaire comporte 6 classes de sixième année. A l’issue des épreuves du CEB, chaque instituteur calcule la moyenne obtenue (/100) par sa classe à cette certification extérieure. Le directeur souhaite maintenant disposer de la moyenne de son établissement à cette épreuve. Comment va-t-il procéder? Aidez-le à calculer la moyenne globale. 6A 𝑁1 = 15 𝑚1 = 76 6B 𝑁2 = 22 𝑚2 = 54 6C 𝑁3 = 32 𝑚3 = 87 6D 𝑁4 = 16 𝑚4 = 68 6E 𝑁5 = 20 𝑚5 = 48 6F 𝑁6 = 27 𝑚6 = 90 Tableau 7 : résultats des 6 classes de sixième année aux épreuves du CEB 46 A partir des centres de classe Lorsque les données sont groupées en classes, on considère que les données sont réparties de manière homogène à l'intérieur de chaque classe et que la moyenne de la classe se situe donc au centre de gravité de la classe, c'est-à-dire au centre de la classe. La moyenne arithmétique de l'ensemble peut alors être approchée par la moyenne pondérée de chaque classe. ∑ 𝑓𝑘 𝐶𝑘 𝑋̅ = 𝑁 Note : cette moyenne est en fait une approximation, puisque chaque donnée réelle est remplacée par le centre de la classe à laquelle elle appartient. Cependant, les erreurs introduites par cette approximation sont d’autant plus négligeables que les effectifs de classe sont élevés et que l'intervalle de classe est petit. 2.1.2. Mode Le mode est la donnée qui a la plus grande fréquence d’apparition. Graphiquement, c’est un point d’abscisse. Ex: soient les données suivantes: 4 6 4 7 8 4 Déterminez le mode, représentez graphiquement et vérifiez votre réponse. 47 Lorsque les données sont groupées en classes (histogramme), le mode est alors le centre de la classe modale, c'est-à-dire la classe qui a la densité la plus élevée. Sur l’histogramme suivant, indiquez 1. la classe modale par une flèche et 2. le mode par un point rouge : 48 Situations Dans ce cas, il n’y a qu’une seule classe modale: on va donc parler de distribution unimodale ou monomodale. Dans ce cas, il y a deux classes modales: on va parler de distribution bimodale. 49 Dans ce cas, il y a plusieurs classes modales: on va parler de distribution multimodale ou plurimodale. Il est fréquent dans la littérature que l’on parle de distribution bimodale lorsque deux « pics », de hauteurs différentes, apparaissent sur le graphique. 50 Il est aussi fréquent dans la littérature que l’on parle de distribution plurimodale lorsque plusieurs « pics », de hauteurs différentes, apparaissent sur le graphique 51 2.1.3. Indices quantiles Les indices quantiles sont des valeurs qui divisent l’ensemble des données en plusieurs parties égales. la médiane les quartiles les déciles les centiles Médiane La médiane d’une distribution est un indice de tendance centrale, relatif aux rangs des données. C’est le point d’abscisse tel que 50% des données se trouvent à sa gauche et 50% des données se trouvent à sa droite. Elle est notée méd. Valeur de l’abscisse qui divise un histogramme en deux surfaces égales. 52 Sur l’histogramme suivant, indiquez la médiane par un point rouge : Géométriquement, la médiane n’est pas l'abscisse du centre de gravité de l'histogramme (sauf dans le cas d’un graphique symétrique ; ce que nous verrons plus loin). Les autres indices quantiles constituent une généralisation de la notion de médiane qui divise la distribution en deux parties égales. 53 Les quartiles (the quartiles) Ils sont notés Q1, Q2, Q3 et sont les valeurs qui divisent l’ensemble des données en quatre parties égales. Les déciles (the deciles) Ils sont notés D1, D2, … D9 et sont les valeurs qui divisent l’ensemble des données en dix parties égales. 54 Les (per)centiles (the (per)centiles) Ils sont notés C1, C2, … C99 et sont les valeurs qui divisent l’ensemble des données en cent parties égales. Les centiles (appelés aussi percentiles) sont utilisés dans la construction des courbes pédiatriques. Les courbes pédiatriques sont des outils qui permettent aux professionnels de la santé de suivre le rythme de croissance des enfants au fil des mois et des années. Elles permettent en effet, en un coup d’œil, de voir où se situe la taille, le poids ou encore, le périmètre crânien d’un enfant par rapport à celles d’autres enfants du même âge. Lors des consultations, la taille, le poids et le périmètre crânien sont mesurés et les chiffres obtenus sont ensuite reportés sur les différentes courbes. Des courbes du même genre permettent également d’interpréter l’indice de masse corporelle1 et sont utilisées par les équipes pluridisciplinaires, par exemple, pour l’analyse de l’évolution des situations de troubles alimentaires. 1 L'IMC se calcule simplement en divisant le poids (en kg) par le carré de la taille (m). Un IMC "normal" ou "idéal" se situe entre 18,5 et 25, souvent synonyme de bonne santé. IMC = poids (kg) / taille (m²) 55 Dans cet exemple, nous voyons les courbes de poids correspondant à la population des enfants de la naissance à 3 ans (courbes confondues pour les filles et les garçons). La représentation graphique est constituée de courbes indiquant divers (per)centiles. Ainsi, un enfant dont le poids se situe en dessous de la ligne inférieure (3ème percentile ou C3) appartient aux 3% des bébés les plus légers de la population ; si son poids se situe au- dessus de la ligne supérieure (97ème percentile ou C97), il appartient aux 3% des bébés les plus lourds de la population. Ces courbes sont précieuses dans la mesure où elles permettent d’observer si l’enfant se développe en restant bien sur un schéma de développement régulier (en restant sur sa courbe). Complétez : la médiane correspond: au quartile; au décile ; au centile. Note : la méthode de calcul des indices quantiles est basée sur les mêmes principes de celle utilisée pour le calcul de la médiane. 56 2.2. Indices de dispersion L'étalement plus ou moins important des données sur l'axe de mesure est appelé la dispersion des données. Un indice de dispersion est une mesure qui exprime une certaine distance sur l'axe des données. Il est donc défini dans les mêmes unités que la grandeur mesurée. Etendue des données Ecart type Variance 2.2.1. Etendue des données (the range) Nous avons vu précédemment que l’étendue des données est l'écart (donc, la distance) entre la plus grande et la plus petite valeur de la distribution. Elle constitue, par conséquent, une mesure de la dispersion (pour les extrêmes). En effet, plus cette étendue est grande, plus les données sont dispersées. Mais l'étendue des données est définie uniquement à partir des deux valeurs extrêmes et ne tient donc pas compte de la répartition des autres données à l’intérieur de la distribution. Ainsi, même à étendue des données constante, la répartition interne des données peut être totalement différente. 2.2.2. Ecart type (the standard deviation) L'écart type (noté σ) est un indice qui exprime la dispersion des données autour de la moyenne de la distribution. L’écart type est défini dans les mêmes unités que la grandeur distribuée. Il est d’autant plus grand que les éléments sont dispersés. L'écart type est défini comme la racine carrée de la moyenne du carré des écarts de chaque donnée à la moyenne de la distribution. 57 ̅ )2 ∑(𝑋𝑖 −𝑋 𝜎=√ 𝑁 Note : L'écart type est une distance entre chaque donnée et la moyenne (donc, (𝑋𝑖 − 𝑋̅ ) ). Mais c'est ∑⬚ une distance qui doit tenir compte en moyenne de tous les points de la distribution (donc, 𝑁 ). Pour mesurer la dispersion des points autour de la moyenne, peu importe que la distance soit négative (points à gauche) ou positive (points à droite), la dispersion dépend de la distance (plus celle-ci est grande, plus les points sont dispersés) et non de son orientation, donc de son signe. Nous devons donc éliminer le signe et un moyen mathématique de faire devenir positif un nombre négatif est de l'élever au carré et de prendre la racine carrée. 2.2.3. Variance (the variance) La variance est une mesure servant à caractériser la dispersion d'un échantillon ou d'une population. Elle est définie comme le carré de l'écart-type et est notée avec la lettre de l’alphabet grec (sigma minuscule) élevée au carré. La variance est égale à la moyenne arithmétique des carrés des écarts entre les données et la moyenne. 2 ∑(𝑋𝑖 − 𝑋̅ )2 𝜎 = 𝑁 Pour le calcul de la moyenne et de l’écart-type à l’aide de votre machine à calculer, pensez à visionner les 2 vidéos suivantes sur Moodle: 58 2.2.4. En résumé Avant d’aborder les indices de relation, nous allons approcher deux notions très importantes pour la suite : la fonction de densité et la loi de Laplace-Gauss. 59 2.3. La fonction de densité Lorsque les intervalles de classe deviennent de plus en plus petits, l’histogramme se réduit à une suite infinie de points - une courbe - qui définit une fonction de densité d’effectifs. 2.3.1. Caractéristiques Représentation graphique où l’on porte en abscisse: données (X ) i en ordonnée : densités d’effectifs (y ) i et où la surface représente une proportion 60 2.3.2. Les formes les plus courantes a. Symétrique (symmetrical distribution) La courbe est symétrique par rapport à un axe vertical passant par son sommet. Le mode de la distribution est le point d’abscisse correspondant à ce sommet. Les données se répartissent de manière identique de part et d’autre de la médiane. La surface totale sous la courbe est égale à 1 (c’est-à-dire 100% des données) → la surface d’une demi-courbe est égale à.5 (c’est-à-dire 50% des données). 61 Dans le cas d’une courbe symétrique, moyenne, mode et médiane sont confondus en un même point d’abscisse. Lorsque la distribution est dissymétrique, la position respective de ces trois indices permettra de déterminer si la distribution est biaisée à droite ou à gauche. b. Biaisée à droite (skewed distribution - positive skew) Dans une fonction de densité biaisée à droite, la portion à droite du sommet est plus longue que l’autre. La moyenne étant attirée par les valeurs extrêmes, où se situent le mode, la moyenne et la médiane ? 62 c. Biaisée à gauche (skewed distribution - negative skew) Dans une fonction de densité biaisée à gauche, la portion à gauche du sommet est plus longue que l’autre. La moyenne étant attirée par les valeurs extrêmes, où se situent le mode, la moyenne et la médiane ? d. Monomodales La distribution est caractérisée par un seul mode. 63 e. Plurimodales La distribution est caractérisée par plusieurs pics, plusieurs «modes». 2.3.3. Eléments remarquables Dans une distribution +/- symétrique, les points d’inflexion (c’est-à-dire les endroits où la courbure est inversée) se situent à une distance de un écart type de part et d’autre de la moyenne. Ex.: dessinez une distribution symétrique de moyenne égale à 150 et un écart type égal à 5; placez les points m+1σ et m-1σ 64 Dans une distribution +/- symétrique : 68% (soit environ 2/3) des données sont comprises entre m-1 et m+1 95% des données sont comprises entre m-2 et m+2 99% des données sont comprises entre m-3 et m+3 65 Dans une distribution +/- symétrique, la quasi-totalité des données (E.D.) se répartit sur 6 . Ex. : Calculez la surface entre : m-2 et m+1 m+1 et m+2 m-2 et m-1 Exprimez votre résultat en % de données. m-2 et m+1 66 m+1 et m+2 m-2 et m-1 67 Illustration : le quotient intellectuel 2.5% de la population ont un QI inférieur à 70, ce qui est généralement considéré comme une insuffisance mentale ; 2.5 % ont un QI supérieur à 130, ce qui est généralement considéré comme une intelligence supérieure présentée par quelqu’un de très doué. 68 2.3.4. Travail d’intégration Dans une distribution « en cloche » plus ou moins symétrique, la plus petite donnée est 30 et la plus grande est 90. Dessinez la distribution; déterminez l’étendue des données, la moyenne, le mode, la médiane et l’écart type; placez-les sur le graphique; estimez la valeur de Q1 : 45 50 55 estimez la valeur de D1: 40 45 50 69 2.4. Loi normale ou loi de Laplace-Gauss (the normal distribution or the normal curve) 2.4.1. Caractéristiques La loi de Laplace-Gauss est une fonction mathématique, élaborée initialement par Laplace et Gauss et dont la forme générale en cloche est bien connue. Cette loi, très fréquemment utilisée en sciences humaines, est aussi appelée loi normale. La loi normale ou loi de Laplace-Gauss est une fonction de densité ; sa surface totale = 1 (100% des données). Elle est continue et toujours symétrique. Comme elle est asymptotique par rapport à l’axe OX (elle tend vers l’axe en s'en rapprochant de plus en plus mais sans jamais l'atteindre), la courbe normale s’étend donc théoriquement de - à + . Comme elle est symétrique, son mode, sa moyenne et sa médiane sont confondus. Il y a 3 à gauche de la moyenne et 3 à droite. La quasi-totalité des données se répartit donc sur 6 . 70 2.4.2. Allure L’allure dépend de la valeur de la moyenne et de l’écart type. Décrivez les deux situations suivantes (moyennes et écart types) : 71 Que pouvez-vous dire des dessins suivants : Durant l’épidémie liée au Covid-19, les autorités ont tenté d’éviter la saturation des soins de santé. Pour ce faire, ils ont mis en œuvre des mesures afin d’« aplatir la courbe » de l’évolution du nombre de cas au cours du temps. Source: https://www.brunet.ca/sante/conseils-sante/aplatir-la-courbe/ 72 La première courbe, peu dispersée et haute, illustre une situation sans mesures de santé publique. Plus de gens sont atteints du coronavirus et le nombre maximal de cas prévus (pic de l'éclosion) est atteint plus rapidement. La deuxième courbe, plus plate et plus dispersée, représente la situation où des mesures de santé publique sont prises. Les cas augmentent moins rapidement et le pic de l'éclosion se produit plus tard et est surtout moins élevé. La saturation du système de santé est évitée. Lecture d’un graphique issu de la littérature scientifique Déterminez les valeurs de la moyenne et de l’écart type de chaque distribution. 73 2.5. Indices de relation ▪ La variable centrée réduite ▪ Le coefficient de corrélation 2.5.1. La note z ou variable centrée réduite a. Définition La note z est un indice de relation qui permet de résoudre des problèmes où il est nécessaire de comparer des distributions qui se répartissent différemment. Ex: un élève du secondaire obtient 24/30 en physique et 80/100 en mathématiques. Dans laquelle de ces deux matières est-il le mieux classé? 74 ➔ Il faudrait une variable sans unité de mesure qui permette de mettre en relation des grandeurs mesurées dans des unités différentes. b. Propriétés de la moyenne et de l’écart type Propriété de la moyenne Lorsqu’on soustrait à chacune des données X d’un échantillon un nombre constant (noté b), la i moyenne du nouvel ensemble ainsi créé est égale à la moyenne des X soustraite de la même i constante. Si T = X - b alors m = m - b i i T X Ex. : Calculez la moyenne sur base des données suivantes (Xi): 7 4 6 2 7 3 1 7 2 6 7 7 1 6 Idem (Ti): 6 3 5 1 6 2 0 6 1 5 6 6 0 5 75 Si T = X - b alors m = m - b i i T X Corollaire Si l’on soustrait la moyenne (m ) d’un échantillon à chacune des données de celui-ci, la x moyenne (m ) du nouvel ensemble ainsi créé sera nulle. T Ici b = m x Si T = X - m alors m = m - m =0 i i x T x x On dit qu’une telle transformation centre la distribution autour de l’abscisse 0; la nouvelle distribution ainsi créée est appelée distribution centrée. Cette opération ne modifie pas la forme générale. Note : lorsqu’on additionne à chacune des données X d’un échantillon un nombre constant i (noté b), la moyenne du nouvel ensemble ainsi créé est égale à la moyenne des X additionnée i de la même constante. Si T = X + b alors m = m + b i i T X Propriété de l’écart type Lorsqu’on divise chacune des données X d’un échantillon par un nombre constant (noté a), i l’écart type du nouvel ensemble ainsi créé est égal à l’écart type des X divisé par la même i constante. 76 Xi Si Ti = alors T = X a a Ex. : Calculez l’écart type sur base des données suivantes (Xi): 8 4 6 2 8 4 2 8 2 6 8 8 2 6 Calculez l’écart type sur base des données suivantes (Ti): 4 2 3 1 4 2 1 4 1 3 4 4 1 3 Xi Si Ti = alors T = X a a Corollaire Si l’on divise chacune des données X par un nombre constant a = , l’écart type du nouvel i x ensemble ainsi créé est égal à 1. Xi Si Ti = alors T = X donc T = 1 X X On dit qu’une telle transformation réduit la distribution à un écart type égal à 1; la nouvelle distribution ainsi créée est appelée distribution réduite. La distribution réduite est sans unité. Note : Lorsqu’on multiplie chacune des données Xi d’un échantillon par un nombre constant (noté a), l’écart type du nouvel ensemble ainsi créé est égal à l’écart type des X i multiplié par la même constante. 77 Revenons à notre exemple de départ : Si nous centrons ces distributions autour d’une moyenne égale à zéro, nous obtenons deux distributions qui ne diffèrent plus que par leur allure générale et leur dispersion Si nous réduisons l’écart type de chacune des distributions à 1 → il ne reste que quelques différences d’allure générale 78 c. Formule de la note z La variable centrée réduite mesure l’écart à la moyenne rapporté à l’écart type : Xi − X z= i C’est une variable sans dimension, indépendante du choix des unités de mesure et qui permet, par conséquent, de mettre en relation des grandeurs mesurées dans des unités différentes. Comme elle est centrée par rapport à la moyenne, elle permet de supprimer des effets extérieurs tels que différences de méthode ou d'échelle de mesure. Puisqu’elle est réduite par rapport à l’indice de dispersion, elle permet d'éliminer des effets dûs à la difficulté relative des épreuves, la diversité des éléments, la complexité de la tâche, etc.. Revenons à notre exemple de départ : Un élève obtient 24/30 en physique et 80/100 en math. Par rapport à l’ensemble de la classe, en quoi est-il mieux classé? 79 d. Distribution centrée réduite La distribution centrée réduite est une distribution centrée autour d’une moyenne égale à zéro et réduite à un écart type égal à 1. 80 e. Calcul de proportions sous la loi normale centrée réduite Calcul d’une proportion entre deux points (a et b) : principes Le calcul d’une surface sous une courbe s’effectue généralement au travers de la résolution d’une intégrale. Rappel: SURFACE = PROPORTION a et b sont les coupures qui délimitent la surface. Cette procédure, relativement complexe, peut cependant être avantageusement remplacée par la consultation d’une table qui fournit directement le résultat de différentes intégrales. Il est évident que, pour être aisément consultée, cette table doit être néanmoins totalement indépendante de la grandeur distribuée (sinon, on aurait une table pour chaque distribution!). Table des aires délimitées par la loi normale centrée réduite (voir p.9 du Recueil de formules et tables) entre 0 et u (valeur de la coupure). Comme son nom l’indique, cette table donne les surfaces comprises entre la moyenne (m=0) et une coupure u sous la courbe normale centrée réduite (avec 4 décimales). 81 Utilisation de la table des aires sous la courbe normale centrée réduite Entrée «gauche»: partie entière et première décimale de la valeur de coupure (u) Entrée «haut»: deuxième décimale de la valeur de coupure (u) «intérieur» de la table: surfaces comprises entre 0 et u sous la courbe normale centrée réduite Ex. : déterminez la surface allant de 0 à u = 0.32 Note : la table de la loi normale centrée réduite est en fait une demi table (car courbe symétrique) → Surface maximum =.5 82 Surface délimitée par la moyenne et une coupure à droite On procède, dans ce cas, à une détermination directe de la surface dans la table. Ex. : entre 0 et 1.56 Surface délimitée par la moyenne et une coupure à gauche On procède, dans ce cas, à une détermination directe de la surface dans la table. Ex. : entre -1.63 et 0 Surface délimitée par une coupure à gauche et une coupure à droite Dans ce cas, on additionne les deux surfaces : celle qui se trouve à gauche de la moyenne et celle qui se trouve à droite de la moyenne. Ex. : entre -.92 et.92 83 Surface délimitée par deux coupures à droite Dans ce cas, on soustrait les deux surfaces : la plus grande moins la plus petite. Ex. : entre 1.35 et 1.67 Surface délimitée par deux coupures à gauche Dans ce cas, on soustrait les deux surfaces : la plus grande moins la plus petite. Ex. : entre -2.31 et -.80 Surface inférieure à une coupure à droite Dans ce cas, on additionne.5 à la surface de droite (qui a été trouvée dans la table par détermination directe). Ex. : inf. ou égale à 2.50 84 Surface supérieure à une coupure à gauche Dans ce cas, on additionne.5 à la surface de gauche (qui a été trouvée dans la table par détermination directe). Ex. : sup. ou égale à – 1.28 Surface supérieure à une coupure à droite Dans ce cas, on soustrait de.5 la surface de droite (qui a été trouvée dans la table par détermination directe). Ex. : sup. ou égale à 1.07 Surface inférieure à une coupure à gauche Dans ce cas, on soustrait de.5 la surface de gauche (qui a été trouvée dans la table par détermination directe). Ex. : inf.. ou égale à -1.11 85 En résumé Moyenne - 1 coupure à droite → surface dans la table Moyenne - 1 coupure à gauche → surface dans la table 1 coupure à G et 1 coupure à D → addition des 2 surfaces 2 coupures à D → la grande surface – la petite 2 coupures à G → la grande surface – la petite Inférieure à une coupure à D →.5 + surface Supérieure à une coupure à G →.5 + surface Inférieure à une coupure à G →.5 – surface Supérieure à une coupure à D →.5 - surface Note : théoriquement la loi normale s’étend de - à +. Cependant, si l’on observe la table de la loi normale centrée réduite, il apparaît clairement que les surfaces se situant à la droite des notes u deviennent rapidement très petites lorsqu’on s’éloigne de la moyenne. On constate que, si on borne la distribution à gauche par u = -3.5 et à droite par u = +3.5, les surfaces (c’est- à-dire les proportions ou les probabilités) se situant à l’extérieur de ces bornes sont, tout au plus, égales à.0005 (soit, 5 pour 10.000). Dans la plupart des problèmes de probabilité, on considère qu’une erreur de cet ordre est négligeable. Nous pouvons donc raisonnablement en conclure que la partie réellement “pertinente” de la loi normale se situe entre deux valeurs se trouvant à 3.5 σ de part et d’autre de la moyenne. 2.5.2. Calcul d’aires sous n’importe quelle courbe normale Dans la mesure où la loi normale n’est définie que par sa moyenne et son écart type, il est possible de ramener n’importe quelle loi normale réelle à une distribution standard et unique en utilisant la variable centrée réduite (qui a une moyenne égale à 0 et un écart type égal à 1). A partir de la nouvelle distribution ainsi construite (la loi normale centrée réduite), on peut facilement consulter une table (voir annexe 1) qui donne la surface comprise entre 0 (la moyenne) et une valeur quelconque de z. 86 Pour passer de la distribution de départ à la distribution normale centrée réduite, on va utiliser la variable centrée réduite. La note z est appelée dans ce cas, note u. Exemples sur base de valeurs de quotient intellectuel Reprenons l’exemple quotient intellectuel et tentons de répondre à quelques questions. Les valeurs de QI sont des valeurs entières; nous avons donc, dans ce cas, à faire à une variable discrète qui nous autorise à calculer les notes u sur la base de valeurs réelles de la distribution. 87 Quelle est la proportion d’individus ayant un Q.I. entre 100 et 115 (valeurs incluses) ? 88 Quelle est la proportion d’individus ayant un Q.I. entre 110 et 120 (valeurs incluses)? 89 Quelle est la proportion d’individus ayant un Q.I. supérieur ou égal à 115? Lorsque l’on travaille avec une variable continue (comme des tailles par exemple), les mesures sont rendues discrètes par la précision de la mesure de l’instrument utilisé (ex: un mètre ruban qui permet de mesurer des tailles au cm près). Pour effectuer des calculs de surface plus 90 précis, on placera la (les) coupure(s) qui délimite(nt) la surface à calculer à la demi-précision de la mesure (dans le cas de notre exemple: un demi cm). Ex: calculez la proportion d’individus ayant une taille comprise entre la moyenne et 1.70 m (valeurs comprises) sachant que la moyenne de la distribution vaut 1.60 m, l’écart type 5 cm et que la précision de la mesure est 1 cm. 91 Ex. : calculez la proportion d’individus ayant une taille comprise entre 1.68 m et 1.71m (valeurs comprises) sachant que la moyenne de la distribution vaut 1.60m, l’écart type 5 cm et que la précision de la mesure est 1 cm. 92 2.6. Le coefficient de corrélation r de Bravais-Pearson 2.6.1. Concepts de base a. Groupes appareillés (paired groups) Lorsque l’ensemble des données est constitué de groupes appareillés, chaque élément de l’ensemble est associé à la valeur de deux variables.