Cours 3: La Distribution Normale PDF

Summary

Ce document décrit la distribution normale en statistiques, en expliquant sa forme, ses caractéristiques et son utilisation dans différents contextes. Il aborde les concepts fondamentaux ainsi que des exemples.

Full Transcript

Page laissée blanche CHAPITRE 5 LA DISTRIBUTION NORMALE La distribution normale joue un rôle central en statistiques. D’une part, la forme de cette distribution décrit un grand nombre de caractéristiques phy- siques, sociologiques et psychologiqu...

Page laissée blanche CHAPITRE 5 LA DISTRIBUTION NORMALE La distribution normale joue un rôle central en statistiques. D’une part, la forme de cette distribution décrit un grand nombre de caractéristiques phy- siques, sociologiques et psychologiques. Nous l’appelons « normale » puisque, d’après Quételet (voir le texte ci-dessous), il s’agit de la distribution « habituelle ». D’autre part, la distribution normale est importante parce que nous en savons beaucoup à son sujet. Notre connaissance des caractéristiques de la distribution normale a permis l’élaboration d’un ensemble de tests statistiques sophistiqués (que nous verrons dans les chapitres ultérieurs). La compréhension de la distri- bution normale et de ses caractéristiques est essentielle pour l’étude des statisti- ques, en particulier les statistiques qui nous permettent de faire des inférences. Adolphe Quételet et Carl Friedrich Gauss Au xix siècle, le mathématicien Adolphe Quételet fait une découverte importante : en e examinant la distribution des effectifs de la taille des recrues de l’armée française, il remarque que quelques soldats sont très petits et quelques-uns très grands, les autres se situant entre ces deux extrêmes. Le graphique de polygone de la taille produit une courbe en forme de cloche. Mais plus important encore, Quételet remarque que la dis- tribution de la taille des soldats français ressemble comme deux gouttes d’eau à la dis- tribution du tour de poitrine des soldats écossais ! Pourtant, il s’agit de deux mesures différentes (une longueur et une circonférence) et de deux groupes différents (des Fran- çais et des Écossais). Quételet ne trouve pas de raisons pouvant raisonnablement expli- quer cette coïncidence et en déduit qu’il s’agit de la distribution habituelle à laquelle on pourrait « normalement » s’attendre. Par conséquent, nous donnons le nom de « distri- bution normale » à cette distribution dont le polygone prend la forme d’une cloche. C’est le très célèbre mathématicien Carl Friedrich Gauss qui a expliqué pourquoi la dis- tribution normale est si habituelle. En son honneur, nous donnons un second nom à la distribution normale : la distribution gaussienne. 130  S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Lorsqu’une population est normale, il est possible de déterminer : le rang percentile d’une observation à partir d’une valeur étalon Z et vice-versa ; la proportion des observations qui se situent au-dessus ou en dessous d’une valeur ou entre deux valeurs ; si le résultat d’une expérience est probable ou improbable (ce qu’on appelle un résultat statistiquement significatif ; voir chapitres 8 et 9). QUELQUES CONSEILS DE PRUDENCE EN GUISE DE PRÉAMBULE Bien qu’un nombre important de phénomènes soient normalement dis- tribués, tous ne le sont pas. Les temps de réponse et les salaires sont des cas où la distribution n’est pas normale. Lorsque nous travaillons avec des variables qui, clairement, ne sont pas normalement distribuées, les pro- cédures décrites aux chapitres 8 à 12 ne peuvent pas être utilisées. Dans ce cas, il faut préférer les analyses non paramétriques (qui sont traitées au chapitre 13). Heureusement, la normalité est une présomption raisonna- ble pour la vaste majorité des phénomènes, en particulier ceux que l’on trouve en sciences sociales. Une distribution parfaitement normale est une conception théorique que nous ne retrouvons dans la nature que lorsque nous analysons des populations entières. Puisqu’il nous est généralement impossible de mesu- rer une population entière, nous n’analysons, en général, qu’une partie de ces informations, que nous appelons un échantillon1. Lorsque l’échan- tillon est très petit, sa distribution a peu de ressemblance avec la distri- bution normale. Mais au fur et à mesure que le nombre d’observations augmente, la distribution de l’échantillon ressemble de plus en plus à la distribution parfaitement normale. Un échantillon comprenant plusieurs millions d’observations ne sera pas parfaitement normal, mais il sera plus proche de la normalité qu’un échantillon comprenant des milliers d’ob- servations. Cependant, la ressemblance avec la distribution normale sera dans ces deux cas excellente. La Figure 5.1 présente quatre échantillons comprenant des nombres différents d’observations (N). 1. Les concepts de population et d’échantillon sont approfondis dans les chapitres 8 et 9. LA DISTRIBUTION NORMALE  131 figure 5.1 Exemples d’échantillons de tailles variables tirés d’une population normale Échantillon de taille 10 Échantillon de taille 100 4 25 3 20 2 15 10 1 5 −1 0 1 2 −1 0 1 2 3 Échantillon de taille 1 000 Échantillon de taille 10 000 400 80 300 60 40 200 20 100 −3 −2 −1 0 1 2 −2 0 2 4 Chacun de ces échantillons est extrait aléatoirement d’une population d’observations qui est normalement distribuée. Dans la Figure 5.1, la courbe en forme de cloche est beaucoup plus clairement identifiable pour les dis- tributions comprenant des effectifs plus grands (N = 1 000, N = 10 000) que celles ayant des effectifs plus petits (N = 10, N = 100). Mais même lorsque le nombre d’observations est très petit (N = 10), nous commençons, néan- moins, à y reconnaître une forme « normale ». Enfin, on peut noter que la différence dans la forme de la courbe entre N = 10 et N = 100 est plus mar- quée que la différence entre les courbes N = 1 000 et N = 10 000. Lorsque les distributions contiennent déjà beaucoup de données, l’ajout d’observa- tions additionnelles affectera peu la forme de la distribution. DÉFINITION DE LA DISTRIBUTION NORMALE Une distribution est normale lorsqu’elle répond à trois critères : 1. elle est construite sur une variable continue ; 2. elle est unimodale ; 132  S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S 3. elle est symétrique ; les effectifs se réduisant au fur et à mesure que l’on s’éloigne de la moyenne sans jamais arriver à zéro. Par consé- quent, la moyenne, la médiane et le mode coïncident tous (sont identiques) dans une distribution normale. La Figure 5.2 présente une distribution normale. On remarque qu’elle est unimodale et que la ligne verticale représente la position des trois statis- tiques de valeurs centrales (la moyenne, le mode et la médiane). Les trois valeurs étant identiques, elles sont représentées par la même ligne verticale. Dans la Figure 5.3, plusieurs distributions sont représentées. figure 5.2 Distribution de fréquences normale (et son polygone) Pensons à un cercle. Il existe un nombre infini de cercles possibles — certains étant plus grands que d’autres. Néanmoins, tous les cercles parta- gent obligatoirement une caractéristique : ils sont ronds. Analogiquement, il existe un nombre infini de courbes normales qui diffèrent toutes, mais qui partagent néanmoins les caractéristiques qui définissent la normalité (unimodale, continue, symétrique, M = Md = Mo). À la Figure 5.3, on remarque trois distributions (les traits noirs pleins) qui sont toutes norma- les, même si elles ne sont pas identiques. Les moyennes de ces trois distri- butions sont différentes et leurs écarts types le sont aussi. La distribution en pointillé, par contre, n’est pas une distribution normale. Le Quiz rapide 5.1 LA DISTRIBUTION NORMALE  133 invite le lecteur à dire en quoi la courbe en pointillé de la Figure 5.3 n’est pas normale. figure 5.3 Quelques exemples de distributions Quiz rapide 5.1 Pourquoi la courbe en pointillé de la Figure 5.3 n’est-elle pas une distribution normale ? LA DENSITÉ SOUS LA COURBE Le polygone des fréquences et l’histogramme sont des représentations gra- phiques de la fréquence (ou de la proportion) des observations se situant à chaque valeur d’une variable. Les statisticiens utilisent le terme de den- sité pour décrire la proportion des observations pour les différentes valeurs d’une distribution. Lorsqu’une distribution est normale, il est possible de déduire seulement à partir de sa moyenne et de son écart-type la propor- tion ou la densité des observations qui se trouvent entre chaque valeur de la variable et sa moyenne. Il est aussi possible de déterminer la densité des observations qui sont inférieures ou supérieures à n’importe quelle valeur aussi bien que la densité des observations qui se trouvent entre deux valeurs. 134  S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Si le poids des enfants de six ans suit une distribution normale et qu’on connaît sa moyenne et son écart-type, il est possible de déduire la propor- tion (la densité) des enfants qui pèsent plus de 40 kg, moins de 30 kg, ou la proportion des enfants qui pèsent entre 30 et 40 kg. De plus, connaissant la densité, il devient possible de déterminer la probabilité d’obtenir n’importe quelle valeur : par exemple, si les notes en chimie sont distribuées norma- lement, nous pouvons établir la probabilité d’obtenir 90 % au prochain exa- men. Enfin, grâce à la distribution normale, il nous est possible de convertir les valeurs étalons Z attribuées à chaque observation en percentiles et vice- versa. Examinons d’abord le concept de la densité des observations. La médiane est la valeur qui divise la distribution en deux groupes égaux. Il y a autant d’observations au-dessus qu’en dessous de la médiane. Pour les distributions normales, la médiane et la moyenne sont égales. Parce que la médiane et la moyenne coïncident, la proportion des observations se trouvant au-dessus et en dessous de la moyenne est égale aussi. Ainsi, pour les distributions normales, la proportion (la densité) des observations se situant au-dessus et en dessous de la moyenne est égale à 0,50. Par ailleurs, lorsqu’on observe une distribution normale comme celle de la Figure 5.2, on voit que, plus on s’éloigne de la moyenne, moins il y a d’observations. La proportion (densité) des observations se réduit au fur et à mesure que l’on s’éloigne de la valeur centrale. Grâce aux travaux de Gauss, nous connaissons la proportion exacte des observations qui se trou- vent à différents points de la distribution lorsque celle-ci est parfaitement normale. Quiz rapide 5.2 Imaginez une distribution unimodale, symétrique, mais leptocurtique. Est-ce que la densité sous cette courbe serait la même que celle que l’on trouve à la Figure 5.4 ? La Figure 5.4 montre la répartition de la densité des observations de la distribution normale. On voit que 34,13 % des observations se situent entre la moyenne et les valeurs se trouvant à un écart-type au-dessus de la moyenne ; 13,59 % des observations se situent entre +1 et +2 écarts types de la moyenne ; 2,15 % des observations sont entre +2 et +3 écarts types ; enfin, très peu d’ob- servations (0,13 %) se situent au-delà de +3 écarts types de la moyenne. LA DISTRIBUTION NORMALE  135 figure 5.4 La densité (proportion) des observations sous la courbe normale 50 % 50 % 0,13 % 2,15 % 2,15 % 0,13 % 13,59 % 34,13 % 34,13 % 13,59 % −3 −2 −1 0 +1 +2 +3 Mais ces proportions ne sont pas inventées ! Indépendamment de la moyenne ou de l’écart-type, pour toutes les distributions normales, 34,13 % des observations se trouvent entre la moyenne et ±1 écart-type, etc. On peut, par exemple, supposer que la taille des hommes adultes suit une distribution normale avec une moyenne de 170 cm et un écart-type de 10 cm. À partir de ces deux seules informations, nous pouvons affirmer que 34,13 % des hommes mesurent entre 160 et 169,999 cm et 34,13 % mesu- rent entre 170 et 179,999 cm ; que 13,59 % des hommes mesurent entre 180 et 189,999 cm (ainsi qu’entre 150 et 159,999 cm), etc. Puisque nous connaissons la densité d’une distribution normale, nous pouvons alors estimer la probabilité d’obtenir une observation se trouvant dans une certaine région. Prenons une observation aléatoire de la popula- tion. Cette observation pourrait provenir de n’importe quelle partie de la distribution : elle pourrait être au-dessus ou au-dessous de la moyenne et elle pourrait en être proche ou distante. Nous savons que 50 % des observations se situent au-dessus et 50 % se situent en dessous de la moyenne pour toutes les distributions normales. Ainsi nous pouvons affirmer qu’une observation tirée aléatoirement d’une distribution normale aura une chance sur deux 136  S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S (p = 0,50) de se situer au-dessus (ou au-dessous) de la moyenne mais qu’elle aura une très faible chance de se retrouver très loin de la moyenne. Étu- dions ceci de plus près. Nous savons que 34,13 % des observations d’une distribution se situent entre la moyenne et +1 écart-type (voir la Figure 5.4). Par conséquent, la probabilité que notre observation se situe entre la moyenne et +1 écart- type est p = 0,3413. Pour la distribution hypothétique de la taille, ayant une moyenne M = 170 cm et un écart-type s = 10 cm, il existe une probabilité p = 0,3413 qu’une observation prise au hasard soit entre 170 (M = 170) et 180 cm (s = 10 ; 170 +10 = 180). De la même manière, on sait que 34,13 % (p = 0,3413) des observations se retrouvent entre la moyenne et un écart- type en dessous d’elle. Par conséquent, il y a une probabilité p = 0,3413 qu’une observation tirée au hasard de cette distribution de la taille se situe entre 160 et 170 cm. Quiz rapide 5.3 La moyenne d’une distribution normale est M = 100 et son écart-type s = 20. Nous tirons aléatoirement une observation de cette distribution. En vous référant à la Figure 5.4, quelle est la probabilité que cette observation soit plus grande que 140 ? De plus, comme la distribution normale est symétrique, les mêmes proportions se retrouvent pour les valeurs au-dessus et en dessous de la moyenne. En additionnant les observations qui sont en dessous de la moyenne et celles qui se trouvent au-dessus de la moyenne, nous voyons que 68,26 % des observations se trouvent entre –1 et +1 écart-type de la moyenne (34,13 % + 34,13 % = 68,26 %) ; que 27,18 % des observations se trouvent entre –2 et –1 et entre +1 et +2 écarts types (13,59 % +13,59 %) ; et que 4,30 % des observations (2,15 %+2,15 %) sont entre –2 et –3 et entre +2 et +3 écarts types. Enfin, seulement une très petite proportion des observa- tions (0,13 %+0,13 %=0,26 %) se situe en deçà de –3 et au-delà de +3 écarts types de la moyenne. La somme de ces proportions (68,26 + 27,18 + 4,30 + 0,26) = 100 %, ce qui confirme qu’elles incluent toutes les observations de cette distribution normale. Ce même constat peut être formulé en termes probabilistes. Ainsi, si nous revenons à la distribution de la taille, dont la moyenne est de 170 cm LA DISTRIBUTION NORMALE  137 avec un écart-type de 10, nous pouvons établir que la probabilité d’avoir une taille entre 160 et 180 cm est p = (0,3413 + 0,3413) = 0,6826, d’avoir une taille entre 150 et 160 cm et entre 180 et 190 cm est p=(0,1359 + 0,1359) = 0,2718, et que la probabilité d’avoir une taille de moins de 150 cm et de plus de 190 cm est p = (0,0215 + 0,0215 + 0,0013 + 0,0013) = 0,0456. La probabilité qu’un homme soit très grand (plus de 190 cm) ou très petit (moins de 150 cm) est clairement petite. Si l’on additionne ces trois proba- bilités (0,6826 + 0,2718 + 0,0456), nous trouvons une probabilité p = 1,0, indiquant qu’un homme choisi aléatoirement aura certainement une taille ! Supposons une distribution normale pour un test de QI administré à 1 000 élèves. Supposons aussi que la moyenne du QI est de 100 et que l’écart-type des QI est de 15. Que pouvons-nous conclure au sujet du QI de ces élèves ? 1. Environ 500 élèves ont un QI supérieur à 100 et 500 élèves ont un QI inférieur à 100. Ainsi, la probabilité que l’étudiante X possède un QI supérieur à la moyenne est p = 0,50. 2. Environ 341 élèves ont un QI entre 100 et 115, et 341 élèves ont un QI entre 85 et 100. (La moyenne plus 1 écart-type est égale à 100 + 15 = 115 et la moyenne moins 1 écart-type vaut 100 – 15 = 85.) Puisque 34,13 % des QI se situent entre la moyenne et +1 écart-type, nous savons alors que 341 (34,13 % de 1 000 élèves = 341 approxi- mativement) élèves ont un QI entre 100 et 115. Puisque 68,26 % des observations se situent entre -1 et +1 écart-type de la moyenne, un total d’environ 682 élèves ont un QI entre 85 et 115 (68,26 % de 1 000 = 682 approximativement). 3. Environ 136 (13,6 %) élèves ont un QI entre 115 et 130 (13,6 % de 1 000), et 136 ont un QI entre 70 et 85. 4. Environ 22 élèves ont un QI entre 130 et 145 (2,15 % de 1 000, soit 21,5), et 22 ont un QI entre 55 et 70. 5. Seulement 1 élève a un QI supérieur à 145 (0,13 % de 1 000 = 1,3) et seulement 1 élève a un QI inférieur à 55 (0,13 % de 1 000 = 1,3). Quiz rapide 5.4 Supposons que pour une distribution normale, M = 10 et s = 2. Supposons que vous avez 100 observations. Combien de ces observations sont supérieures à la moyenne ? Combien se situent entre 10 et 14 ? Combien obtiennent une valeur inférieure à 8 ? 138  S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S LA CONVERSION DES VALEURS ÉTALONS Z EN RANGS PERCENTILES On se souvient que les valeurs étalons Z (ou T, etc.) et les percentiles sont utilisés pour trouver la position relative des observations. Lorsque les dis- tributions sont normales, nous pouvons facilement traduire les valeurs étalons Z en percentiles et vice-versa. Certains tests psychologiques stan- dardisés expriment les résultats en valeurs T ou, plus rarement, en valeurs étalons Z. Il est souvent préférable d’expliquer ces résultats à une personne en faisant appel aux percentiles, une information qui est plus facilement comprise. Lorsque les résultats sont exprimés en valeurs étalons T, il faut préalablement les convertir en valeurs étalons Z avant de les traduire en percentiles (voir le chapitre 4). La logique de base se comprend facilement. Le percentile indique la proportion des observations égales ou inférieures à n’importe quelle valeur d’une distribution. La médiane indique la valeur qui coupe la distribution en deux parties égales. Puisqu’il s’agit d’une distribution normale, la moyenne et la médiane sont identiques. Donc, pour une distribution normale, 50 % des observations sont égales ou inférieures à la moyenne. Quel serait alors le percentile associé à une valeur se trouvant exactement à la moyenne ? Trou- vons d’abord la valeur de cette observation en valeur étalon Z. Puisqu’elle se trouve à la moyenne, sa valeur Z est égale à zéro (voir le chapitre 4). Nous pouvons alors conclure que 50 % des valeurs de la distribution seront égales ou inférieures à Z = 0, ce qui définit un percentile de 50 pour cette observa- tion. À partir de la cote Z, nous avons déduit le percentile ! Prenons maintenant une observation se situant à +1 écart-type de la moyenne (par exemple à 115 lorsque la moyenne M = 100 et l’écart-type s = 15). Cette observation se traduit par une valeur étalon Z de +1 [Z = (115 – 100)/15 = +1]. Nous savons, d’après la Figure 5.4 que 34,13 % des observa- tions se trouvent entre la moyenne et +1 écart-type. Nous savons aussi que 50 % des observations se trouvent en dessous de la moyenne. Nous faisons la somme pour trouver que 50 % + 34,13 % = 84,13 %. Ce nombre représente la proportion des observations se trouvant à ou en dessous de +1 écart-type (Z = +1) de la moyenne. Puisque 84,13 % des observations se trouvent à cette valeur ou en dessous, il s’agit donc du rang percentile 84,13 ou, plus simplement, 84. LA DISTRIBUTION NORMALE  139 Procédons de la même façon pour une valeur se trouvant à +2 écarts types de la moyenne (c’est-à-dire 130 lorsque M = 100 et s = 15). Une observation se situant à 2 écarts types au-dessus de la moyenne a une côte Z de +2 [(130-100)/15 = +2]. Puisque la valeur est à +2 écarts types, elle doit être supérieure à la moyenne, et donc son rang percentile supérieur à 50. Nous savons, d’après la Figure 5.4, que 50 % des observations se trou- vent en dessous de la moyenne, que 34,13 % se situent entre la moyenne et +1 écart-type et que 13,59 % des observations se trouvent entre +1 et +2 écarts types. Nous additionnons alors ces trois proportions : 50 % + 34,13 % + 13,59 % = 97,72 %. Nous concluons alors que 97,72 % des observations sont égales ou inférieures à 130. En arrondissant, cette observation se situe au rang percentile 98. Lorsque nous avons un QI de 130, il est égal ou supé- rieur à 97,72 % des QI de la population, et par soustraction (100 %-97,72 %), seulement 2,28 % des personnes détiennent un QI plus élevé. Quiz rapide 5.5 Quel sera le rang percentile pour une observation se trouvant à plus de +3 écarts types de la moyenne ? Souvenons-nous que, pour les distributions normales, 50 % des obser- vations se situent de chaque côté de la moyenne. Trouvons maintenant le rang percentile d’une observation se situant à un écart-type en dessous de la moyenne. Puisque cette observation est inférieure à la moyenne, son rang percentile devra être plus petit que 50. Nous savons que 34,13 % des observations se trouvent entre la moyenne et cette observation. Donc, cette observation se situera à 50 % – 34,13 % = 15,87 % ou (en arrondissant) au rang percentile 16. La position en percentile d’une observation se situant à –2 écarts types de la moyenne sera de 2,28 %, puisque 13,59 % des obser- vations sont entre –1 et –2 écarts types, le calcul est simple : 50 – 34,13 – 13,59 = 2,28 (percentile 2). Quiz rapide 5.6 Quel sera le rang percentile de l’observation se trouvant à –3 écarts types de la moyenne ? En supposant qu’elle est normale, quelle est la proportion des observations se situant entre ± 3 écarts types de la moyenne ? 140  S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Comment trouver la densité des observations se situant entre deux valeurs ? On peut déterminer la proportion des observations se trouvant entre deux valeurs de la distribution normale, à condition que les observations soient ou puissent être converties en valeurs étalons Z (parce que la moyenne et l’écart-type de la distribution sont connus). Il s’agit de trouver la densité sous la courbe pour les deux valeurs et de les soustraire. Prenons comme illustration deux performances à un examen, l’une se situant à la moyenne de la classe (Z = 0) et l’autre se situant à +1 écart-type (Z = +1). Les densités pour ces deux valeurs sont respectivement de 0,50 et de 0,8413. La diffé- rence entre les deux est de 0,3413, indiquant que 34,13 % des étudiants ont obtenu une note entre la moyenne et +1 écart-type. Par conséquent, la probabilité d’obtenir un résultat entre la moyenne et +1 écart-type est p = 0,3413. LA CONVERSION DES RANGS PERCENTILES EN VALEURS ÉTALONS Z Faisons l’inverse maintenant, en présumant toujours la normalité. On sup- pose qu’une observation se trouve au rang percentile 84. Quelle est sa posi- tion en valeur étalon Z ? Le rang percentile étant plus grand que 50, il est certain qu’elle se situe au-dessus de la moyenne et que, par conséquent, sa valeur étalon Z sera positive (supérieure à Z = 0). À partir de la Figure 5.4, on sait qu’approximativement 34 % des observations se trouvent entre la moyenne et une valeur qui est à +1 écart-type de la moyenne. Donc, lors- que le rang percentile est égal à 84, la valeur étalon Z est égale à +1. Au rang percentile 98, nous sommes à la valeur étalon +2. À l’inverse, un rang percentile de 15,87 (ou 16) implique que Z = –1, et un rang percentile de 2 implique que Z = –2. Le Tableau 5.1 résume ces relations. Dans la colonne de gauche, on lit la valeur étalon Z, et dans la colonne de droite, on lit la pro- portion des observations égales ou inférieures à cette valeur Z. Par exemple, 0,13 % des observations d’une distribution normale sont égales ou inférieu- res à une valeur située à Z = –3, et 99,87 % des observations sont égales ou inférieures à une observation dont la position en valeur étalon Z = +3. Ces calculs sont plutôt simples lorsqu’on travaille avec des valeurs qui se situent exactement à ±1, ±2 ou ±3 écarts types de la moyenne, une fois ces LA DISTRIBUTION NORMALE  141 valeurs converties en scores Z. Mais que fait-on lorsqu’il s’agit d’observations qui ne tombent pas exactement sur ces valeurs ? Quel est le percentile pour une observation qui se situe à Z = +0,83 ou Z = –1,48 ? L’idéal serait d’avoir un tableau comme le Tableau 5.1, mais qui inclurait toutes les valeurs éta- lons Z possibles et la densité associée à chacune. Le tableau de la proportion sous la courbe normale standardisée, qui est reproduit intégralement dans l’annexe (Tableau A.1), a été construit pour répondre à ce besoin. Tableau 5.1 Valeur étalon Z et rang percentile correspondant Z –3 –2 –1 0 +1 +2 +3 Rang 0,13 % 2,28 % 15,87 % 50,00 % 84,13 % 97,72 % 99,87 % percentile Le tableau de la proportion sous la courbe normale standardisée Il importe de savoir comment lire et interpréter le tableau de la proportion sous la courbe normale standardisée se trouvant en annexe. Le Tableau 5.2 en donne un extrait. Il comprend deux colonnes et un grand nombre de rangées. La colonne de gauche indique une suite de valeurs étalons Z allant de 0,00 à +3, alors que celle de droite indique la proportion des observa- tions qui se trouvent à cette valeur ou en dessous2. Supposons qu’on veuille estimer la proportion des observations qui se situent à la moyenne ou qui sont plus petites que la moyenne. On sait qu’une observation à la moyenne se situe à Z = 0. On trouve la valeur Z = 0 dans la colonne de gauche du Tableau 5.2, et de celle de droite, on lit la pro- portion des observations qui se trouvent à cette valeur Z = 0 ou en dessous de cette valeur. Dans ce cas, il s’agit de 0,50, indiquant que 50 % des obser- vations se trouvent à la moyenne ou au-dessous d’elle. On pouvait s’attendre à ce résultat puisque, avec les distributions normales, 50 % des observations se trouvent de chaque côté de la moyenne. On peut alors affirmer que la densité des observations sous Z = 0,0 est 0,50 ou 50 %. 2. La plupart des tableaux de la densité sous la courbe normale vont de 0 à +4. Mais cela ne veut pas dire que le Z maximal est +4. Pour la distribution normale théori- que, il n’y a pas de limite aux valeurs possibles. 142  S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Supposons que l’on désire connaître la densité des observations se situant à Z = 1,0 ou en dessous d’elle. Au Tableau 5.2, on trouve à gauche la valeur Z = 1, et à droite, 0,8413, indiquant que 84,13 % des observations se trouvent à Z = 1 ou en dessous d’elle. Si l’on désire connaître la densité des observations à Z = 0,06 ou en dessous, on peut trouver, au Tableau 5.2 et dans l’appendice, qu’il s’agit d’une proportion de 0,5239 ou de 52,39 % des observations. On peut aussi faire appel au tableau de la densité sous la courbe normale pour déterminer le rang percentile pour n’importe quelle valeur Z. Quel serait le rang percentile pour la personne se situant à Z = 0,06 ? Puisque 52,39 % des observations se situent à Z = 0,06 ou moins, nous savons alors que le percentile associé à cette valeur est 52,39 ou, plus simplement, 52. Tableau 5.2 Extrait du tableau de la proportion sous la courbe normale standardisée Fx(z) z z FX(z) 0,00 0,5000 0,06 0,5239 0,26 0,6026 0,50 0,6915 0,70 0,7580 0,76 0,7764 0,90 0,8159 1,00 0,8413 1,26 0,8962 1,50 0,9332 1,74 0,9591 2,00 0,9772 3,00 0,9987 LA DISTRIBUTION NORMALE  143 On peut faire appel à ce tableau de la densité sous la courbe normale pour les valeurs qui se situent en dessous de la moyenne. Puisqu’elles se situent en dessous de la moyenne, leurs valeurs étalons Z prendront un signe négatif. Supposons que l’on désire déterminer la proportion des observations se situant à ou sous Z = –0,26. Pour l’instant, on peut ignorer le signe de cette valeur Z et trouver d’abord la densité qui y correspond (au Tableau 5.2 et à l’appendice, cette densité est de 0,6026). On sait que la dis- tribution contient 100 % des observations. Il ne reste alors qu’à soustraire la densité répertoriée dans le tableau du total de la distribution ; à la valeur 100 % (ou p = 1,0). Dans ce cas, on aurait 1,0 – 0,6026 = 0,3974. Ainsi, avec une performance de Z = –0,26, cette observation est égale ou plus forte que 39,74 % des performances et le percentile associé à cette performance est 39,74, ou simplement 40. Pour une valeur Z = –2, la densité qui y correspond dans le Tableau 5.2 est 0,9772. On soustrait cette valeur de 1,00 et on trouve 0,028. Ainsi, on peut conclure que 2,28 % des observations se trouveront à la valeur Z = –2 ou en dessous. On peut ainsi conclure que cette observation (Z = –2) se situe au centile 2,28 (ou 2). SOMMAIRE DU CHAPITRE La distribution normale est la forme habituelle que prend la distribution de plusieurs variables continues. Une distribution est normale lorsqu’elle est construite sur une variable continue qui est unimodale et qui détient une moyenne, un mode et une médiane identiques, ce qui lui garantit une forme symétrique. Lorsqu’une distribution est normale, nous pouvons savoir la proportion (la densité) des observations qui se trouvent en des- sous ou au-dessus de la moyenne, la proportion qui se trouve entre n’im- porte quelle valeur et la moyenne, la proportion des observations qui y sont supérieures et, enfin, la proportion des observations se trouvant entre deux valeurs. Tant que nous connaissons la moyenne et l’écart-type d’une distri- bution normale, il est possible de déterminer pour n’importe quelle valeur exprimée en valeur étalon Z son rang percentile et, à partir du rang per- centile, de déterminer sa valeur Z en faisant appel au tableau de la densité sous la courbe normale. Enfin, toutes ces valeurs peuvent être exprimées en termes probabilistes. 144  S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S EXERCICES DE COMPRÉHENSION 1. Concernant la distribution normale, laquelle de ces affirmations est fausse ? a) Elle est la base de plusieurs analyses statistiques. b) Elle s’étend maximalement entre –4 et +4 écarts types. c) L’aire sous la courbe (la densité) correspond à la probabilité. d) Plus d’observations seront proches de la moyenne que loin d’elle. 2. Dans cette distribution, la moyenne, la médiane et le mode sont tous identiques. La distribution __________. a) n’est pas normale b) pourrait être normale c) est tout à fait normale d) impossible à déterminer 3. Nous convertissons toutes les données de cette distribution normale en valeurs étalons Z et nous examinons la distribution résultante. a) Sa moyenne est égale à 0. b) Sa variance est de 1. c) Elle est en forme de cloche. d) Toutes ces réponses sont justes. 4. Nous convertissons chaque valeur d’une distribution asymétrique négative en valeur étalon Z. Quelle sera la forme de la distribution de ces valeurs Z ? a) Normale b) Asymétrique négative c) Asymétrique positive d) Toutes ces réponses sont possibles. Pour les questions 5 à 9, vous devez faire appel au tableau de la densité sous la courbe normale. 5. Cent étudiants ont subi un examen où la moyenne du groupe est de 75 % avec un écart-type de 10. Les résultats se distribuent normale- ment. Combien d’étudiants ont obtenu 75 % ou moins à l’examen ? 6. Combien d’étudiants ont obtenu entre 75 et 85 % à l’examen ? 7. Quelle est la probabilité qu’un étudiant ait une note supérieure à 95 % ? LA DISTRIBUTION NORMALE  145 8. Un étudiant obtient la note de 55 % à son examen. À combien d’écarts types de la moyenne est-ce que cette note se situe ? 9. Quel est le percentile pour l’étudiant qui a obtenu 55 % à son examen ? 146  S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Réponses 1. b 2. b (Notez que l’énoncé du problème n’inclut qu’un seul des trois critères qui définissent une distribution normale.) 3. d 4. b 5. 50 6. 34 7. (1 – 0,9772) = 0,0228 8. –2 9. 2 (2,28) CHAPITRE 6 LA CORRÉLATION La corrélation de Pearson..................................................................... 150 La logique qui sous-tend le calcul de la corrélation......................... 151 Comment calculer la corrélation de Pearson entre deux variables ?............................................................................. 154 La corrélation positive parfaite (rxy = +1,00)................................. 154 La corrélation négative parfaite (rxy = –1,00)................................ 157 La corrélation nulle (rxy = 0,00)....................................................... 159 Les corrélations qui ne sont pas parfaites (rxy entre –1,00 et +1,00)............................................................. 161 Le coefficient de détermination..................................................... 164 Le coefficient de non-détermination............................................. 165 Le coefficient de détermination, de non-détermination et la réduction de l’incertitude relative.................................... 165 Représentation schématique de la corrélation et du coefficient de détermination............................................ 167 Remarques supplémentaires................................................................ 168 Corrélation et causalité.................................................................... 168 Corrélation de Pearson et variance des variables........................ 169 Corrélation et observations loin de la moyenne.......................... 170 Corrélation de Pearson et relation linéaire................................... 171 Une façon pratique de présenter une corrélation : le tableau des attentes.................................................................. 172 Sommaire du chapitre........................................................................... 176 Exercices de compréhension................................................................ 177 Page laissée blanche

Use Quizgecko on...
Browser
Browser