Cours5_ch6 PDF - La Correlation
Document Details
Uploaded by BriskKazoo9341
Université de Montréal
Tags
Summary
This document introduces the concept of correlation in the context of statistics and data analysis. It explains the statistical procedure of determining the degree of correspondence between two variables. The relationship between variables is explored with examples and discussions about different types of correlations.
Full Transcript
Page laissée blanche CHAPITRE 6 LA CORRÉLATION Jusqu’à présent, nous avons appris à décrire les variables, les distributions et les observations à l’intérieur des variables. Nous abordons maintenant la relation qui existe entre les variable...
Page laissée blanche CHAPITRE 6 LA CORRÉLATION Jusqu’à présent, nous avons appris à décrire les variables, les distributions et les observations à l’intérieur des variables. Nous abordons maintenant la relation qui existe entre les variables, et que l’on nomme la corrélation. La corrélation est une méthode qui permet de déterminer le degré de coïnci- dence entre deux variables. Les corrélations jouent un rôle important dans la vie quotidienne. On peut remarquer qu’il pleut parfois lorsque le ciel est ennuagé, tandis qu’il ne pleut jamais en l’absence de nuages. On se rend compte qu’on tousse sou- vent lorsqu’on a un rhume, alors que cela n’arrive que rarement lorsqu’on n’a pas de rhume. Peut-être a-t-on aussi remarqué que les résultats aux exa- mens s’améliorent lorsqu’on leur a consacré plus de temps d’étude ? En fait, on vient de noter qu’il existe une corrélation entre la présence de nuages et la pluie, le rhume et la toux ainsi que l’assiduité à l’étude et les résultats sco- laires. Y a-t-il plus de pauvreté dans les plus grandes villes ? Le nombre de meurtres est-il plus grand dans les sociétés où les citoyens ont plus d’armes à feu ? On peut répondre à toutes ces questions par le biais de la corréla- tion. La corrélation est une procédure statistique qui permet de quantifier le degré avec lequel deux événements tendent à être reliés (la présence de nuages et la pluie ; le rhume et la toux ; les notes et le temps d’étude ; les meurtres et les armes à feu ; la pauvreté et la taille des villes). Pour établir cette relation, il est nécessaire d’avoir deux mesures pour chaque observa- tion. Ainsi, si nous voulons calculer la corrélation entre le QI et les notes scolaires, nous devons avoir accès à un groupe de personnes pour lesquelles 150 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S nous possédons à la fois le QI et les notes scolaires. Si nous voulons établir la relation entre la taille des villes et le degré de pauvreté, nous devons avoir, pour chaque ville de la distribution, sa taille et son degré de pauvreté. Quel qu’il soit, le sujet d’analyse (une personne, une ville, une classe, etc.) doit fournir deux informations, l’une se rapportant à une variable, l’autre à une deuxième variable. Il existe plusieurs types de corrélations, mais celle que Karl Pearson a développée — et qu’on appelle corrélation simple, corrélation d’ordre zéro, corrélation bivariée ou corrélation linéaire — est celle qui, dans la pratique, est la plus utilisée. LA CORRÉLATION DE PEARSON La corrélation de Pearson est une procédure statistique qui produit un coef- ficient de corrélation, un index du degré de relation linéaire qui existe entre deux mesures (nous verrons plus tard ce qu’on entend par « linéaire »). Il y a plusieurs types de corrélations, mais celle dont nous discutons ici, la corrélation de Pearson, est utilisée lorsque nous désirons établir la relation qui existe entre des variables mesurées sur des échelles à intervalles ou des échelles de rapport. La corrélation de Pearson prend des valeurs variant entre –1 et +1. Nous disons que la corrélation est parfaite lorsqu’elle atteint des valeurs numériques extrêmes (+1 ou –1) et qu’elle est nulle quand le coefficient prend la valeur de 0. La relation peut être positive ou négative. Par exemple, la corrélation entre la présence de nuages et la pluie est posi- tive, car plus il y a de nuages, plus grandes sont les chances qu’il pleuve. Souvent, comme dans le cas de la relation nuages-pluie, la relation n’est pas parfaite (il ne pleut pas toujours lorsque le ciel est couvert). Par exemple, bien qu’il existe une corrélation entre le niveau d’intelligence et le succès scolaire, la relation est loin d’être parfaite. Souvent, des étudiants intelli- gents ne réussissent pas aussi bien que des étudiants moins doués et vice- versa. Dans ce cas, la corrélation de Pearson prendra des valeurs positives, mais moins grandes que +1 (par exemple +0,50 ou +0,12). Y a-t-il une relation entre la satisfaction au travail et l’absentéisme ? Oui, mais la corrélation est négative (par exemple –0,20). Dans ce cas, plus les gens sont satisfaits, moins ils s’absentent. La valeur –0,20 (la relation satisfaction-absence) est non seulement négative, mais elle est aussi moins L A C O R R É L AT I O N 151 grande que la relation entre les nuages et la pluie (0,50), car très souvent, nous allons au travail même lorsque nous n’aimons pas cela et, parfois, nous nous absentons même lorsque nous adorons notre travail. Enfin, cer- tains phénomènes ne sont pas liés. Y a-t-il une relation entre la quantité de crème glacée vendue à New York chaque jour de l’été et le nombre de naissances à Montréal ayant lieu les mêmes jours ? Il y a fort à parier qu’une telle relation n’existe pas. La corrélation entre la consommation de crème glacée et le taux de natalité sera alors proche de 0,0. De manière similaire, l’habileté sociale et l’intelligence ne sont pas en corrélation. La corrélation de Pearson est un indice pratique qui nous renseigne simul- tanément sur deux aspects de la relation (linéaire) entre deux variables : 1. La magnitude de la relation : plus la corrélation est proche de +1 ou de –1, plus elle est forte. 2. La direction de la relation : une corrélation positive indique que plus les valeurs d’une variable sont grandes, plus les valeurs de l’autre variable seront grandes aussi. Une corrélation négative implique que plus les valeurs d’une variable augmentent, plus elles se réduisent pour la deuxième variable. La corrélation de Pearson est représentée par le symbole rxy. Elle se cal- cule entre seulement deux variables à la fois, que nous représentons généra- lement par les symboles X et Y. Pour cette raison, nous lui donnons parfois le nom de corrélation bivariée : la relation entre deux variables. Si la corréla- tion entre deux variables X et Y est égale à 0,5, nous écrivons : rxy = 0,50. LA LOGIQUE QUI SOUS-TEND LE CALCUL DE LA CORRÉLATION La corrélation quantifie le niveau de similarité entre deux variables. Le pro- blème consiste donc à trouver une façon de définir mathématiquement la similarité. Une manière évidente serait de vérifier si les sujets produisent la même réponse (numérique) pour deux variables. Lorsque les valeurs obte- nues pour une variable tendent à être reproduites sur une autre, il y a une relation forte entre les variables. Une solution au calcul de la corrélation serait alors de calculer la différence entre les valeurs de chaque variable. S’il n’existait pas de différence entre les valeurs des deux variables pour chaque observation, nous pourrions dire que la corrélation est parfaite. 152 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Par exemple, supposons que nous avons la note obtenue par un groupe d’étudiants à deux examens. Si les étudiants obtiennent exactement la même note aux deux examens, il est facile de conclure que la relation (la corrélation) entre les deux examens est parfaite. Supposons maintenant que nous désirons calculer la corrélation entre deux examens, mais qu’un examen est noté sur 100 et l’autre sur 20. Le Tableau 6.1 présente les données. Tableau 6.1 Notes obtenues à deux examens par les mêmes étudiants Étudiant Note sur 100 Note sur 20 A 95 19,0 B 87 17,4 C 74 14,8 D 56 11,2 E 43 8,6 Aucun étudiant n’obtient la même note aux deux examens parce que l’échelle de mesure n’est pas la même pour les deux variables : les notes au premier examen (notes sur 100) peuvent varier entre 0 et 100 tandis que l’étendue pour la deuxième variable est de 0 à 20. Si nous comparons les deux séries de résultats en les soustrayant, la différence entre les notes obtenues aux deux examens ne sera jamais zéro. Par conséquent, nous devrions conclure qu’il n’existe pas de similitude (de « corrélation ») entre les notes aux deux examens. Quiz rapide 6.1 Quelle est la coordonnée de l’étudiant B au Tableau 6.1 ? Prenons un autre exemple. On se doute bien qu’il existe une relation entre l’ancienneté et le salaire : les employés détenant plus d’expérience reçoivent généralement un salaire plus élevé. Or, le salaire est chiffré en mil- liers de dollars alors que les années d’expérience sont mesurées en quelques L A C O R R É L AT I O N 153 années. La simple différence entre année et salaire ne sera jamais égale à zéro, et nous devrions conclure qu’il n’y a pas de relation entre ces deux variables, ce qui n’est pas sensé. Donc, si nous basons le calcul de la corrélation sur la simple différence numérique obtenue entre deux mesures, la conclusion sera erronée, à moins que les deux mesures ne soient sur la même échelle de mesure (ayant la même moyenne et la même variance). Puisque nous voulons souvent cal- culer la corrélation entre deux variables qui ne sont pas mesurées sur la même échelle, il faut trouver une approche plus générale. La méthode la plus générale et la plus satisfaisante pour décrire la simi- litude entre deux variables est celle choisie par Pearson. La corrélation entre deux variables est définie comme étant le degré avec lequel la position relative des observations est la même sur deux variables. Si nous utilisons cette défi- nition pour le Tableau 6.1, nous voyons qu’il existe effectivement une rela- tion entre la performance aux examens. Par exemple, l’étudiant A obtient la meilleure note aux deux examens, l’étudiant B obtient la note juste en dessous aux deux examens, ainsi de suite jusqu’à l’étudiant E qui obtient la note la plus faible aux examens. Les étudiants maintiennent exactement la même position relative dans chacun des examens. Nous avons déjà abordé le concept de position relative au chapitre 4. La position d’une observation sur une mesure se définit comme l’écart stan- dardisé qui existe entre la valeur obtenue sur une variable par une observa- tion et la moyenne de cette variable. La valeur étalon Z est justement une manière pratique de calculer cette position. Ainsi, la corrélation de Pearson mesure le degré de coïncidence entre les valeurs étalons Z, obtenues sur deux mesures : la corrélation est forte lorsque les valeurs Z obtenues par chaque personne sur les deux variables sont similaires et, dans le cas contraire, la corrélation est plus faible. Lorsque les valeurs Z obtenues par un ensemble de personnes sur deux variables coïncident, la corrélation est parfaite (rxy = +1,0) : les valeurs Z pour les deux variables sont simultanément positives, négatives ou nulles. Lorsque les valeurs Z des deux variables coïncident, mais qu’elles sont de signes inversés (l’une positive, l’autre négative), la corrélation est parfaite, mais négative (rxy = –1,0). Lorsque les deux valeurs Z obtenues sont moins semblables (elles coïncident approximativement ou seulement quelquefois), 154 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S la corrélation obtenue ne sera pas exactement –1 ni +1, mais elle sera entre ces deux extrêmes. Lorsqu’elles ne coïncident pas du tout, la corrélation est égale à zéro. Comment calculer la corrélation de Pearson entre deux variables ? On se souvient que la corrélation se définit par le degré avec lequel la posi- tion des observations sur deux variables se maintient. La formule suivante définit formellement la corrélation1. N ∑ ZXi × ZYi i=1 rxy = ------------------------------- Formule 6.1 N–1 où ZXi et ZYi correspondent à la position relative de chaque observation sur les variables X et Y exprimées en valeurs étalons Z, et N – 1 est le nombre de sujets moins 1. Nous verrons plus tard la signification du N – 1 (voir le chapitre 9). Les quatre étapes pour obtenir la corrélation de Pearson sont : 1. Convertir chaque valeur en valeur étalon Z. 2. Multiplier les paires de valeurs étalons Z de chaque sujet de l’échan- tillon. 3. Faire la somme de ces produits. 4. Diviser cette somme par le nombre d’observations moins un. Le numérateur de la Formule 6.1 donne le degré total de similarité entre les deux mesures. En divisant cette quantité par N – 1, on obtient la moyenne de la similarité. La corrélation est donc un indice de la similarité moyenne dans la position qu’occupent les observations sur les deux variables. La corrélation positive parfaite (rxy = + 1,00) La corrélation positive parfaite indique que les valeurs des deux variables augmentent ou diminuent ensemble pour toutes les observations. Les 1. Il existe plusieurs formules pour calculer la corrélation de Pearson, dont : N( ∑ XY ) – ( ∑ X ) ( ∑ Y ) rxy = ------------------------------------------------------------------------------------------------------------- 2 2 2 2 (N ∑X )–( ∑ X) (N ∑Y )–( ∑ Y) Les amateurs d’algèbre découvriront que toutes ces formules sont identiques. L A C O R R É L AT I O N 155 observations qui sont fortes sur une variable le sont aussi sur l’autre, et cel- les qui sont faibles sur l’une sont faibles sur l’autre. Puisque la corrélation indique le degré avec lequel les observations maintiennent la même posi- tion sur les deux variables, cela implique que les valeurs étalons Z associées à chaque observation seront positives ou négatives sur les deux variables et identiques lorsque la corrélation sera parfaite et positive. Lorsque les valeurs Zx et Zy ne sont pas identiques, mais que l’ordre des observations est identique sur les deux variables, les corrélations seront très proches (mais pas nécessairement tout à fait) +1,00. Le Tableau 6.2 reprend les données du Tableau 6.1 et inclut la valeur éta- lon Z de chaque observation afin de produire le coefficient de corrélation de Pearson par l’entremise de la Formule 6.1. La corrélation positive parfaite obtenue au Tableau 6.2 (rxy = +1,00) confirme que la position relative de chaque étudiant demeure exactement la même aux deux examens. Remarquez que la note obtenue par les étudiants D et E est au-dessous de la moyenne pour les deux examens. Mais, puisque le produit de deux quantités négatives est toujours positif, la somme finale sera elle aussi positive. De manière similaire, les étudiants A et B obtiennent tous deux des valeurs Z positives aux deux examens, et le produit de ces deux valeurs sera positif, lui aussi. Dans ce cas, le résultat final sera une cor- rélation parfaite (rxy = +1,00). Le graphique de dispersion pour décrire la corrélation Traçons un graphique qui représente la relation entre la variable X et la variable Y. Ce type de graphique se nomme graphique de dispersion ou encore nuage de points. L’ordonnée du graphique représente la valeur pro- duite par chacun des sujets sur la variable Y et l’abscisse représente la valeur de ces mêmes sujets sur la variable X. En général, les coordonnées se défi- nissent par la valeur de la variable initiale, mais il est aussi possible de la représenter en valeur étalon Z. Dans le cas présent, les notes à l’examen X sont indiquées sur l’abscisse alors que les notes à l’examen Y sont placées le long de l’ordonnée. À l’intersection de chaque valeur X et de sa valeur Y correspondante, nous plaçons une marque qui indique la position de cette observation. Ce point se nomme la coordonnée pour cette observa 156 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Tableau 6.2 Corrélation entre les notes obtenues à deux examens par les mêmes étudiants Examen 1 Examen 2 Note sur 100 Note sur 20 Étudiant Score brut X ZX Score brut Y ZY ZXi × ZYi A 95,0 1,12 19,0 1,12 1,25 B 87,0 0,74 17,4 0,74 0,55 C 74,0 0,14 14,8 0,14 0,02 D 56,0 –0,70 11,2 –0,70 0,49 E 43,0 –1,30 8,6 –1,30 1,70 Somme 355,0 71,0 4,00 N 5 5 5 Résultat 71,0 14,2 1,00 Nom de la MX MY rXY statistique rxy = Σ(ZXi × ZYi) / (N – 1) = 4 / (5 – 1) = 4 / 4 = 1,00 tion. Par exemple, la position de l’étudiant E est le point qui se trouve à la coordonnée {X, Y} = {43,0 ; 8,6}. La Figure 6.1 indique les coordonnées pour chaque étudiant (habituellement, nous n’indiquons pas les coordon- nées des points sur le graphique). Nous répétons cette procédure et, à la fin du processus, la position de toutes les observations sera représentée par cet ensemble de points. On remarquera que les deux axes du graphique décrivant le nuage de points ne commencent pas à zéro, car personne n’a obtenu une telle note. Les notes les plus basses étant 43,0 pour l’étudiant E à l’examen 1 (X) et 8,6 pour ce même étudiant à l’examen 2 (Y), le graphique commence la numé- rotation des axes un peu au-dessous des valeurs minimales des données. Dans ce cas, l’abscisse part de la valeur « 40 », et l’ordonnée, de la valeur « 8 ». Cette stratégie produit un graphique plus lisible. L A C O R R É L AT I O N 157 Le graphique de dispersion est utilisé pour représenter visuellement la relation qui existe entre les X et les Y. La Figure 6.1 montre que les étudiants qui tendent à avoir des notes fortes à l’examen X tendent aussi à avoir des notes fortes à l’examen Y et que les performances qui sont faibles sur X sont associées à des performances faibles sur Y. La relation est positive. figure 6.1 Les coordonnées : la relation entre les notes aux deux examens 20 95; 19 18 87; 17,4 Notes à l’examen 2 16 74; 14,8 14 71; 14,2 12 56; 11,2 10 43; 8,6 8 40 50 60 70 80 90 100 Notes à l’examen 1 La corrélation négative parfaite (rxy = –1,00) Prenons maintenant la série de données du Tableau 6.3 illustrée à la Figure 6.2. Cette fois, nous voulons calculer la corrélation qui existe entre le nombre de couches de vêtements que cinq personnes portent et la température exté- rieure. On s’attend à ce que ces cinq personnes portent progressivement plus de vêtements au fur et à mesure que la température baisse : une tem- pérature plus élevée devrait donc être associée à moins de couches de vête- ments. Statistiquement, on s’attend à obtenir une corrélation négative entre les deux variables (X est la température extérieure et Y est le nombre de couches de vêtements). Au Tableau 6.3, nous trouvons que lorsque les valeurs étalons ZX sont positives pour la température (il fait plus chaud que la moyenne qui est de 10 °C pour nos données), les valeurs étalons (ZY) pour le nombre de cou- 158 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S ches de vêtements sont négatives (les personnes portent moins de couches de vêtements que la moyenne, qui est de 3). Les produits Zxi × Zyi sont tous négatifs, car nous multiplions une valeur ZX, positive, avec une valeur ZY négative, ou vice-versa. La somme de toutes ces valeurs négatives est elle aussi négative (–4). Par conséquent, lorsque nous divisons par N – 1, le calcul indique une corrélation négative (rxy = –1,00). Tableau 6.3 Corrélation entre la température et le nombre de couches de vêtements portées Nombre de couches Température en °C de vêtements portées Personne Score brut X ZX Score brut Y ZY ZXi × ZYi A 30 1,26 1 –1,26 –1,60 B 20 0,63 2 –0,63 –0,40 C 10 0,00 3 0,00 0,00 D 0 –0,63 4 +0,63 –0,40 E –10 –1,26 5 +1,26 –1,60 Somme 50 15 –4,00 N 5 5 5 Résultat 10 3 –1,00 Nom de la MX MY rXY statistique rxy = Σ( ZXi × ZYi) / N – 1 = -4 / (5 – 1) = –4 / 4 = -1,00 La corrélation négative indique qu’au fur et à mesure que la température augmente, le nombre de couches de vêtements que l’on porte se réduit, ce qui est raisonnable. L A C O R R É L AT I O N 159 figure 6.2 La relation entre la température et le nombre de couches de vêtements portées 6 Couches de vêtements 5 4 3 2 1 0 −20 −10 0 10 20 30 40 Température La corrélation nulle (rxy = 0,00) Les données du Tableau 6.4, illustrées à la Figure 6.3, indiquent le nom- bre de cigarettes que cinq personnes fument par jour (X) et le nombre de nez (Y) que ces personnes ont ! Nous voyons qu’il n’y a aucune tendance à l’augmentation ou à la réduction des valeurs de Y (nez) au fur et à mesure que les valeurs de X (cigarettes fumées) augmentent. Naturellement, on ne s’attendait pas à détecter une relation entre ces deux variables. Si on calcule la corrélation, on verra qu’elle est égale à zéro : il n’y a aucune relation entre le tabagisme et le nombre de nez. Ce résultat n’est pas une grande surprise, mais on vient de le démontrer statistiquement. On peut remarquer au Tableau 6.4 que la moyenne pour le nombre de nez est égale à 1 et que toutes les observations portant sur le nombre de nez sont, elles aussi, égales à 1. Par conséquent, toutes les observations se situent exactement à la moyenne (1). La valeur étalon Z pour une observa- tion se trouvant à la moyenne étant 0, toutes les valeurs ZY sont égales à 0. Le produit de n’importe quelle valeur par 0 est égal à 0. Donc, pour chaque observation, le numérateur de la Formule 6.1, la quantité ZXi × ZYi , est égal à 0. Par conséquent, la somme ∑(ZXi × ZYi) est, elle aussi, égale à 0, et en 160 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S divisant par N − 1, on constate que la corrélation entre le tabagisme et le nombre de nez est rxy = 0. On peut conclure que le tabagisme (même s’il est une mauvaise chose) ne provoque pas la perte du nez. Si on relit cette conclusion, on comprend qu’il s’agit d’une conclusion causale (le tabagisme ne cause pas la perte du nez). Cette conclusion est tirée d’une corrélation et, dans ce cas, c’est une conclusion valide. Mais cela n’est pas toujours le cas. Nous y reviendrons à la fin de ce chapitre, lorsque nous aborderons la question de la causalité et de la corrélation. Tableau 6.4 Corrélation entre X (nombre de cigarettes fumées/jour) et Y (nombre de nez de chaque fumeur) Nombre de cigarettes Nombre de nez fumées/jour Fumeur Score brut X ZX Score brut Y ZY ZXi × ZYi A 40,0 1,26 1,00 0,00 0,00 B 30,0 0,63 1,00 0,00 0,00 C 20,0 0,00 1,00 0,00 0,00 D 10,0 –0,63 1,00 0,00 0,00 E 0,0 –1,26 1,00 0,00 0,00 Somme 100,0 5,00 0,00 N 5 5 5 Résultat 20 1,00 0,00 Nom de la MX MY rXY statistique rxy = Σ(ZXi × ZYi) / (N – 1) = 0 / (5 – 1) = 0 / 4 = 0,00 Quiz rapide 6.2 Selon vous, existe-t-il une relation entre la taille d’une boule de quilles et son poids ? Cette relation est-elle positive ou négative ? Répondez à la même question pour le prix d’un CD et l’argent qu’il vous reste après l’avoir acheté. L A C O R R É L AT I O N 161 figure 6.3 La relation entre le nombre de cigarettes fumées et le nombre de nez 2 Le nombre de nez 1 0 0 18 38 Le nombre de cigarettes fumées Les corrélations qui ne sont pas parfaites (rxy entre –1,00 et +1,00) Jusqu’ici, nous avons vu des corrélations parfaites ou nulles (+1, –1 ou 0). Mais en réalité, ces types de corrélations sont plutôt rares. Les corrélations, particulièrement en sciences sociales, tendent à se situer entre ±0,15 et ±0,60, bien qu’elles puissent être plus faibles ou plus fortes dans certains cas. En sciences cognitives ou en sciences économiques, les corrélations sont plus fortes (souvent supérieures à 0,85). Le Tableau 6.5 présente le salaire et le niveau de scolarité d’un échantillon de 30 personnes. La corrélation entre ces deux mesures est rxy = + 0, 56. Le graphique de dispersion qui décrit ces données (Figure 6.4) indique visuel- lement que les personnes plus scolarisées tendent à obtenir de meilleurs salaires. Ainsi, les personnes qui sont relativement peu scolarisées (la partie inférieure de l’abscisse) tendent à avoir des salaires qui sont plus concentrés vers la partie inférieure de l’ordonnée, et les personnes plus scolarisées (la partie supérieure de l’abscisse) tendent à avoir des salaires plus élevés. On remarque cependant que la corrélation n’est pas parfaite : le salaire n’est pas forcément plus élevé pour toutes les personnes plus scolarisées. 162 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Tableau 6.5 Relation entre salaire et scolarité Années de scolarité Salaire ($) Années de scolarité Salaire ($) 8 21 900 15 27 900 8 28 350 15 27 750 12 21 450 15 35 100 12 21 900 15 46 000 12 24 000 15 24 000 12 27 300 15 21 150 12 40 800 15 31 050 12 42 300 15 32 550 12 26 250 15 31 200 12 21 750 16 40 200 12 16 950 16 30 300 15 57 000 16 103 750 15 45 000 16 38 850 15 32 100 19 60 375 15 36 000 19 135 000 rxy = +0, 56 Examinons les observations qui sont encerclées à la Figure 6.4. Deux personnes ayant le même niveau de scolarisation (19 années) n’ont pas le même salaire : le salaire de l’une est plus que le double du salaire de l’autre (135 000 et 60 375 $). Les observations encadrées par un rectangle mon- trent un cas où plusieurs personnes ont le même salaire, bien qu’elles n’aient pas un nombre égal d’années de scolarité. Par exemple, les cinq personnes dont le salaire se situe entre 21 000 et 22 000 $ ont entre 8 et 12 années de scolarité. Nous voyons maintenant ce que la corrélation imparfaite nous dit : il existe effectivement une certaine similarité entre les valeurs Z obte- nues entre les deux variables, mais il y a aussi des exceptions. L A C O R R É L AT I O N 163 Quiz rapide 6.3 Supposons que la position de toutes les observations sur la variable X ne se reproduit jamais sur la variable Y. Quelle sera la corrélation entre X et Y ? La corrélation est un indice de l’ampleur de la relation entre deux varia- bles. Par conséquent, elle permet la comparaison entre les relations. Est-ce que la relation entre X et Y est plus forte que celle qui existe entre A et B ? Par exemple, la corrélation entre la réussite professionnelle (mesurée par le salaire) et le QI pourrait se situer autour de 0,20. La corrélation entre les notes scolaires et le QI pourrait être plus forte, se situant aux alentours de 0,80. Par conséquent, nous pourrions conclure que le QI est plus lié aux notes scolaires qu’à la réussite professionnelle2. Ce type d’information est très précieux en recherche comme dans la pratique. figure 6.4 Le nuage de points de la corrélation salaire-scolarité 160 K 140 K X 120 K 100 K X Salaire ($) 80 K 60 K X X X 40 K X X X X X X X X 20 K X X X X 0 6 8 10 12 14 16 18 20 Années de scolarité 2. Il faudra éventuellement faire des tests statistiques additionnels. Ces tests sont esquissés dans les chapitres portant sur l’inférence statistique (chapitres 8 et 9). 164 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Quiz rapide 6.4 La relation entre le nombre d’heures de travail dans une journée et le nombre de minutes de travail dans cette journée est-elle parfaite ? Répondez à la même ques- tion pour le nombre d’heures de travail dans une journée et le nombre de dossiers résolus dans cette journée ? Le coefficient de détermination Le coefficient de détermination est une statistique très simple à calculer et très utile pour l’interprétation des corrélations. Le coefficient de détermi- nation se calcule en mettant le coefficient de corrélation au carré puis en pourcentage. Les valeurs minimale et maximale du coefficient de détermi- nation sont 0 et 100 %. C’est une statistique pratique qui indique, en pour- centage, le degré de relation existant entre deux variables. Coefficient de détermination = rxy2 × 100 % Formule 6.2 Si : rxy = ±1, alors le coefficient de détermination = 12 × 100 % = 100 % ; rxy = 0, alors le coefficient de détermination = 02 × 100 % = 0 % ; rxy = ±0,50, alors le coefficient de détermination = 0,52 × 100 % = 25 %. On peut remarquer qu’une corrélation de –0,50 ou +0,50 produit le même coefficient de détermination : 25 %. Le coefficient de détermination s’appelle aussi le pourcentage de variance expliquée ou le pourcentage de variance partagée. Le pourcentage de variance expliquée indique le degré avec lequel la connaissance de la variable X permet de réduire l’incertitude sur la variable Y. Lorsque la corrélation est parfaite, le coefficient de détermination est de 100 %, et indique que la connaissance de la position relative de chaque observation sur X nous renseigne totalement sur la position relative de cha- que observation sur Y. Lorsque la corrélation est égale à 0, le coefficient de détermination sera lui aussi égal à 0 %, et indique que la connaissance de X ne nous apprend rien au sujet de la variable Y. Le coefficient de détermination est particulièrement utile dans le cas de corrélations imparfaites. Si la relation entre les années de scolarité et le salaire est de 0,56, alors le coefficient de détermination est de 0,562 × 100 % = 31 %. L A C O R R É L AT I O N 165 Ainsi, la connaissance du niveau de scolarité explique ou réduit l’incertitude au sujet du salaire de 31 %. Ce coefficient nous offre donc une façon prati- que d’interpréter l’ampleur de la relation entre les variables. Nous basant sur le coefficient de détermination pour la relation scolarité-salaire, nous pou- vons ainsi conclure qu’avoir plus d’années de scolarité est relié à un meilleur salaire, mais que ce n’est pas le seul élément qui « explique » ce salaire. Le coefficient de non-détermination Prenons une corrélation de 0,50. Le coefficient de détermination est de 25 %, ce qui veut dire que la variable Y est « expliquée » à 25 % par l’autre variable (X). Mais quel est le niveau de non-relation entre les variables ? Dans ce cas, il existe 75 % de fluctuation dans une variable qui n’est pas lié à l’autre variable, et c’est ce qu’on appelle le coefficient de non- détermination : Coefficient de non-détermination = (1 – rxy2) × 100 % Formule 6.3 Si : rxy = ±1,00, le coefficient de non-détermination = (1 – 12) × 100 % = 0%; rxy = 0,00, le coefficient de non-détermination = (1 – 02) × 100 % = 100 % ; rxy = ±0,50, le coefficient de non-détermination = (1 – 0,52) × 100 % = 75 %. Si le coefficient de détermination indique dans quelle mesure la variable X explique la variable Y, le coefficient de non-détermination indique ce que nous n’expliquons pas. Le coefficient de détermination, de non-détermination et la réduction de l’incertitude relative Supposons qu’une personne est à l’intérieur d’un contenant scellé et cli- matisé et que ce contenant est déposé quelque part dans le monde. On demande à cette personne de deviner la température externe en degrés Celsius. Elle n’a aucune base rationnelle pour répondre, le contenant pou- 166 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S vant se trouver en Antarctique ou au milieu du Sahara. Nous pouvons alors dire que l’incertitude de cette personne quant à la température externe est au maximum, en l’occurrence à 100 %. Dans l’espoir de réduire son incertitude (sur la température à l’extérieur du contenant), on lui indique la note obtenue à un examen de statistiques par un étudiant ! Nous savons que la relation entre les températures exté- rieures et les notes aux examens est rxy = 0,0 et, par conséquent, que le coef- ficient de détermination est de 0 % et le coefficient de non-détermination est de 100 %. Où se situe maintenant le degré d’incertitude au sujet de la température ? L’information concernant la note de l’étudiant n’aide aucune- ment la personne à deviner la température externe. Cette information n’a pas réussi à réduire son incertitude. Le principe est : lorsque la corrélation est nulle, une variable est incapable de réduire le degré d’incertitude au sujet d’une autre variable. Le coefficient de détermination et le concept de la réduction de l’incer- titude sont très importants dans plusieurs situations concrètes. Supposons que nous savons qu’il existe une relation négative entre le niveau de soutien familial et le risque de suicide chez les jeunes (plus le soutien familial est fort, moins le risque de suicide est grand). Si nous voulions évaluer le ris- que de suicide chez une personne, nous pourrions examiner le niveau de soutien qu’elle reçoit ; ainsi, nous aurions une meilleure base pour évaluer son risque de suicide. Si la personne reçoit très peu de soutien, il y a lieu d’être plus inquiet que si le degré de soutien qu’elle reçoit est très fort. Revenons maintenant à cette personne toujours dans le contenant scellé à qui on demande de deviner la température en degrés Celsius. Mais, cette fois, on lui indique la température externe en Fahrenheit. Elle sait que la corrélation entre les degrés Fahrenheit et les degrés Celsius est parfaite : rFC = +1,0. Quel serait maintenant son degré d’incertitude quant à la tem- pérature en degrés Celsius ? La corrélation parfaite produit un coefficient de détermination de 100 % et, par conséquent, le coefficient de non-détermi- nation est de 0 %. Dans ce cas, la connaissance de la température en Fahren- heit réduit l’incertitude au sujet de la température en degrés Celsius à 0 %. Cette personne peut maintenant sans erreur indiquer, en degrés Fahrenheit, la température qu’il fait à l’extérieur du contenant. Si on lui dit que la tem- pérature externe est de 32 °F, elle sait sans le moindre risque d’erreur qu’il L A C O R R É L AT I O N 167 fait 0 en degrés Celsius. Lorsque la corrélation est parfaite, le coefficient de détermination est égal à 100 %, réduisant le coefficient de non-détermination (et le degré d’incertitude) à 0 %. Le principe est donc qu’au fur et à mesure que la corrélation (et le coefficient de détermination) augmente, l’incertitude se réduit. Représentation schématique de la corrélation et du coefficient de détermination Le coefficient de détermination est un indice de la quantité de variances partagées par deux variables. Quand rxy = 0, rxy2 = 0 %, nous pouvons dire que X et Y n’ont aucune variance en commun. À l’opposé, lorsque rxy = ±1,0 rxy2 = 100 %, cela implique que ce que nous savons de X nous renseigne par- faitement sur Y. La Figure 6.5 schématise ce concept à l’aide d’un diagramme de Ballantine. La variance de chaque variable X ou Y prend la forme d’un cercle tandis que le coefficient de détermination est illustré par le degré de chevauchement des cercles. Le degré de chevauchement des deux variables (le coefficient de détermination) est plus fort (78 %) pour les cercles à droite dans la figure que pour ceux à gauche dans la figure (31 %). figure 6.5 Diagramme de Ballantine représentant schématiquement le pourcentage de variance partagée (rxy2) La variance partagée entre X et Y = rxy2 rxy2 = 31 % rxy2 = 78 % X Y X Y 168 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S REMARQUES SUPPLÉMENTAIRES Corrélation et causalité L’existence d’une corrélation entre X et Y n’indique pas un lien de causalité entre X et Y. Étudions la recherche suivante : tous les trois ans, une immense étude (Programme for International Student Assessment) examine la com- pétence dans plusieurs matières scolaires d’élèves âgés de 15 ans et rési- dant dans plus de 40 pays. Dans chaque pays, entre 4 500 et 10 000 élèves passent l’examen. Voici un des résultats obtenus par cette étude en 2003 : il existe une corrélation positive entre la présence d’un lave-vaisselle à la maison (la variable X) et la compétence en lecture, en mathématiques et en sciences (la variable Y). Les élèves qui ont un lave-vaisselle chez eux obtien- nent de meilleures notes aux tests standardisés que ceux qui n’en ont pas ! Il existe au moins cinq explications pour ce résultat. Laquelle est exacte ? Peut-on en imaginer d’autres ? 1. La possession d’un lave-vaisselle entraîne la compétence dans ces matières (X cause Y). 2. L’obtention de meilleurs résultats dans ces matières cause l’achat d’un lave-vaisselle (Y cause X). 3. Il n’y a pas de réelle relation entre la présence d’un lave-vaisselle et la compétence des élèves, ce résultat n’étant qu’un accident statistique. 4. Les élèves qui ont un lave-vaisselle n’ont pas besoin de laver la vais- selle et, par conséquent, ils ont plus de temps (variable W) à consa- crer à l’étude (X cause W qui, à son tour, cause Y). 5. Les élèves qui ont un lave-vaisselle vivent dans des familles plus riches (variable W) et, parce qu’elles sont plus riches, elles sont plus en mesure d’offrir à leurs enfants une meilleure éducation et de s’acheter un lave-vaisselle. Leur richesse se reflète dans leur perfor- mance scolaire et leurs électroménagers (W cause X et Y). Basées simplement sur la corrélation, toutes ces explications sont pos- sibles. Il est donc impossible d’apporter une conclusion sur la causalité à partir de la seule corrélation. Cependant, supposons que les chercheurs n’ont trouvé aucune cor- rélation entre ces deux variables. Dans ce cas, nous pourrions affirmer que le fait de posséder un lave-vaisselle ne cause pas une amélioration des L A C O R R É L AT I O N 169 résultats scolaires. Ainsi, la présence d’une corrélation n’est pas forcément le signe d’un lien causal, mais l’absence de corrélation confirme l’absence de causalité ! Corrélation de Pearson et variance des variables La corrélation entre deux variables sera toujours de zéro lorsque la variance de l’une ou l’autre des variables est égale à zéro. Retournons au Tableau 6.4 et à la Figure 6.3. Toutes les personnes de la banque de données ont exac- tement la même valeur pour la variable « nombre de nez » et, par consé- quent (voir le chapitre 3), la variance du nombre de nez est égale à zéro. Puisque la variance est égale à zéro, chaque personne de la distribution occupe exactement la même position sur la variable « nombre de nez » (c’est-à-dire Z = 0). Quiz rapide 6.5 Calculez la variance de la variable « nombre de nez » du Tableau 6.5 en vous servant de la formule vue au chapitre 3. Expliquez pourquoi la corrélation entre « nombre de nez » et « tabagisme » est égale à zéro. La corrélation indique le degré de similitude entre la position relative des observations sur une variable et la position relative de ces mêmes observations sur une autre variable. Au Tableau 6.4, la variable X (nom- bre de cigarettes fumées) présente de la variance alors que la variable Y (nombre de nez) n’en présente pas. Voyons maintenant si les personnes maintiennent la même position sur les deux variables. La personne A se situe à Z = +1,26 sur la variable X (tabagisme), mais elle se situe à Z = 0 sur la variable Y (nez). Sa position sur la variable X n’est pas maintenue sur la variable Y. La même conclusion s’impose pour presque toutes les observations. Puisque les personnes ne maintiennent pas la même posi- tion relative sur les deux variables, la corrélation est zéro. Autrement dit, si une des variables est constante (aucune variance), l’autre variable ne peut rien expliquer, et donc, il n’existe aucune corrélation. On peut aussi en arriver à la même conclusion en appliquant la formule pour la corréla- tion (Formule 6.1). 170 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S Nous pouvons maintenant élaborer un principe général. Plus la variance de l’une ou l’autre des deux variables est petite, plus la corrélation obser- vée sera faible. À la limite, lorsque l’une ou l’autre des variables n’a pas de variance, la corrélation est invariablement égale à zéro. Quiz rapide 6.6 On veut calculer la corrélation entre la taille des enfants et leur âge. On calcule cette corrélation sur deux groupes d’enfants. Le groupe A : les enfants âgés de 1 à 8 ans. Le groupe B : les enfants âgés de 6 et 7 ans. Pour quel groupe la corrélation a-t-elle le plus de chances d’être grande ? Corrélation et observations loin de la moyenne Les observations n’ont pas toutes la même influence sur la corrélation. La corrélation est plus influencée par les observations se trouvant loin de la moyenne que par celles qui lui sont proches. Au Tableau 6.5, nous avons obtenu une corrélation entre salaire et scolarité de rxy = +0,56 (rxy2 = 31 %). Retirons les deux observations encerclées et recalculons la corrélation. Ces deux observations identifient des personnes qui ont une longue scolarité (19 années). Ces deux personnes se situent loin de la moyenne (pour la variable « scolarité »). La corrélation entre le salaire et la scolarité pour les observations restantes est rxy = 0, 40 (rxy2 = 16 %). Le coefficient de détermi- nation est presque moitié moindre. Le retrait des deux seules observations loin de la moyenne a considérablement réduit la corrélation. En l’absence de ces deux observations, la réduction de l’incertitude chez Y (le salaire) à partir de X (la scolarité) est plus faible et il devient beaucoup plus difficile de prédire les salaires à partir du nombre d’années de scolarité. Remettons ces deux observations dans l’échantillon et, cette fois, retirons deux obser- vations qui se trouvent près de la moyenne. La corrélation est maintenant rxy = +0,58 (rxy2 = 33 %). Elle a très peu changé ! En somme, les observations se situant loin de la moyenne ont plus d’in- fluence sur la corrélation que les observations se situant près de la moyenne. Voyons pourquoi. La corrélation se calcule à partir de ∑(ZXi × ZYi) / N – 1. Ainsi, plus la quantité ∑(ZXi × ZYi) est grande, plus la corrélation sera forte. Or, les valeurs qui se situent plus loin de la moyenne produisent des valeurs étalons Z qui sont plus grandes. Si on les retire, la quantité ∑(ZXi × ZYi) sera L A C O R R É L AT I O N 171 nettement plus petite. En conséquence, la corrélation chutera. À l’inverse, si on élimine deux observations proches de la moyenne, leurs valeurs Z étant proches de zéro, ce retrait ne réduira que légèrement ∑(ZXi × ZYi) et, par conséquent, la corrélation changera peu. Quiz rapide 6.7 La corrélation entre X et Y est forte. Supposons que l’on retire une observation qui se situe exactement à la moyenne de la variable X. Qu’adviendra-t-il de la corrélation XY ? Et si la corrélation XY était zéro, qu’arriverait-il si nous retirions une observation qui se trouve à la moyenne de X ? L’impact des observations loin de la moyenne sur la corrélation n’est rien d’autre qu’un cas particulier du principe précédent selon lequel la corrélation est plus faible lorsque la variance des observations est plus petite. En effet, lorsque nous retirons des observations qui sont loin de la moyenne, les observations qui restent sont plus près les unes les autres. Par conséquent, la variance diminue. Corrélation de Pearson et relation linéaire La corrélation de Pearson mesure le degré de linéarité dans la relation entre deux variables. Une relation linéaire implique que la taille de l’accroisse- ment ou de la décroissance des valeurs Y est la même pour chaque accrois- sement ou décroissance de la variable X. La Figure 6.6 clarifie cette idée. Dans le graphique de gauche, nous avons quatre observations. La distance sur l’axe X entre les observations B et C et entre les observations C et D est la même. Voyons maintenant les distances pour ces mêmes observations le long de l’axe Y. Ici encore, la distance B-C est égale à la distance C-D. Cha- que accroissement le long de la variable X est accompagné d’un accroisse- ment constant sur la variable Y. La relation est linéaire. Le graphique de droite de la Figure 6.6 présente, par contraste, une rela- tion non linéaire. Les distances entre les observations sur la variable X sont égales. Cela n’est pas le cas pour les mêmes observations le long de l’axe Y. Ainsi, sur l’axe Y, la distance entre B et C est plus grande que celle entre C et D. Chaque accroissement le long de la l’axe X est accompagné d’un accrois- sement qui n’est pas constant sur l’axe Y. La relation n’est pas linéaire. 172 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S La corrélation de Pearson n’est pas une statistique appropriée lorsque les relations sont non linéaires. Pour cela, il faut faire appel à d’autres types de corrélations (par exemple au ratio de corrélation, la statistique η, êta). figure 6.6 Représentation graphique d’une relation linéaire et d’une relation non linéaire La relation linéaire La relation non linéaire D D X X C C X X B X A B A X X X Une façon pratique de présenter une corrélation : le tableau des attentes. La corrélation est un indicateur statistique qui n’est pas toujours facilement compris par les non-statisticiens. Il importe, dans certaines situations, de présenter les résultats d’une analyse de corrélation de manière plus simple. Le tableau des attentes s’avère l’outil idéal pour ce faire. Examinons la situation suivante : dans un grand centre d’appel, la per- formance au travail des employés est déterminée par le nombre de clients qu’ils servent dans une journée. Le centre désire améliorer le système qu’il utilise pour faire la sélection des futurs employés, c’est-à-dire choisir ceux qui pourront servir plus de clients.. La vice-présidente du centre demande à un chercheur de développer un nouveau système de sélection des candidats, ce qu’il fait en élaborant un test pour mesurer l’aptitude au travail. La mesure de l’aptitude est la variable X. La performance au travail est la variable Y. Le chercheur émet l’hypothèse que les personnes qui obtiendront les valeurs les plus élevées au test s’avéreront les plus productives au travail. Il entend la vérifier en calculant la corrélation existant entre la mesure de l’aptitude (X) et la performance au travail (Y). L A C O R R É L AT I O N 173 Pour vérifier son hypothèse, il choisit aléatoirement 180 personnes déjà en poste. Les dossiers de la compagnie lui fournissent leur performance au travail : le nombre moyen de clients que chacune a servis, chaque jour, au cours du dernier mois. Cette mesure varie entre 20 et 80. Il administre le test de l’aptitude au travail à ces 180 employés. Il obtient donc, pour cha- cun, deux informations : sa performance au travail (Y) et sa performance au test d’aptitude (X). Il vérifie l’hypothèse en calculant la corrélation XY et trouve qu’elle est positive et substantielle : rxy = 0,58. Le chercheur détient maintenant une preuve que la performance au test d’aptitude est positive- ment liée à la performance au travail. Ainsi, ceux qui démontrent la plus grande aptitude (telle que mesurée par le test) tendent à être plus produc- tifs. On peut aussi affirmer que le fait de connaître l’aptitude au travail (X) réduit l’incertitude quant à l’éventuelle performance au travail (Y). Techniquement, le chercheur a exécuté une étude de validité conco- mitante. Pour ce genre d’étude, une corrélation de 0,58 est considérée très substantielle et les psychométriciens diraient que le test est une mesure « valide » de la performance au travail. Il lui faut maintenant communiquer le résultat de son étude à la vice- présidente du centre. Elle n’est pas statisticienne et une corrélation de 0,58 ne lui dira pas grand-chose. Le chercheur choisit alors de lui présenter la corrélation XY qu’il a obtenue dans un tableau des attentes. Un tableau des attentes est une matrice à double entrée que le chercheur construit de la manière suivante : il divise les employés qui ont participé à son étude en trois groupes de 60 personnes chacun. Dans le groupe 1, qu’il étiquette « Performance faible », il place les personnes qui se situent dans le tiers inférieur de la distribution de la performance au travail. Il place dans le groupe 3, « Performance élevée », les personnes qui se situent dans le tiers supérieur de la performance au travail. Toutes les autres, le tiers de son échantillon qui se situe au milieu de la distribution de la performance au travail, sont placées dans le groupe 2, « Performance moyenne ». Les notes obtenues au test d’aptitude varient entre 20 et 80. Le chercheur divise alors les performances au test en trois groupes : le groupe 1, « Apti- tude faible », inclut les employés qui ont obtenu 39 ou moins au test. Ceux qui obtiennent 60 ou plus forment le groupe 3 : « Aptitude élevée ». Les autres, ceux qui ont obtenu entre 40 et 59, forment le groupe 2 : « Aptitude 174 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S moyenne ». Le Tableau 6.7 montre les données observées. Notons que, dans ce tableau, 60 employés se classent dans le groupe « Aptitude faible », et 56 et 64 employés, respectivement, dans les groupes « Aptitude moyenne » et « Aptitude élevée ». Ensuite, le chercheur identifie pour chaque groupe de performance au test d’aptitude le nombre de personnes qui ont une performance au travail faible, moyenne ou élevée. Nous notons au Tableau 6.7 que, des 60 person- nes qui ont obtenu un faible résultat au test d’aptitude, 45, 14 et 1 font res- pectivement partie des groupes de performance faible, moyenne et élevée (rangée 1 du tableau). Nous pouvons maintenant exprimer ces résultats en pourcentages (indiqués sous une forme probabiliste entre parenthèses dans le tableau). Ainsi, nous voyons que 75 % des personnes qui ont obtenu un faible résultat au test démontrent une faible performance au travail, et que seulement 2 % des personnes qui démontrent un faible niveau d’aptitude présentent un niveau élevé de performance au travail. Environ le quart (23 %) des personnes qui ont obtenu un faible résultat au test fournissent une performance moyenne au travail. En interprétant ces pourcentages en termes probabilistes, nous pouvons conclure que celles qui ont obtenu un résultat faible au test ont une très faible probabilité (p = 0,02 ) de fournir une forte performance au travail, une probabilité intermédiaire (p = 0,23) d’être moyennement productives et une très forte probabilité de fournir une piètre performance au travail (p = 0,75). Tableau 6.7 Le tableau des attentes Performance au travail (Y) Aptitude (X) Grp 1 (Faible) Grp 2 (Moyenne) Grp 3 (Élevée) Total Faible 45 (0,75) 14 (0,23) 1 (0,02) 60 Moyen 13 (0,23) 29 (0,52) 14 (0,25) 56 Élevé 2 (0,03) 17 (0,27) 45 (0,70) 64 TOTAL 60 60 60 180 L A C O R R É L AT I O N 175 Nous procédons à ces analyses pour chaque rangée du tableau des atten- tes. Prenons la troisième rangée de données du Tableau 6.7 par exemple : des 64 personnes qui ont démontré une forte performance au test, 3 % (2/64) sont peu productives, 27 % (17/64) sont moyennement productives et 70 % (45/64) sont très productives. En exprimant ces pourcentages en termes probabilistes, nous pouvons conclure que les personnes qui réussissent très bien le test (aptitude élevée ; 60 et plus) présentent une très forte probabilité (p = 0,70) d’être des employés très productifs (groupe 3) et une très faible probabilité (p = 0,03) de fournir une piètre performance au travail. Si la vice-présidente décide d’administrer ce test d’aptitude aux postu- lants, nous pourrons constater, en consultant le tableau des attentes, qu’il serait préférable de ne pas embaucher le candidat qui obtiendra un score faible (< 40) au test car il présentera une faible probabilité de fournir une prestation de travail exceptionnelle (p = 0,02) et une très forte probabilité (p = 0,75) de ne pas être performant. Mais s’il obtenait plus de 59, sa pro- babilité de devenir un employé très productif serait très forte (p = 70) et il serait alors pertinent de l’embaucher. De fait, le tableau des attentes ne sert qu’à reproduire, en termes qu’il est plus facile de comprendre et de mettre en pratique, l’information déjà éta- blie par la corrélation : plus grande est l’aptitude d’une personne, plus élevée sera sa performance au travail. Une question pourrait maintenant vous venir en tête : si le tableau des attentes est une façon pratique et simple de montrer la corrélation entre deux variables, pourquoi avons-nous calculé la corrélation (et vous avoir fait étudier un chapitre complet sur le sujet) ? La réponse nous ramène à la discussion du chapitre 1 portant sur les échelles de mesures. La mesure de l’aptitude et celle de la performance au travail du Tableau 6.7 sont des échel- les à intervalles. Le tableau des attentes a traduit ces variables en échelles catégorielles (nominales). Comme nous l’avons vu au chapitre 1, la conversion d’une échelle à intervalles en une échelle nominale réduit la précision des données. Ainsi, la catégorie « Aptitude faible » englobe, à la fois, la personne qui a obtenu 20 au test et celle qui a obtenu 39, et considère que cette dernière a fourni une performance très différente d’une autre personne qui aurait obtenu 40, seulement un point de plus. Ainsi, la catégorisation occasionne une perte 176 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S d’information importante. Dans le chapitre suivant, nous allons étudier une autre technique, la régression simple, qui nous permet de faire le même genre de prédiction sans convertir les données en variables nominales. Mais, pour cela, il vous faudra apprendre et comprendre d’autres techni- ques statistiques ! SOMMAIRE DU CHAPITRE La corrélation de Pearson est un indice statistique qui indique le degré de similitude entre la position des observations sur une variable et la position de ces mêmes observations sur une deuxième variable. Elle se limite à indi- quer le degré de relation linéaire qui existe entre deux variables qui sont mesurées avec des échelles à intervalles ou des échelles de rapport. La corré- lation prend des valeurs allant de 0 à ±1,0. La relation est parfaite lorsqu’elle est égale à ±1,0 et elle se réduit au fur et à mesure qu’elle se rapproche de 0. Le signe de la corrélation indique la direction de la corrélation. La cor- rélation et ses coefficients de détermination et de non-détermination sont utilisés pour interpréter dans quelle mesure la connaissance d’une variable réduit l’incertitude face à une deuxième variable. La corrélation de Pearson est influencée par les valeurs se situant loin de la moyenne, et est relative- ment peu influencée par les observations se situant près d’elle. Enfin, la pré- sence d’une corrélation n’indique pas nécessairement la présence d’un lien causal entre les variables. Mais l’absence de corrélation indique une absence de causalité. La corrélation fait partie de statistiques descriptives très utilisées en sciences humaines et en sciences sociales, principalement parce qu’elle indi- que dans quelle mesure la connaissance d’une variable nous renseigne au sujet d’une seconde variable. Enfin, il est possible de présenter la corrélation entre deux variables sous une forme plus simple, le tableau des attentes. L A C O R R É L AT I O N 177 EXERCICES DE COMPRÉHENSION 1. Nous calculons la corrélation entre deux variables X et Y. La variable X est une constante. La corrélation sera alors de ________. a) +1,0 b) –1,0 c) 0,0 d) n’importe quelle valeur entre –1 et +1 2. Les personnes qui se situent au-dessus de la moyenne sur la variable X se situent au-dessus de la moyenne sur la variable Y. Nous voyons aussi que toutes les personnes qui se situent au-dessous de la moyenne sur X se situent au-dessous de la moyenne sur Y. La corrélation entre X et Y sera __________. a) positive b) négative c) aux alentours de zéro d) impossible à déterminer avec les informations fournies 3. Nous trouvons une corrélation de zéro entre X et Y. Pourquoi ? a) La variable X ou la variable Y est une constante. b) La position relative des observations sur X ne correspond en rien à leur position sur Y. c) La relation n’est pas linéaire. d) Toutes ces réponses peuvent être justes. 4. La corrélation entre le nombre d’enfants par famille et la richesse des parents est fortement négative. Dans un parc, nous observons deux familles ; la famille A a 6 enfants, alors que la famille B n’en a qu’un seul. Il est probable que ________________. a) la famille A soit plus riche que la famille B b) la famille B soit plus riche que la famille A c) la famille A soit aussi riche que la famille B d) Toutes ces réponses sont également probables. 5. Nous remarquons une corrélation positive très élevée entre le nombre de voitures dans les villes et le nombre de citoyens de ces villes qui sont atteints de troubles respiratoires. Laquelle de ces affirmations est vraie ? 178 S TAT I S T I Q U E S : C O N C E P T S E T A P P L I C AT I O N S a) Les gens qui ont des troubles respiratoires achètent plus de voitures. b) Les voitures étant une source de pollution, elles causent beaucoup de troubles respiratoires. c) Les personnes qui ont des voitures font moins d’activité physique, ce qui leur occasionne des troubles respiratoires. d) Toutes ces réponses sont possibles. 6. Nous étudions la relation entre le stress et la performance au travail. Nous observons que les personnes qui sont très peu stressées performent très mal, mais au fur et à mesure que leur degré de stress augmente, leur performance s’améliore jusqu’à un certain point. Par contre, à partir du moment où leur stress dépasse ce point, leur performance se dégrade rapidement. La relation entre stress et performance est ________, et la corrélation de Pearson sera ____________. a) linéaire ; positive b) linéaire ; positive c) non linéaire ; proche de zéro d) non linéaire ; soit positive, soit négative, mais pas zéro 7. Pour le même groupe d’enfants, nous mesurons le quotient intel- lectuel aussi bien que la performance scolaire. Nous exprimons les valeurs pour ces deux variables en valeurs étalons Z. Pour chacun des élèves, nous calculons la différence entre la valeur Z de son QI et la valeur Z de sa performance scolaire. Pour chacun des élèves, cette différence est égale à zéro. Nous calculons la corrélation entre les deux variables, QI et succès scolaire. La corrélation rxy = _______. a) +1 b) -1 c) 0 d) n’importe quelle valeur entre –1 et +1 8. Nous créons un diagramme de dispersion pour la relation entre les variables X et Y. Une personne se trouve à la coordonnée (100 ; 3,7). Cette personne a obtenu la valeur _______ pour X et la valeur ___________ pour Y. 9. La corrélation entre X et Y est de 0,60. En connaissant X, nous pou- vons réduire l’incertitude sur la variable Y de __________ %. L A C O R R É L AT I O N 179 Réponses 1. c 2. a 3. d 4. b 5. d 6. c 7. a 8. 100 et 3,7 9. 36 Page laissée blanche CHAPITRE 7 LA RÉGRESSION LINÉAIRE SIMPLE Le graphique de dispersion et la droite de régression...................... 184 Quelques conventions...................................................................... 186 Les statistiques de la régression linéaire........................................ 187 Déterminer la position de la droite de régression...................... 190 L’explication du coefficient de régression b................................. 192 L’explication de l’ordonnée à l’origine et sa relation avec b...... 194 L’erreur de prédiction en régression linéaire............................... 196 Exemple de prédiction de la note à un examen final....................... 204 La différence entre le coefficient b et le coefficient ß.................. 207 L’ordonnée à l’origine pour la régression standardisée............. 208 La régression simple et la régression multiple............................. 208 Sommaire du chapitre........................................................................... 209 Exercices de compréhension................................................................ 209 Page laissée blanche