PSY 1004A - Séance 5 - 2 Oct 2024 V2 PDF

Document Details

BriskKazoo9341

Uploaded by BriskKazoo9341

Université de Montréal

2024

Kevin Jamey

Tags

quantitative analyses psychology correlation parametric analyses

Summary

These lecture notes from Université de Montréal cover the concept of correlation and parametric analyses in psychology. The document provides examples of correlation in daily life and in work settings, and details different aspects of correlation analysis. The date of the lecture was 2 October 2024.

Full Transcript

P S Y 1 0 0 4 – A N A LYS E S Q UA N T I TAT I V E S EN PSYCHOLOGIE Séance 5 – La corrélation et les postulats des analyses paramétriques Kevin Jamey, MSc, PhD (c) [email protected] 02 Octobre 2024 2 ORDRE DU JOUR Exposé magistral et...

P S Y 1 0 0 4 – A N A LYS E S Q UA N T I TAT I V E S EN PSYCHOLOGIE Séance 5 – La corrélation et les postulats des analyses paramétriques Kevin Jamey, MSc, PhD (c) [email protected] 02 Octobre 2024 2 ORDRE DU JOUR Exposé magistral et discussions 1. Objectifs et annonces 2. La corrélation 3. Pratique R Studio 4 4. Les postulats des analyses paramétriques (intro). 5. Pratique R Studio 5 3 OBJECTIFS (SÉANCE 5) Connaître et maîtriser les concepts reliés à la corrélation (bivariée; linéaire, etc.). Amorcer la compréhension du test des postulats des analyses paramétriques (en l’occurrence, ceux de la corrélation). Utiliser R pour réaliser des analyses de corrélation. 4 LECTURES POUR LA SÉANCE 6 Lisez le chapitre 7 de Haccoun et Cousineau (2010). 5 TESTEZ VOTRE COMPRÉHENSION ! Haccoun, R. R. et Cousineau, D. (2010). Statistiques: Concepts et applications. Montréal : Les Presses de l'Université de Montréal. Voir p. 27-30; 55-57 pour réviser le cours 1. Voir p. 95-97; 124-126 pour réviser le cours 2. Voir p. 144-146 pour réviser le cours 3. Voir p. 246-248; 288-290 pour réviser le cours 4. Voir p. 177-179 pour réviser le cours 5. 6 LA CORRÉLATION 7 L’ASSOCIATION ET LA CORRÉLATION La grande partie de nos apprentissages proviennent des associations que nous faisons. Une association est une « coïncidence » qui se répète de manière stable et qui a du sens : - Dans la vie de tous les jours. - En sciences. Sur le plan inférentiel, nous cherchons si le lien ou l’association entre la distribution de deux variables existe (H1) ou si il n’existe pas (H0; la variation est aléatoire). 8 L'ASSOCIATION (R ) DANS LA VIE DE TOUS LES JOURS Plus la température est basse (froide), plus les gens portent de couches de vêtements (association/corrélation négative). Plus l’on s’éloigne de l’heure de pointe de circulation, moins nombreux sont les autobus (association/corrélation négative). Plus l’âge d’un individu avance, plus il est susceptible de répondre positivement à un questionnaire de satisfaction (association/corrélation positive). Chacune de ces associations peut être formalisée par une corrélation. 9 LES ASSOCIATIONS (R ) DANS LA VIE AU TRAVAIL Plus la satisfaction avec le salaire (x) est élevée, plus grand est le désir de conserver son emploi (y). Plus une personne a accumulé d’années d’ancienneté (x), plus elle aura de journées de vacances (y). Un climat de travail positif (x) est associé à une réduction des comportements d’harcèlement (y). 10 LA CORRÉLATION ET LA MESURE EN PSYCHOLOGIE La vaste majorité des connaissances en psychologie est dérivée à partir de l’étude de la corrélation entre des variables comportementales. - La relation entre la vie familiale et le bien être psychologique. - La relation entre la vie au travail et la vie hors travail. - La relation entre le soutien social et la dépression. - La relation entre la consommation de substance et certains troubles neuropsychologiques. - Etc … 11 ORIGINE Le concept de corrélation a été mis de l’avant par Sir Francis Galton, dans les années 1800. - Statisticien, sociologue, anthropologue, psychologue, psychométricien, etc… - Le poids d’un boeuf ORIGINE Karl Pearson a raffiné le concept et sa mathématique. Mathématicien (mathématique statistique). Corrélation simple, bivariée, ordre zéro ou linéaire (synonymes). Son propre sujet ! 12 13 CARACTÉRISTIQUES ET CONVENTIONS DE BASES La corrélation ne se calcule qu’à partir de deux variables, qui sont par convention ici identifiées par x et y. Elle exige que chaque observation produit une valeur sur x et une valeur sur y (impossible de la calculer si l’une des deux valeurs est manquante). Il existe plusieurs types de corrélations (modèles / formules). La plus fréquente, la corrélation de Pearson, s’identifie par le symbole « r » et se note rxy (la corrélation entre x et y). 14 L’IMPORTANCE DE LA CORRÉLATION Elle réduit l’incertitude : la connaissance de x nous fournit de l’information sur y. Comment s’habiller ? En observant que les passants portent un manteau (x), nous sommes « plus » enclin à croire qu’il fait froid (y)! Le transport en commun Si j’attends l’autobus a 17:00 (x) plutôt qu’à minuit, il est probable que mon temps d’attente (y) sera plus court. Au travail Si j’observe des pratiques de reconnaissance de la part de mes collègues (x) ou de mes supérieurs (un autre x), plus j’ai de chances d’être satisfait dans cet emploi (y). Connaissant x il est possible d’estimer y (et vice-versa) ! 15 LES CORRÉLATIONS VARIENT Taille: les valeurs de rxy s’étalent entre très faibles et fortes - Plus « forte » est la rxy, plus grande la réduction de l’incertitude de y à partir de la connaissance de x et vice-versa. Direction: rxy peut être positive ou négative. - rxy « positive » : des valeurs élevées sur x sont associées à des valeurs élevées sur y et vice-versa. - rxy « négative » : des valeurs élevées sur x sont associées à des valeurs faibles sur y et vice-versa. 16 LA TAILLE ET LA DIRECTION La taille et la direction sont deux caractéristiques indépendantes. Plus élevée est la corrélation (taille), plus la connaissance de x nous renseigne sur y. Une corrélation négative ne veut pas dire que la corrélation est faible. Une corrélation négative est aussi intéressante qu’une corrélation positive. - (rxy= -1,0 est aussi « forte » et intéressante que rxy= +1,0). - (rxy= -0,15 est aussi « faible que rxy= +0,15). 17 LA TAILLE ET LA DIRECTION (SUITE) Taille = la corrélation forte, modérée, faible, etc. Direction = positive ou négative. Ceux qui étudient plus ont de meilleures notes. C'est vrai en général, mais pas toujours (corrélation + élevée). Lorsque qu'il fait froid en Celsius, il fait aussi froid en Fahrenheits. Toujours parfaitement vrai (corrélation + parfaite; rxy= +1,0). Les travailleurs moins satisfaits s'absentent plus souvent. Parfois vrai, mais souvent pas vrai (corrélation - faible). Nonobstant sa taille ou sa direction, rxy n’indique pas nécessairement que X cause Y. 18 CORRÉLATION = SIMILARITÉ ENTRE X ET Y L’observation d’une rxy implique que les unités d’analyse tendent à produire des valeurs « similaires » (relation +) ou des valeurs inversées (relation -) sur deux variables. Mais que veux dire « valeur similaire » ? 19 VALEURS SIMILAIRES Les valeurs x et y sont identiques dans le cas 1, mais pour le cas 2 les valeurs x et y ne le sont pas. Pourtant: rxy est identique et la similitude est élevée dans les deux cas. Pourquoi ? Exemple 1 Exemple 2 Obs. x y Obs. x y A 45 45 A 45 22,5 B 60 60 B 60 30 C 75 75 C 75 37,5 D 84 84 D 84 42 E 96 96 E 96 48 20 VALEURS SIMILAIRES (SUITE) rxy est élevé (similitude élevée) car la position des observations demeure identique sur x et sur y. Exemple 1 Exemple 2 Obs. x y Obs. x y Exemple 1 Exemple 2 A 44 44 A 44 22 Obs. x y Obs. x y B 60 60 B 60 30 A 5e 5e A 5e 5e C 76 76 C 77 38 B 4e 4e B 4e 4e D 84 84 D 84 42 C 3e 3e C 3e 3e E 96 96 E 96 48 D 2e 2e D 2e 2e 𝜲 72 72 𝜲 72 36 E 1er 1er E 1er 1er s 20,4 20,4 s 20,4 10,2 21 VALEURS SIMILAIRES / INVERSÉES (SUITE) rxy est élevé (similitude élevée) car la position, même si elle est inversée, demeure identique sur x et sur y. Exemple 3 Obs. x y Exemple 3 A 44 48 Obs. x y B 60 42 A 5e 1er C 77 38 B 4e 2e D 84 30 C 3e 3e E 96 22 D 2e 4e 𝛸 72 36 E 1er 5e s 20,4 10,2 22 DÉFINITION CONCEPTUELLE DU R DE PEARSON (R XY) rxy = le degré moyen avec lequel les observations occupent une position similaire (ou inversée) sur x et y. 23 QU’ENTEND-ON PAR POSITION SIMILAIRE ? Position similaire = position des observations par rapport aux 𝛸 des variables. rxy + (similaire) : les observations situées au-dessus de 𝛸x sont aussi situées au-dessus de 𝛸y et vice-versa. rxy – (similaire, mais inversée) : les observations situées au-dessus de 𝛸x sont situées en dessous de 𝛸y et vice-versa. 24 POSITION Pour calculer rxy il faut établir, pour chaque observation, sa position sur x et sur y. Quelle statistique indique, avec précision, la position des observations (relative à 𝛸) ? 25 POSITION (SUITE) Si les scores-z sur x et sur y sont : - Similaires, il y a association positive (rxy = +). - Inversés, il y a association négative (rxy = -). - Aléatoires, il n’y a pas d’association (rxy = 0). 26 LA FORMULE DE R XY Field (2017) : !(#$ ∗ #') Simplifiée: rxy = Regardez, on retrouve ) *+ la formule des z ! (zx * zy) = la similarité entre x et y de chaque observation. S(zx*zy) = la somme de la similarité entre x et y. S(zx*zy)/ n - 1 = la similarité moyenne entre x et y. 27 LE CALCUL DE R XY !(#$ ∗#') rxy = ) *+ Lorsque R ne le fait pas pour vous et vous souhaitez comprendre le calcul : Convertir chaque observation en score-z (ou le faire à l’aide de R, commande scale(df$varX). Calculer le produit zx * zy pour chaque observation. Calculer la somme de ces produits S(zx * zy). Calculer la moyenne (en divisant par n - 1). La corrélation de Pearson est donc le degré moyen de similarité entre la position (z) des observations. 28 EN RÉSUMÉ … Le degré moyen avec lequel les observations détiennent une position similaire sur x et y. - La position sur x et y est établie avec des scorez-z. - Une distribution en z est standardisée. Par conséquent, la corrélation est un indice standardisé de la relation entre x et y. - Rappelez-vous. Il faut standardiser pour que nos variables, sur des échelles différentes puisse « se parler » et donc être comparées (ex.: comparer la performance à un examen de mathématiques sur 100 VS un examen de langue elfique sur 20). 29 STANDARDISÉ SIGNIFIE QUE … Une corrélation de même taille veut dire exactement la même chose peu importe les variables. Les corrélations peuvent être comparées entre elles. - rxy = 0,5 ; rab = 0,5 : l’association entre les variables x et y est aussi forte que l’association entre les variables a et b (les comparaisons peuvent n’avoir aucun rapport entre elles, mais nous pouvons les comparer). - rxy = 0,8 ; rab = 0,5: l’association entre x et y est plus forte que l’association entre a et b. 30 DÉFINITION FINALE DU R DE PEARSON (R XY ) rxy = le degré moyen standardisé avec lequel les observations occupent une position similaire (ou inversée) sur x et y Maximum : rxy= + 1 ou -1 Minimum: rxy = 0 31 R XY = 1,0: LA CORRÉLATION « PARFAITE » La corrélation est parfaite lorsque toutes les observations sont à la même position (z) sur x et y (valeur numérique de la corrélation = 1,0). x zx y zy zx * zy 44 - 1,37 22 - 1,37 1,88 60 - 0,59 30 - 0,59 0,35 76 0,20 38 0,20 0,04 84 0,59 42 0,59 0,35 96 1,18 48 1,18 1,38 S(zx * zy) 4,00 S(zx * zy) / n -1 4 / 4 = +1 32 R XY < 1,0: LES POSITION X ET Y DIFFÈRENT La corrélation n’est pas parfaite lorsque au moins une observation n’est pas à la même position (z) sur x et y (valeur numérique plus petite que 1,0). x zx y zy zx * zy 44 (5e) - 1,37 30 (4e) - 0,59 0,81 60 (4e) - 0,59 22 (5e) - 1,37 0,81 76 (3e) 0,20 38 (3e) 0,20 0,04 84 (2e) 0,59 42 (2e) 0,59 0,35 96 (1er) 1,18 48 (1e) 1,18 1,38 S(zx * zy) 3,38 S(zx * zy) / n -1 0,85 33 R XY ± 0: LA CORRÉLATION « FAIBLE » La corrélation est « faible » lorsque les observations ne sont pas situées (z) de manière similaire sur x et y (valeur numérique près de 0). x zx y zy zx * zy 44 (5e) - 1,37 38 (3e) 0,20 - 0,27 60 (4e) - 0,59 42 (2e) 0,59 - 0,35 76 (3e) 0,20 22 (5e) - 1,37 - 0,27 84 (2e) 0,59 30 (4e) - 0,59 - 0,35 96 (1er) 1,18 48 (1e) 1,18 1,38 S(zx * zy) 0,15 S(zx * zy) / n -1 0,04 34 LA DIRECTION DE LA RELATION R XY = S(Z X *Z Y )/N -1 Lorsque les valeurs zx et zy des observations sont du même signe (+, -) le produit (zx * zy) et rxy sont positifs. Lorsque les valeurs zx et zy détiennent des signes opposés le produit (zx * zy) et rxy sont négatifs. Lorsque le signe des valeurs zx et zy est aléatoirement le même ou différent, le produit (zx * zy) est parfois positif, parfois négatif. La sommation S(zx * zy) causera une annulation du produit… rxy s’approchera de zéro. 35 CORRÉLATION POSITIVE ET NÉGATIVE x zx y zy zx * zy 44 (5e) - 1,37 22 (5e) - 1,37 1,88 60 (4e) - 0,59 30 (4e) - 0,59 0,35 76 (3e) 0,20 38 (3e) 0,20 0,04 84 (2e) 0,59 42 (2e) 0,59 0,35 96 (1er) 1,18 48 (1er) 1,18 1,38 S(zx * zy) 4,00 S(zx * zy) / n -1 4 / 4 = +1 36 CORRÉLATION POSITIVE ET NÉGATIVE x zx y zy zx * zy 44 (5e) - 1,37 96 (1er) 1,18 - 1,62 60 (4e) - 0,59 84 (2e) 0,59 - 0.35 76 (3e) 0,20 76 (3e) 0,20 0.04 84 (2e) 0,59 60 (4e) - 0,59 - 0,35 96 (1er) 1,18 44 (5e) - 1,37 - 1,62 S(zx * zy) - 3,88 S(zx * zy) / n -1 - 0,97 37 CARACTÉRISTIQUES DE LA CORRÉLATION R XY Valeurs limites : -1 à +1 en passant par 0. - +1,0 : maximum supérieur possible ; la position des observations sur X et Y est identique. - -1,0 : maximum inférieur possible ; la position des observations sur X et Y est inversée. - 0,0 : corrélation nulle ; la position des observations sur x et y est aléatoire. 38 LIMITES POUR LE CALCUL D’UN R DE PEARSON Ne peut être calculé que pour deux variables à la fois (on peut produire une matrice, mais les corrélations sont calculées par paires de variables). Exige que nous ayons pour chaque observation (x et y) deux valeurs : une sur x, l’autre sur y (impossible de calculer pour cette observation s’il y a une des deux valeurs manquantes). La corrélation nous indique la relation entre les variables et non la relation entre les observations. Il faut un minimum de trois observations pour la calculer. - Mais comme pour l’ensemble des statistiques paramétriques, un n d’au moins 30 est souhaitable. 39 POSTULATS DE LA CORRÉLATION DE PEARSON Postulat (« assumptions ») : conditions pour réaliser l’analyse (s’ils ne sont pas respectés, il faut faire un autre type d’analyse). x et y sont des mesures à intervalles/de rapport (il faut faire une moyenne). - Si une de nos mesures est nominale, nous pourrons utiliser une corrélation non paramétrique (cours 12). Il est raisonnable de croire que les concepts x et y (les populations desquelles nous avons extrait les échantillons) sont distribuées normalement. - variances homogènes - … et il n’y a pas de valeurs extrêmes. La relation xy est « linéaire ». 40 CE QUI INFLUENCE LA TAILLE DES R XY Les postulats en d’autres mots (compréhension) : 1. Le degré de relation entre x et y qui existe en réalité (est-ce pertinent ?). 2. La « linéarité » de la relation x et y. 3. Le niveau de variance de x et de y (homogénéité des variances ou variances homogènes VS variance restreinte). 4. Les observations situées loin de 𝛸x et/ou 𝛸y (valeurs extrêmes ou « outliers »): normalité. 41 RAPPORTER UNE CORRÉLATION Forme standard : Statistique de corrélation (r ou ρ) : r(df) = valeur Valeur p : p = valeur Direction de la relation : positive ou négative Exemple : r(98) = 0,45, p < 0,001 42 INTERPRETER UNE CORRÉLATION Force de la corrélation : r ≈ 0,10 : Faible r ≈ 0,30 : Modérée r ≈ 0,50 : Forte Direction : Positive (r > 0) : Variables augmentent ensemble Négative (r < 0) : Une variable diminue, l'autre augmente Attention à la causalité ! Une corrélation ≠ causalité 43 INTERPRETER UNE CORRÉLATION Exemple d'interprétation "Corrélation modérée entre pratique musicale et attention" r(98) = 0,45, p < 0,001 Interprétation : Plus la pratique musicale augmente, plus l'attention s'améliore Attention : la corrélation n'implique pas la causalité Note sur la Significativité Valeur p < ou = 0,05 : Corrélation statistiquement significative Peu probable que la corrélation soit due au hasard 44 EXEMPLE INTERPRETATION "Une corrélation modérée et significative a été observée entre la pratique de jeux vidéo rythmiques et l'amélioration de la coordination motrice (r(100) = 0,35, p = 0,004), suggérant que les participants qui s'entraînaient plus fréquemment avec ces jeux avaient tendance à améliorer leur coordination. Cependant, cette corrélation ne permet pas de conclure à une relation causale." 45 PREMIÈRE PAUSE 46 PRATIQUE 4 R STUDIO Téléchargez et ouvrez: Pratique_4_R_Studio.zip 47 LES POSTULATS DES ANALYSES PARAMÉTRIQUES Introduction 48 EST-CE QUE LE LIEN RECHERCHÉ EST PERTINENT ? Exemple de corrélations faibles (proche de zéro). - Les notes aux examens et la longueur du pouce ! - La consommation de cannabis et la consommation d’alcool. Exemple de corrélations fortes (proche de ±1). - Les notes aux examens et les heures d’études. - Consommation de cannabis et appétit (rxy positive). - Exercice physique et gras corporel… (rxy négative). 49 LA LINÉARITÉ Le coefficient de corrélation de Pearson indique le degré de relation linéaire entre x et y. Si la relation rxy n’est pas linéaire, on peut toujours calculer le coefficient de Pearson mais il sous-estimera le degré de relation qui existe véritablement entre les variables. Avant d’utiliser la corrélation, il faut donc se questionner si nos deux variables ont théoriquement (et réellement) une relation linéaire ou non. 50 QU’EST-CE QU’UNE RELATION LINÉAIRE ? La relation rxy est constante pour chaque valeur de x (Haccoun et Cousineau, 2010). Ex. : changement de +10 sur x = toujours +1 sur y. rxy = 1,0 rxy = 0,0 51 ET LA RELATION NON-LINÉAIRE (EX. CURVILINÉAIRE) ? La relation rxy n’est pas la même pour chaque valeur de x 8 7 Le rxy de Pearson ne mesure que les relations linéaires. 6 Si la relation est non linéaire le rxy de Pearson sous 5 estimera la relation. 4 3 2 1 rxy < 1,0 10 20 30 40 50 60 70 Changement de 10 sur x = changement de 1 sur y pour les valeurs faibles de x mais de 0 pour les valeurs fortes de x 52 RELATION NON LINÉAIRE : STRESS ET PERFORMANCE La rxy = 0 indique correctement aucune relation linéaire xy. Il existe toutefois une forte relation xy, mais elle est non linéaire (rnon-linéaire = 0,96). Relation stress - performance Relation stress - performance Relation stress - performance 4.5 4 rxy (linéaire)= 0,0 rxy = 0 ; rnon-linéaire = 0,96 4.5 5 3.5 4 4 3 3.5 R² = 0 2.5 3 3 2 2.5 2 2 1.5 1 1.5 1 1 0 0.5 0.5 0 1 2 3 4 5 6 7 8 9 -1 R² = 0.9231 0 0 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 -2 53 RELATION CURVILINÉAIRE : EXPLICATION La corrélation de Pearson estimera correctement la relation xy si elle est linéaire. Lorsque la relation est curvilinéaire, la corrélation de Pearson approchera zéro. Dans un tel cas, cela ne veut pas nécessairement dire qu’il n’y a pas de relation entre X et Y. Il pourrait en avoir une, mais elle serait non-linéaire. 1) zx et zy positives: donc S(zx *Zy)= + Relation stress - performance - 2) zx positive et zy négative: donc S(zx * zy)= - + 4.5 4 3) S(zx * zy) positive + S(zx * zy) négative = 0. 3.5 3 2.5 2 1.5 1 0.5 0 0 1 2 3 4 5 6 7 8 9 54 LA VARIANCE DE X ET / OU Y (HOMOGÉNÉITÉ) Supposons que x (ou y) n’a pas de variance (comme dans l’exemple de la relation entre le nombre de cigarettes fumées et le nombre de nez). - rxy=S(zxzy)/n -1 - Chaque observation x est situé à 𝛸x. - Le score-z de chaque observation est zx = 0. - Toute valeur multipliée par 0 = 0. Et rxy = S(zxzy)/n -1= 0 : rxy sera toujours zéro. 55 LA VARIANCE DE X ET / OU Y (HOMOGÉNÉITÉ) 56 IMPACT SUR LA CORRÉLATION La restriction de la variance de y (ou de x) – ex. : les nez. x présente beaucoup de s2 (cigarettes): les observations auraient presque toutes une position différente sur x. y présente (peu ou) pas de s2 (nez): les observations auraient presque toutes la même position sur y. Par conséquent les observations fortes (ou faibles) sur x n’auraient pas une position similaire (relation linéaire) sur y. La similarité des position x et y étant faible, la corrélation s’approchera de zéro. 57 CAUSES DE LA RESTRICTION DES VARIANCES Deux causes principales de la restriction des variances. - Les observations sont très homogènes. - La variable est incapable de distinguer entre les observations. Exemple: rxy temps d’étude (x) et notes à l’examen (y) faible. - Les étudiants sont tous doués. - L’examen est trop facile. Alors, lorsque la variance est restreinte il est peu probable d’obtenir une corrélation même si elle existe ! 58 LES VALEURS EXTRÊMES (INFLUENTES) Les observations situées loin de la moyenne ont plus d’impact sur la corrélation que celles situées proches de la moyenne. Celles qui sont anormalement loin sont qualifiées de valeurs extrêmes ou « outliers », elles biaisent les statistiques qui utilisent la moyenne. Les valeurs (x ou y) situées loin de 𝛸 produisent des z plus grands. !(#$ ∗#') rxy = ) *+ La corrélation est le produit des zxzy. Plus grands les zxzy, plus forte la corrélation. 59 VALEURS EXTRÊMES : DÉMONSTRATION n x y Les observations positionnées loin de 𝛸 influencent rxy plus A 1 1 que celles qui se trouvent proches de 𝛸. B 2 3 C 3 2 D 4 5 Retrait de A, observation loin de 𝛸 ; rxy= 0,61 E 5 4 F 1 2 Retrait de C, observation proche de 𝛸 ; rxy= 0,72 G 2 1 H 3 4 I 4 5 J 5 3 𝛸 3 3 r 0,70 0,70 60 AUTRES CONSIDÉRATIONS C O R R É L AT I O N V S C AUSALITÉ : X C AUSE Y ? Pour qu’il y ait causalité : x et y doivent avoir de la variance. Il doit y avoir une corrélation entre x et y. La cause doit précéder l'effet. Il doit exister un délai entre la cause et l'effet. Donc logiquement : La présence de rxy = 1 n'indique pas nécessairement la présence de causalité. L'absence de rxy = 1 indique nécessairement l'absence de causalité. 61 62 CAUSALITÉ ET CORRÉLATION : ILLUSTRATION Il existe une rxy positive entre la compétence en lecture des enfants (y) et le fait d’avoir un lave-vaisselle à la maison (x). Explications causales potentielles : - x cause y : avoir un lave-vaisselle laisse plus de temps pour la lecture. - y cause x (causalité inversée) : les personnes qui savent mieux lire sont plus aptes à comprendre comment opérer le lave-vaisselle. - z cause x et y (troisième variable): les familles plus riches sont plus aptes à avoir un lave-vaisselle ET à fournir aux enfants un environnement plus stimulant (qui encourage la lecture). Aucune de ces explications n’assurent la causalité! 63 TAILLE DE L’EFFET En psychologie et en sciences sociales, on retrouve communément des rxy entre ± 0,15 et ± 0,60 : rxy = ± 0,1 = faible. rxy = ± 0,3 = modérée. rxy = ± 0,5+ = forte. En sciences cognitives, en économie, etc., on observe plus fréquemment des relations plus fortes (0,80 et plus). 64 SEUIL DE SIGNIFICATION (P) H1: il y a une relation (lien) significative entre les variables x et y rxy entre ± 0,01 et ± 1,00. H0: il n’y a pas de relation (lien) significative entre les variables x et y rxy = 0,00. Tel que vu au cours 4, p nous informe sur la probabilité de commettre une erreur alpha: - Conclure que rxy existe, alors que rxy = 0,00. Dérivé à partir des intervalles de confiance reliés aux scores-z utilisé pour calculer la corrélation. 65 COEFFICIENT DE DÉTERMINATION Nous obtenons un rxy= 0,56 entre x = niveau de scolarité et y = le salaire. La force du lien (ou la taille de l’effet mesuré) est élevée! Mais est-ce que le salaire est seulement expliqué par le niveau de scolarité? Est-ce que d’autres variables peuvent aussi l’expliquer? 66 COEFFICIENT DE DÉTERMINATION (SUITE) Le coefficient de détermination indique jusqu’à quel point une corrélation viendra réduire notre incertitude quant à la relation entre x et y. - Lorsque la corrélation est nulle, la réduction de l’incertitude est de 0 %. - Lorsque la corrélation est parfaite (+1 ou -1), la réduction de l’incertitude est de 100 %. - Lorsque la corrélation est entre 0,01 et ±0,99 le degré de réduction de l’incertitude variera entre presque nulle et presque parfait. 67 COEFFICIENT DE DÉTERMINATION (SUITE) Le coefficient de détermination = rxy². Si rxy =1, rxy² = 1,00 Si rxy = 0, rxy² = 0 Si rxy = 0,50, rxy²= 0,25 En multipliant le coefficient de détermination par 100 %, nous obtenons un pourcentage. ▫ Le pourcentage de réduction de l’incertitude. 68 COEFFICIENT DE NON-DÉTERMINATION L’incertitude totale, en absence d’autres informations, est invariablement de 100 %. Le coefficient de détermination nous indique le pourcentage de réduction de l’incertitude. Le coefficient de non-détermination = nous indique le degré avec lequel l’incertitude n’est pas réduite (i.e. l’incertitude restante). - Coefficient de détermination = rxy² - Coefficient de non-détermination = 1- rxy² - Si rxy= 0,5, rxy² = 0,25 (25 %), 1 - rxy² = 0,75 (75 %) 69 LA PROPORTION DE VARIANCE EXPLIQUÉE Le coefficient de détermination nous informe à propos de la proportion de variance expliquée, commune à deux variables. Ex: corrélation rxy= 0,56 entre x = niveau de scolarité et y = le salaire. rxy2 = 0,31 = 31 %. La connaissance du niveau de scolarité explique ou réduit l’incertitude au sujet du salaire de 31 %. Davantage d’années d’études aide à expliquer un meilleur salaire, mais il y a d’autres variables qui expliquent aussi le salaire ! 70 ILLUSTRATION: VARIANCE COMMUNE Lorsque la variance commune est faible, il existe plusieurs autres variables qui expliqueront (ou causeront) la variable y (et vice-versa). (Haccoun et Cousineau, 2010) 71 QUESTION TYPE EXAMEN Les patients atteints de trouble bipolaire ont souvent une consommation importante d’alcool et de dogues. La corrélation entre ces deux observations cliniques est probablement : a) Une corrélation négative b) Une corrélation parfaite c) Une corrélation positive d) Une corrélation toxique 72 QUESTION TYPE EXAMEN 1. Une corrélation de +0,60 a été observée entre la sévérité de la bipolarité et l’obésité. À votre avis, on pourrait penser que… a) L’obésité résulte des troubles bipolaires b) L’obésité cause les troubles bipolaires c) C’est les médicaments pris pour soigner les troubles bipolaires qui causent l’obésité d) Toutes ces options sont possibles 73 SECONDE PAUSE 74 PRATIQUE 5 R STUDIO Téléchargez et ouvrez: Pratique_5_R_Studio.zip

Use Quizgecko on...
Browser
Browser