🎧 New: AI-Generated Podcasts Turn your study notes into engaging audio conversations. Learn more

PSY 1004A - Session 2 - 11 Septembre 2024 Notes de Cours PDF

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

Summary

Ces notes de cours de psychologie quantitative couvrent les concepts de base et les analyses descriptives. Elles introduisent l'environnement R et les outils de statistiques, avec des exemples et explications techniques.

Full Transcript

Séance 2 – Concepts de base, analyses PSY 1004 A – descriptives (suite) et environnement R Analyses quantitatives en Kevin Jamey, MSc, PhD (c) [email protected] psychologie 1 11 Septembre 2024 Objectifs et annonces Retour sur QC...

Séance 2 – Concepts de base, analyses PSY 1004 A – descriptives (suite) et environnement R Analyses quantitatives en Kevin Jamey, MSc, PhD (c) [email protected] psychologie 1 11 Septembre 2024 Objectifs et annonces Retour sur QCMs Corrigé des lectures (Haccoun) :: R Studio – Graphiques :: Mesures de dispersion Ordre du jour :: R Studio – Mesures de dispersion :: Le positionnement :: R Studio – Positionnement :: Exercice TP1 2 3 Objectifs (séance 2) Connaître et maîtriser les concepts de bases reliés aux analyses quantitatives et aux analyses descriptives. Se familiariser avec l’interface R et R Studio. Expérimenter R par l’entremise des analyses descriptives. D’autres objectifs? Testez votre compréhension Haccoun, R. R. et Cousineau, D. (2010). Statistiques: Concepts et applications. Montréal : Les Presses de l'Université de Montréal. ! Voir p. 27-30; 55-57 pour réviser le cours 1. CORRIGÉ EN CLASSE MERCREDI - 11 SEPT 4 R Studio - GRAPHIQUES Téléchargez le fichier dans StudiUM: Pratique_1_R_Studio.zip Unzip et ouvrez le fichier : R_pratique_1_graphiques.R 5 6 Mesures de dispersion Approfondissement (vidéo) Mesures de dispersion (Khan Academy) Place your screenshot here https://www.youtube.com/watc h?v=E4HAYd0QnRc 7 Étendue (rappel) Score Fréquence 1,09 2 1,37 1 L’étendue (« range ») est la différence 2,00 20 entre la valeur minimale et la valeur maximale d’une distribution. 2,19 3 R fournit ces statistiques. 2,35 6 (…) etc. Score minimum: 1,09 3,89 41 Score maximum: 5,00 4,00 12 Étendue: 5,00 – 1,09 = 3,91 4,27 3 4,50 8 5,00 2 Total 508 8 9 La variance UNE HISTOIRE DE COOKIES ! 10 La variance Est-ce que Χ est un bon estimé de la distribution des observations ou non (ex.: lorsque asymétrique) ? En d’autres mots, pour une même variable, est-ce que les observations (entités, personnes) sont différentes les unes des autres ? Ou sont-elles semblables ? 11 La variance (suite) Lorsque les observations sont davantage différentes, Χ devient un moins bon estimateur de la distribution des valeurs d’une distribution. - Il existe probablement des « sous-groupes » au sein des données. La statistique pour estimer le degré de différence entre les observations se nomme la variance. 12 La variance (suite) L’importance du concept de variance pour la science (Haccoun, 2017) (Lao Tzu) Comment sais-je que les montagnes existent ? Parce que j’ai vu des vallées ! En psychologie: comment une personne peut réellement et concrètement constater qu’elle se sent heureuse ? Quel est le prérequis ? 13 La variance (suite) La psychologie et les sciences sociales s’intéressent entre autres aux différences individuelles Les phénomènes sont intéressants seulement lorsqu'ils démontrent de la variation (des différences). - On étudie la dépression car ce n’est pas tout le monde qui est déprimé ! - On n’étudie pas le nombre de nez (!) car tous en ont qu’un seul. Il nous faut donc une variable et non une constante. Cette variable doit également démontrer suffisamment de différence pour être intéressante. 14 La variance (suite) Plus la variance est grande, plus un phénomène Semaine Équipe 1 Équipe 2 est intéressant (si tous sont pareils, aucun objet 1 100 100 d’étude). 2 103 50 La description fournie par la moyenne sera moins 3 98 150 précise (rappelez-vous par exemple des sous- 4 99 120 groupes à la séance 1), mais la moyenne reste le 5 104 80 meilleur estimé. - La moyenne doit être interprétée à l’aide Χ 100,80 100,00 d’une mesure de dispersion. Écart- 2,59 38,08 type Exemple: nombre de poutines mangées par les étudiants de PSY-1004 (deux équipes de 10 étudiants). Nous y reviendrons ! 15 La variance (suite) Même si deux distributions sont uni modales et symétriques, et même si Χ = Md = Mo, elles peuvent néanmoins être très différentes et Χ peut être une plus ou moins bonne représentation des valeurs. Χ = Md = Mo Cela dépend de la variance (ou estimé par d’autres mesures de dispersion). 16 La variance (suite) La variance est donc le concept statistique qui décrit le degré avec lequel les observations sont différentes de la moyenne de la variable mesurée. - En d’autres mots, c’est l’estimé de la variabilité moyenne d’une série de données. Valeur minimale = 0 (lorsque nous avons une constante: toutes les valeurs sont identiques à la moyenne). Valeur maximale = théoriquement infinie. 17 Comment obtenir la variance? D’abord il faut obtenir la déviance. (Rappel) La déviance est la différence entre une valeur observée d’une variable et de sa moyenne (meilleur estimé). 18 La déviance (rappel) Obs. xi (Xi - 𝜲) Déviance totale = 1 100 0 2 50 -50 3 150 50 Si la somme des écarts à la moyenne (déviance) 4 120 20 tend toujours vers 0, comment peut-on 5 80 -20 facilement connaître le degré de variance? Σ 500 0 Solution: mise au carré! 19 Somme des différences aux carrés La somme des différences au carré (« sum Obs. xi (Xi - Χ) (Xi - Χ)2 of squared errors ») ou « SS » vient pallier 1 100 0 0 ce problème. 2 50 -50 2500 3 150 50 2500 SS = 4 120 20 400 5 80 -20 400 Maintenant, c’est la variation (dispersion Σ 500 0 5800 totale) qui va augmenter de manière exponentielle au fur et à mesure que n va augmenter. Solution: nouvelle « moyenne ». 20 Variance (s2): formule Obs. xi (Xi - Χ) (Xi - Χ)2 s2 = 1 100 0 0 2 50 -50 2500 3 150 50 2500 Il faut diviser SS par le nombre d’observations 4 120 20 400 moins 1 (nous verrons pourquoi quand nous 5 80 -20 400 verrons le concept de degré de liberté). Σ 500 0 5800 Il faudrait dire que l’erreur moyen dans notre échantillon est 1450 poutines au carré. 5800 / 5 – 1 = 1450 Hummm … pas très évident à interpréter ! 21 Moyenne et variance Lorsque la variance « s2 » d’une variable est « faible » et s’approche de 0, les observations obtiennent des valeurs proches de Χ. En conséquence, Χ estimera très bien chaque observation, mais la variable est moins intéressante sur le plan scientifique (les observations sont presque semblables). Lorsque la variance « s2 » d’une variable est « forte » (grande) les observations obtiennent des valeurs loin de Χ. Par conséquent Χ estimera très mal chaque observation, mais la variable est plus intéressante. Il faut donc découvrir pourquoi il existe une telle variance ! 22 Caractéristiques de la variance La variance (s² ) n’est jamais « négative ». On ne peut pas avoir MOINS qu’aucune différence ! Une variance de 0 implique que nous avons une distribution constante (donc la distribution n’est pas une variable, mais bien une constante). 23 Caractéristiques de la variance (suite) La variance (s² ) indique le degré d'homogénéité des réponses à la variable. Ex.: pourquoi est-ce que les résultats d’un examen (variable) démontrent une faible variance ? - Parce que la mesure elle-même ne permet pas beaucoup de différenciation / discrimination (un examen trop facile). - Parce que les répondants sont très similaires (les étudiants sont tous très compétents). 24 Caractéristiques de la variance (suite) Oui c’est bien tout ça, mais ça reste très difficile à interpréter ! 1450 poutines au carré ? 1450 poutines au carré !11!1 Variance de 1450 ?! Il n’en ont même pas mangé autant ! Comment simplifier l’interprétation ? 25 L’écart-type (s) et l'interprétation de s2 Le calcul de l'écart-type (s) exige le calcul préalable de la variance. L'écart-type indique la différence moyenne (il n’est pas au carré comme la variance) entre les valeurs d’une distribution et sa moyenne. - L'écart-type est conceptuellement identique à la variance, mais c'est une statistique plus simple et plus facile à interpréter. - Une variance plus grande produira un écart-type plus grand. - Mais pourquoi ce détour? - Il fallait éliminer les nombres négatifs et positifs qui se côtoyaient. 26 Écart-type (s) Obs. xi (Xi - Χ) (Xi - Χ)2 1 100 0 0 2 50 -50 2500 3 150 50 2500 4 120 20 400 L’écart type s’obtient à l’aide de la racine carrée de la 5 80 -20 400 variance (pour éviter entre autres l’exposant qui Σ 500 0 5800 multiplie nos poutines). 𝛸 100 s2 1450 Maintenant, on peut dire que notre équipe 2 à s 38,08 mangé en moyenne 100 poutines au fil des cinq semaines, avec une « différence moyenne typique » de plus ou moins 38 poutines dépendamment des 5800 / 5 – 1 = 1450 semaines. √𝟏𝟒𝟓𝟎 = 38,08 - Reflète beaucoup mieux la variable originale ! 27 Écart-type (suite) Dans l’exemple, la différence typique entre les Semaine Équipe 1 Équipe 2 semaines de grande ou de plus petite 1 100 100 consommation de poutine est plus faible dans 2 103 50 l’équipe 1. 3 98 150 Autre exemple (sérieux maintenant): 4 99 120 - Dans deux pays, la moyenne de salaire est de 5 104 80 100K. Moyenne 100,80 100,00 - Pays 1: s = 50k; Pays 2: s = 20k Écart- - La différence typique entre les riches et les type 2,59 38,08 pauvres est plus petite dans le pays 2. Les richesses sont dont réparties plus également. 28 Interprétation de s2 et s Pour deux variables ayant la même Χ, celle ayant une s2 plus élevée est davantage en mesure de détecter les différences individuelles entre les observations. - Les observations de la variable x diffèrent davantage entre elles que celles de la variable y … Mais comment interpréter s2 si les Χ ne sont pas identiques ? - Le coefficient de variabilité (CV). 29 Le coefficient de variabilité (CV) Le coefficient de variabilité (CV) est une statistique très simple qui permet la comparaison du niveau de variabilité des variables qui n’ont pas la même moyenne et variance numérique. 𝑠 𝐶𝑉 = Χ La variable ayant le CV le plus grand est davantage en mesure de détecter les différences individuelles entre les observations. Nous allons approfondir ce concept avec les scores Z. 30 Le coefficient de variabilité (CV) Example: La Consistance des Notes en Examen Examen 1 : Examen 1: Moyenne des notes : 80 (5/80) x 100 = 6.25% Écart-type : 5 Examen 2 : Examen 2: Moyenne des notes : 50 (15/50) x 100 = 30% Écart-type : 15 31 Caractéristiques de s2 et s Plus il y a d'observations loin de Χ, plus s² et s seront élevés. - L'ajout d'observations proches de Χ aura tendance à réduire s² et s. Plus les observations se concentrent autour de la moyenne, plus petite est la différence individuelle moyenne. R Studio - DISPERSION Téléchargez le fichier dans StudiUM: Pratique_2_R_Studio.zip Unzip et ouvrez le fichier : R_pratique_2A_dispersion.R 32 Le positionnement 34 Le positionnement des observations Il est possible de décrire / interpréter une observation à partir de sa position relative face aux autres observations de la distribution. En d’autres mots, nous allons nous servir de la position dans la distribution pour mieux décrire les caractéristiques d’une observation. 35 Le positionnement des observations (suite) Revenons à la poutine. Après le cours, vous irez dans un restaurant manger une poutine de 6,8 kg. Est-ce une grosse poutine ? Tout dépend du poids des poutines des autres restaurants ! Crise cardiaque 36 Pourquoi positionner ? La psychologie s’intéresse aux différences individuelles. Nous tirons nos conclusions en examinant la position des observations sur la variable relative à la position des autres. - Ex.: personnalité normale VS trouble de personnalité. - Ex.: intelligence moyenne VS douance. - Ex.: réussirez-vous bien votre examen de PSY 1004 par rapport aux autres ? 37 Trois stratégies Le rang absolu (« ranking »): convertit les données en échelle ordinale. Le percentile: positionne une observation relativement aux autres. La valeur étalon: positionne chaque observation relative à la moyenne. - Score-z 38 Le rang absolu Transformation de scores bruts ordonnés en nombres représentant leur position (rang), du plus petit au plus grand (ou l’inverse). Marche à suivre: - Comptez le nombre total d’observation (n). - Triez les observations en ordre de grandeur (1 à n). - Assignez le rang « 1 » à la valeur la plus élevée (ou la plus faible) et le rang n à la valeur la plus faible (ou forte). - Lorsque deux observations sont identiques (ex-aequo), assignez le rang mitoyen aux deux. - Si plus de deux observations sont identiques, voir la diapo 42. 39 Le rang absolu (suite) Obs. Rang Obs. Rang Notes Notes n=7 absolu n=7 absolu Deux rangs ex-aequo ? A 91 1 A 91 1 (Rang 5 + rang 6) / 2 = 5,5 B 71 2 B 71 2 Retirer les rangs altérés et C C 61 3 continuer avec le prochain 61 3 rang disponible (ici, 7). D 60 4 D 59 4 E 59 5 E 58 5,5 F 58 6 F 58 5,5 G 20 7 G 20 7 40 Le rang absolu (suite) Que faire s’il y a plus de deux rangs ex-aequo (p. 113) ? Pour la note de 74: 22-11 = 11 (étandue) (Haccoun et Cousineau, 2010) 11 / 2 = 5,5 11 + 5,5 = 16,5 (ajouter au score min) 41 Le rang absolu (suite) Avantages: - Facilement compris et calculé. Désavantages: - Est une mesure ordinale. - La taille de la différence entre les rangs est inconnue. - Peut être interprété seulement si nous connaissons le n., i.e. le nombre total d’observations. 42 Le rang absolu: utilisation Le rang absolu est très utile lorsqu’il faut faire un choix. - Lors d’une épreuve sportive ou un concours (pour la sélection du gagnant). - En organisation, pour la sélection des employés (il faut choisir les trois meilleurs candidats). - L’admission aux programmes d’études contingentés (on ne peut accepter que les 10 meilleurs étudiants). 43 Le percentile et la valeur étalon Le percentile positionne chaque observation relative à la proportion des observations qui obtiennent une valeur qui lui sont égales ou inférieures. La valeur étalon (scores-z, T): positionne chaque observation relativement à la moyenne. Percentile: Exemple de de Rapido la tortue 44 45 Calcul du percentile Marche à suivre: Convertir chaque valeur en pourcentage (proportion). Créer une distribution cumulative des proportions. Le percentile = proportion cumulative en-dessous de la valeur x + la moitié de la proportion à la valeur x. Percentile = % cumulatif inférieur à x + (0,5* % de x). 46 Calcul du percentile (suite) Distribution des fréquences, valeurs 0 à 7. %n L’effectif de chaque valeur reproduit en % Valeur %n Percentile cumul. et % cumulatif pour produire le percentile. 0 0 - - % cumulatif inférieur à x + (0,5 * % de x) 1 6,250 6,250 3,125 Valeur 2 : 6,250 + (0,5 * 12,500) = 12,500 = 13e 12,500 2 12,500 18,750 (arrondi) (13e) 3 18,750 37,500 28,125 Valeur 7: 93,75 +(0,5 * 6,25) = 96,88 = 97e 4 25 62,500 50 5 18,750 81,250 71,875 À noter: les valeurs n’ont pas été arrondies pour la clarté de la démarche. 6 12,500 93,750 87,500 - Arrondissez le percentile à l’entier. 96,875 - Arrondissez les décimales (nombre 7 6,250 100 (97e) égal). 47 Utilisation du percentile Lorsque nous voulons comparer un score à une norme (poids, taille, etc. ) ou dans le cadre d’un test standardisé (intelligence, etc.). Pour expliquer en termes simples: - La taille de cet enfant le situe au 20e percentile des enfants de son âge. - Il est petit car seulement 20 % des enfants sont de taille égale ou inférieure à lui (et 80 % sont plus grands). Lorsqu’il faut créer des catégories de performances (A pour ceux qui se trouvent au 90e percentile et plus; B pour ceux qui se trouvent entre le 70e et 80e percentile etc.). 48 Utilisation du percentile (suite) Exemple: A = 50 ans et B 51 ans: Âge Percentile - En percentile: A = 38e ; B = 76e 30 et - 6 - B n’est pas deux fois plus vieux que A ! - Utilise seulement la fréquence et non la 31-40 9 valeur en soi. 41-50 38 51-60 63 Les percentiles sont moins adaptés aux petits 61-70 81 échantillons (la proportion de chaque 71-80 94 fréquence sera automatiquement plus élevée 81 et + 99 et l’asymétrie est possiblement plus grande). Ex.: 4/10 = 40 %; 4 / 1000 = 0,4 %. 49 Utilisation du percentile (suite) Avantages: - Facilement compris et calculé. - Fournit plus de détails que le rang absolu (proportion avant et après). Désavantages: - Sensible aux déviations à la normalité. - Utilisation préférablement réservée aux grands n. - Est incapable de nous indiquer directement la distance absolue entre les observations, en rapport avec l'échelle (voir p. 113). 50 Quantiles et dispersion Percentiles: distribution divisée en 100 parties égales. - Médiane = 50e percentile. Quartiles: quatre parties égales. - Médiane = 2e quartile. Field (2017) p. 28 (l’étendue interquartile). - 116 – 53 = 63 Données 22 40 53 57 93 98 103 108 116 121 234 ordonnancées Q1 Q2 Q3 51 Positionnement par standardisation Valeur étalon (score-z, T, etc.) La stratégie de positionnement où chaque observation est située relativement à Χ. Plus la valeur étalon est grande, plus loin l’observation correspondante se situe par rapport à Χ. Est utilisable pour toutes les distributions. 52 Utilisation pratique Valeur étalon (score-z, T, etc.) Comparer une personne sur deux variables. - Huguette obtient 60 % en chimie et 80 % en français. Est-elle meilleure en français? Décrire une personne sur une variable à deux moments. - À son examen intra, Ginet obtient 50 %. Il double son temps d'étude et obtient 50 % à l'examen final. Devrait-il être déçu? Comparaison de deux personnes sur deux variables. - Hortense obtient 80 % au cours 1; Horacina obtient 70 % au cours 2: Hortense a-t-elle mieux réussi son cours que Horacina? 53 Valeur étalon VS percentile Le rang percentile situe l’observation x par rapport a l’ensemble des autres observations. La valeur étalon situe l’observation par rapport au meilleur estimé de toutes les valeurs de la distribution (devinez lequel !). La valeur étalon prend en considération la variabilité des observations, ce que le percentile ne fait pas. 54 Positionnement par standardisation On établit la position de l'observation x en calculant son écart à la moyenne: x = (X - Χ). - Le signe indique si l'observation est au-dessus ou en-dessous de Χ. - La taille de l’écart indique si l’observation est proche ou loin de Χ. Donc, l’écart indique la position (+,-) aussi bien que la distance entre n'importe quelle observation et la moyenne. 55 La pertinence de l’écart x = (X - 𝛸) Logique (calcul) Résultat obtenu Interprétation x = (X - Χ) 60 % (Elfique); 𝛸 = 60 % Elfique: 60 – 60 = 0 Huguette est aussi forte en 80 % (Math); 𝛸 = 80 % Math: 80 – 80 = 0 langue elfique qu’en math. 50 % (intra); 𝛸 = 50 % Intra: 50 – 50 = 0 Ginet a amélioré sa 50 % (final); 𝛸 = 30 % Final: 50 – 30 = +20 performance. 80 % (Hortense); 𝛸 = 70 % Hortense: 80 – 70 = +10 Hortense a mieux réussi que 70 % (Horacina); 𝛸 = 70 % Horacina: 70 – 70 = 0 Horacina. Ok pour la logique (ex. elfique / math), mais la variance des notes ne devrait pas avoir un effet sur l’interprétation ? 56 L’impact de la variabilité La même note (70 %) positionne les étudiantes de manière très différente dans les deux cours. La même note dans deux cours ayant la même moyenne: Math xelfique= xmath= 70 %; Elfique Χelfique = Χmath= 50 %; s²elfique > s²math 20 30 40 50 60 70 80 90 100 57 Valeur étalon z (score-z) z = valeur étalon de l’observation X. X = valeur de l’observation. 𝛸 = moyenne de l’échantillon. s = écart-type de l’échantillon. Tient compte de la tendance centrale et des différences individuelles (variabilité / variance, etc.). Le même écart à la 𝛸 peut prendre un sens différent, dépendamment du degré de variabilité d’un échantillon. 58 Positionnement en score-z Le score-z, exprime chaque écart (x - Χ) par rapport avec s, l’écart x - Χ moyen de la distribution. Position (calcul) Résultat obtenu Interprétation z = (x - Χ) / s Forte sur les deux 70 % (math); 𝛸 = 50 %; s = 7 z = (70-50)/7 = +2,86 matières, mais plus forte 70 % (Elfique); 𝛸 = 50 %; s = 14 z = (70-50)/14 = +1,42 en math qu’en Elfique 𝛸 zElfique zmath Faible Performance Forte 59 Caractéristiques des scores-z Un z positif indique que l'observation est supérieure à la moyenne. Un z négatif indique que l’observation est en-dessous de la moyenne. Plus le z est grand, plus grand est l’écart entre l'observation et la moyenne de la variable. Important: lorsque toutes les observations de la distribution sont exprimées en z: - Χ de z = 0 - s² (et s) de z = 1 60 La valeur étalon et la standardisation La comparaison directe des performances sur deux variables exige que celles-ci aient la même moyenne et la même variance (s², s). Ce n’est pas possible, la plupart du temps ! Convertir toutes les observations de chaque variable en valeurs étalons (scores-z) fera que les variables auront toutes la même Χ et la même s (Χ = 0 et s = 1). 61 La valeur étalon et la standardisation (suite) La comparaison de la performance de chaque observation sur les deux variables est maintenant possible. - (Pour plus tard) Possible aussi de comparer ou de placer dans une analyse deux variables qui n’avaient pas la même échelle de mesure. - Ex. : reconnaissance: Χ = 3,25 sur 4; engagement: Χ = 3,75 sur 5. La conversion d’une distribution en valeur étalon se nomme « la standardisation ». 62 L’utilisation des valeurs étalon Étant donné qu’une ou des variable(s) transformée(s) en valeur étalon (standardisée) a(ont), il est possible d’établir: - La position de toutes les observations sur la même variable. La position de la même observation (ex. même personne) sur différentes variables. La distribution, qu’elle soit normale ou asymétrique doit toutefois être unimodale. 63 Calcul d’un score original À partir d’un score-z, il est possible de retrouver la valeur originale. Il faut simplement « inverser » la formule, isoler x. - x = z (s) + 𝛸 Exemple: 𝛸 = 60; s = 14; z = + 1,43; x = 80 z = (80 – 60) / 14 = 1,43 x = (1,43 * 14) + 60 = 80 64 D’autres valeurs étalon Il est souvent plus pratique d'exprimer les scores-z avec une 𝛸 de 50 et un s de 10. Cette forme de standardisation est la valeur stannine (T). Lorsque z = 0, T = 50 et lorsque Z = +1, T = 60. Calcul : T = 10(z) + 50 Forte utilisation en psychométrie - Pourquoi? Votre enfant a une performance « moyenne » a l’école, qui correspond à z = 0 et T = 50. - Pour une personne qui ne connait pas les statistiques, z = 0 ressemble à un score nul (mauvais score), tandis que T= 50 ressemble davantage à une performance « moyenne ». 65 Retour au z et interprétation z = (T - 50)/10 Exemple: T = 75 z = (75-50)/10 = 25/10 = +2,5 Interprétation des stannines - T > 50 = performance au dessus de la moyenne. - T < 50 = performance en dessous de la moyenne. - T = 50= performance moyenne. Toute mesure étalon nécessite une variable à intervalle ou à ratio. 66 R Studio PERCENTILES et SCORES-Z Téléchargez le fichier dans StudiUM: Pratique_2_R_Studio.zip Unzip et ouvrez le fichier : R_pratique_2B_Rapido.R 67 68 TP1 Présenté en classe

Use Quizgecko on...
Browser
Browser