HPS3U34 Méthodes et Statistiques pour Psychologues PDF
Document Details
Uploaded by Deleted User
Tags
Related
Summary
This document provides statistical methods and techniques for psychologists. It introduces statistical inference concepts and discusses the difference between population and sample within the context of research questions. Examples are given regarding specific psychological research topics, and the distinction between theoretical versus operational hypotheses.
Full Transcript
HPS3U34 Méthodes et Statistiques pour Psychologues 2. Statistiques inférentielles Dans la question de recherche, l’aléatoire intervient essentiellement : (1) parce qu’il est impossible de mesurer et d’analyser l’ensemble/la totalité des individus statistiques...
HPS3U34 Méthodes et Statistiques pour Psychologues 2. Statistiques inférentielles Dans la question de recherche, l’aléatoire intervient essentiellement : (1) parce qu’il est impossible de mesurer et d’analyser l’ensemble/la totalité des individus statistiques (e.g., étudiants, lycées, personnes atteintes de dépression ayant suivi le traitement A) impliqués dans la question ; (2) parce qu’il existe de la variabilité – ou des différences - entre les individus statistiques au niveau des variables impliquées dans la question. 2.1. Population / échantillon Lorsque l’on conduit une expérience pour répondre à la question, les individus sont supposément extraits d’un ensemble plus grand que l’on appelle Population (ou ensemble-parent). Attention, le terme ne fait pas nécessairement référence à la population sur le plan démographique, mais renvoie bien à la notion d’ensemble. Tout objet partageant des propriétés communes s’agissant ou non de personne s qu’on appelle des « individus statistiques ». C’est la question de recherche qui est posée qui permet de déterminer la population de référence. Quelques exemples : (1) Est-ce que les étudiants en fac de lettres sont plus assidus en cours qu’en fac de droit ? Dans cette question on voit que les individus statistiques de notre échantillon seront des étudiants (en droit et en lettre). La question implique deux populations (population 1 : l’ensemble des étudiants en lettres ; population 2 : l’ensemble des étudiants en droit). (2) Est-ce que la nouveauté d’une solution à un problème ouvert diminue sa faisabilité ? Ici les individus statistiques de la question sont les solutions au problème ouvert (i.e., problème possédant un nombre infini de solutions possibles). Les variables nouveauté 27 HPS3U34 Méthodes et Statistiques pour Psychologues (VI), faisabilité (VD), qualifie les solutions. La population impliquée est l’ensemble des solutions possibles au problème ouvert. (3) Est-ce que les lycées avec de faibles effectifs réussissent mieux que ceux avec de forts effectifs ? Dans ce dernier exemple, les individus statistiques de la question sont les lycées. Nous avons alors deux populations car nous distinguons les lycées à fort effectif et à faible effectif (population 1 = les lycées à fort effectif ; population 2 = les lycées à faible effectif). Le point commun entre toutes ces populations est que, dans la réalité, nous ne pouvons pas accéder et récupérer les données qui nous intéresse nt pour chaque individu qui la compose. Tout ce qu’on peut faire pour tenter d’apporter une réponse aux questions de recherche c’est conduire des expériences en recueillant et en analysant des échantillons de ces populations. L’échantillon, quel que soit sa taille, sera toujours plus petit que la population (c’est un sous-ensemble). Dans l’exemple (1), on voit qu’il est nécessaire de constituer deux échantillons pour répondre à la question (E 1 = étudiants en lettres ; E 2 = étudiants en droit) car je compare deux populations entre elles. Cette distinction population et échantillon va nous permettre d’introduire une nouvelle notation symbolique essentielle et le concept d’ inférence statistique. 2.2. Inférence statistique Les questions de recherche et les connaissances que l’on développe en psychologie portent sur les populations et non sur l’échantillon. Pourtant c’est bien à partir des données de l’échantillon que nous allons apporter une réponse au niveau des populations. Imaginons que je m’intéresse au QI (Quotient intellectuel) des étudiants à l’université 28 HPS3U34 Méthodes et Statistiques pour Psychologues et que je veux savoir si ce dernier est supérieur à la moyenne de la population générale (qui cette fois-ci est connue, nous l’appellerons : μ 0 = 100). Remarquez qu’ici, ma question de recherche implique de comparer la moyenne d’un groupe à une valeur déjà connue de la population générale. C’est un cas bien différent de l’exemple (1) vu précédemment où nous avions besoin de comparer deux échantillons (E 1 = étudiants en lettre ; E 2 = étudiants en droit). Nous reviendrons plus tard sur cette différence. Je peux comme sur l’exemple de la figure qui suit, extraire un échantillon d’individus (étudiants toutes années confondues à la fac) et leur faire passer un test de QI. Le QI étant une variable numérique continue, on résumera la distribution des scores par la moyenne et l’écart-type. Figure 9 - Inférence statistique Dans cette figure, vous pouvez observer que la population résumée par (μ ; σ) et l’échantillon (m ; s) n’ont pas le même symbole pour parler de leur moyenne et de leur écart-type. Cette différence est très importante, elle met en lumière un raisonnement très intuitif et logique : la moyenne que je calcule dans mon échantillon n’est pas nécessairement (voire probablement pas) exactement égale à la moyenne vraie dans la population (qui, on le rappelle, est souvent impossible à déterminer exactement). Les paramètres de la population sont exprimés en lettre Gre cques et celle de l’échantillon par des lettres Latines. La moyenne vraie « Mu » (μ) et l’écart-type vrai 29 HPS3U34 Méthodes et Statistiques pour Psychologues « Sigma » (σ) de la population sont généralement inconnu (Attention ! le QI que nous avons utilisé plus tôt dans notre exemple fait exception à la règle car nous connaissons la moyenne vraie (μ = 100) et l’écart-type vrai (σ = 15) du phénomène). Voici quelques implications importantes : (1) La moyenne de l’échantillon (m) est une quantité qui n’est pas nécessairement égale à la moyenne vraie de la population (μ). (2) Avec un autre échantillon, (m) aurait pu être différent. (3) Il faut trouver un moyen de quantifier la précision de l’estimation de ( μ) par (m). Répondre à une question de recherche à l’aide des statistiques c’est vouloir dire des choses sur des populations à travers la connaissance empirique que nous avons des résultats obtenus dans un échantillon. Ce type de raisonnement qui va du particulier au général est appelé induction, ou inférence. La statistique inférentielle vise donc à étendre les propriétés constatées dans un échantillon à l’ensemble d’une population. Le calcul des probabilités y joue un rôle fondamental car les réponses à nos questions recherche sont exprimées à l’aide des probabilités. 2.3. Démarche du test d’hypothèses L’application des statistiques inférentielle pour apporter une réponse à une question de recherche démarre avec : la démarche du test d’hypothèse. Cette dernière repose sur un principe général qui peut être résumé par la phrase suivante : « Si tu ignores quelque chose du réel, pose une hypothèse que tu commences par affirmer comme vrai. Si tu as tort, le réel devrait te détromper » (Noël, 2015, p.106) 1. Poser a priori des hypothèses sur les mondes possibles 30 HPS3U34 Méthodes et Statistiques pour Psychologues 2. Tester ces hypothèses en se servant de l’échantillon 3. Conclure au niveau de l’ensemble-parent (population) 2.3.1. Hypothèse générale vs. Opérationnelle Les hypothèses sont des réponses théoriques à la question de recherche que l’on se pose. Ce sont des « paris » sur les résultats qui vont être obtenu (e.g., réaliser la thérapie A permet de réduire les symptômes phobiques, mieux que la thérapie B) qui doivent être basés sur des arguments théoriques raisonnables (bien qu’on ne les mentionne pas directement dans l’hypothèse). On distingue deux niveaux de formulation : Le niveau général : lorsque les hypothèses sont formulées de façon à mettre en avant les construits d’intérêt mais n’indique pas la manière dont on manipule ou mesure ces construits. e.g., Les lycées avec de faibles effectifs réussissent mieux que ceux avec de grands effectifs. On comprend les construits qui sont en jeu à travers le lien probable (i.e., avec de grands effectifs il est plus difficile d’opérer un suivi individualisé des élèves , ce qui conduit à de moins bonnes notes). Cependant, remarquez qu’il est impossible de savoir comment on va tester et mesurer l’effet supposé ici. La VD (réussite) et la VI (effectif du lycée) sont très mal définies. Le niveau opérationnel : lorsque les hypothèses sont formulées de façon à indiquer la façon de manipuler/mesurer les construits d’intérêt. e.g., Les lycées avec moins de 300 élèves ont de meilleures moyennes générales que ceux avec plus de 300 élèves. Dans ce dernier exemple, on comprend à la fois les construits et on sait comment cela va être testé et mesuré. Les variables dépendantes et indépendantes sont implicitement 31 HPS3U34 Méthodes et Statistiques pour Psychologues définies au niveau opérationnel. En comparaison avec le niveau précédent, les grands effectifs deviennent ici « plus de 300 élèves » et inversement pour les petits effectifs. On mesure la réussite à l’aide « des moyennes générales ». On a donc : - Une VI invoquée, qualitative nominale à deux modalités {+300 élèves ; -300 élèves} - Une VD quantitative continue « moyenne générale » Parfois on peut tomber sur des hypothèses qui sont à mi -chemin entre les deux niveaux. Dans l’exemple qui suit, on comprend comment mesurer la VD mais pas la VI. e.g., Les lycées avec de faibles effectifs ont de meilleurs scores en moyenne au bac que ceux avec de grands effectifs. 2.3.2. Hypothèse alternative vs. hypothèse nulle Revenons à notre exemple sur le QI des étudiants en psychologie. Hypothèse générale : Les étudiants en psychologie sont plus intelligents que la population générale. Hypothèse opérationnelle : Les étudiants en psychologie ont un score de QI supérieur à celui de la population générale. Hypothèses opérationnelle (plus précise) : la moyenne de score de QI dans la population des étudiants en psychologie et supérieur à la moyenne de QI dans la population générale La réponse à cette question ne peut renvoyer qu’à deux mondes possibles : (1) La population des étudiants en psychologie a un QI plus élevé que la population générale 32 HPS3U34 Méthodes et Statistiques pour Psychologues Dans ce premier monde, la moyenne de QI de la population des étudiants en psychologie, appelons-la (μ) et plus grande que la moyenne de la population générale (μ 0 ). On peut l’écrire symboliquement sous la forme suivante μ > μ 0 Ce monde qui renvoie à une différence entre mes deux groupes est appelé l’« hypothèse alternative » on l’écrit « H 1 ». Donc on peut réécrire notre hypothèse opérationnelle avec l’écriture symbolique suivante : H1 : μ > μ0 (2) La population des étudiant en psychologie n’a pas un QI plus élevé que la population générale. Dans ce deuxième monde la moyenne de QI de la population des étudiants en psychologie (μ) n’est pas différente de la moyenne de la population générale ( μ 0 ). On peut alors estimer que ces deux moyennes devraient être égales. On peut l’écrire symboliquement sous la forme suivante μ = μ 0 Ce monde qui renvoie à l’absence de différence, ou plutôt l’égalité entre mes deux groupes, est appelé l’ « hypothèse nulle » on l’écrit « H 0 ». Donc on peut écrire le tenant inverse de notre hypothèse opérationnelle avec l’écriture symbolique suivante : H0 : μ = μ0 H0 : μ - μ0 = 0 Les notions d’hypothèse nulle et alternative sont centrales dans l’étude des statistiques inférentielles. C’est le niveau le plus précis de formulation de toute question de recherche en statistiques. Toutes les questions que l’on se pose ne peuvent être testée que si nous parvenons à poser ces deux hypothèses. Bien sûr on ne pourra jamais dire avec certitude lequel de ces deux mondes est le vrai. 33 HPS3U34 Méthodes et Statistiques pour Psychologues Cependant, on peut proposer une réponse sous forme de probabilité qui quantifie si nos données (i.e., scores, moyennes de l’échantillon) sont plus en faveur d’un monde ou de l’autre. Pour continuer avec notre exemple sur le QI, imaginons que je souhaite répondre à la question de recherche. Je recrute alors 70 étudiants en psychologie toutes années confondues et leur fait passer un test de QI. - La moyenne empirique des étudiants de mon échantillon est : (m = 105). - Nous savons par ailleurs que le QI est standardisé et étalonné dans la population pour être de moyenne (μ 0 = 100) et de variance (𝝈𝟐𝟎 = 15²). Si nous utilisons (m = 105) comme une estimation de la moyenne vraie de QI de la population des étudiants en psychologie (μ), nous aurions alors une différence de 5 points entre nos deux moyennes : Si μ = m, alors μ = 105 μ - μ 0 = 105 – 100 = 5 Que faire de ce résultat ? Nous avons une différence de 5 points qui vient notamment du fait que la valeur de la population des étudiant en psychologie ( μ) est estimée à partir de la valeur de moyenne (m) obtenue dans un échantillon de 70 étudiants. Mais si la moyenne de mon échantillon avait été différente, ma différence de moyenne aurait aussi été différente. Ainsi, si je ne peux pas être sûr que cette différence de 5 points est réelle (car je n’ai qu’un échantillon), je peux quand même quantifier sa probabilité qu’elle le soit ! On veut pouvoir quantifier la probabilité de voir une différence de 5 points. Ce qui peut être résumé très grossièrement par la question suivante : Si je faisais 1000 expériences, est-ce que j’obtiendrai souvent ~5 points de différence ? Vous aviez vu l’année dernière que pour prendre une décision entre H 1 et H 0 nous utilisions une probabilité particulière appelé : valeur p. Cette dernière doit être 34 HPS3U34 Méthodes et Statistiques pour Psychologues inférieure à un seuil arbitraire qu’on appelle le risque alpha ( α) défini à 5% en psychologie. Cette condition établie, ont peut alors conclure qu’un résultat est significatif et rejeter H 0 dans le but de valider/corroborer H 1. La valeur p et le risque/seuil α sont des probabilités et si l’on souhaite comprendre au mieux ces notions qui sont tout au bout de la chaine de décision dans les tests statistiques il est important de prendre le temps de revenir sur les notions de probabilité, de variables aléatoires et de distribution. C’est à partir de ces connaissances que nous allons construire une réponse qui fait le pont entre échantillon et population et que nous allons pouvoir corroborer/accepter ou réfuter nos hypothèses nulles et alternatives. Pour construire ces connaissances, deux activités vous sont proposées à la suite. La première porte sur le score z et vise à vous montrer que vous savez normalement déjà très bien manipuler l’utilisation des probabilités avec la loi normale. La seconde sera une découverte pour la plupart d’entre vous et concerne la notion de distribution d’échantillonnage d’une moyenne. 35 HPS3U34 Méthodes et Statistiques pour Psychologues 3. Probabilité : variables aléatoires & distribution Les probabilités permettent de quantifier l’incertitude dans les réponses que nous apportons aux questions de recherches. Pour ce faire nous mobilisons des objets mathématiques appelés distributions de probabilité (e.g., loi normale). Ces distributions permettent d’associer une probabilité d’occurrence pour chaque modalité d’une variable. 3.1. La loi normale et le théorème central-limite En psychologie, nous faisons souvent appel à la loi normale pour modéliser la distribution de nos variables psychologiques (e.g., caractère consciencieux, QI, note à l’examen de statistiques). La raison pour laquelle cette loi est si fréquente est qu’un grand nombre des caractéristiques psychologique s que nous étudions sont en réalités des variables aléatoires qui sont elles-mêmes la somme d’un grand nombre d’autres variables aléatoires. Voici un exemple pour s’en convaincre : Prenons les notes à l’examen de statistiques : Il y a un très grand nombre de variables aléatoires qui sont la cause du fait que certains étudiants auront une note basse, d’autres une note moyenne, et d’autres une note plutôt haute ( e.g., le niveau en mathématiques à la base, l’hygiène de vie, la qualité des cours, la motivation à venir en cours, la préparation à l’examen, la présence en TD… et beaucoup d’autres !). Imaginez que toutes les variables que j’ai citées comme étant des facteurs influençant les notes aux partiels soient des dés à 6 faces. Le résultat d’un dé (parfaitement équilibré) est aussi une variable aléatoire dont on connait bien la distribution. Chaque face du dé a autant de probabilité de sortir qu’une autre et cette probabilité est de 1/6 (soit 16%). Voici à quoi ressemblerait sa distribution de probabilité. Les résultats du dé, s’il est équilibré, sont générés à partir d’une loi uniforme continue, (i.e., les modalités de la variable sont toutes équiprobables). 36 HPS3U34 Méthodes et Statistiques pour Psychologues Figure 10 - Distribution des probabilités d'un dé Maintenant, prenons non plus une seule variable aléatoire, mais deux ! Nous prenons alors deux dés dont nous ferons la somme pour obtenir une nouvelle variable aléatoire. (1) Quel serait le minimum que je pourrais faire en lançant les dés ? (2) Le maximum ? La valeur minimum d’un dé étant de 1, le minimum possible avec 2 dés serait donc de « 2 ». - La valeur maximum d’un dé étant de 6, le maximum possible avec 2 dés serait donc de « 12 ». Super, nous connaissons maintenant toute la plage de valeurs que pourrait prendre notre nouvelle variable aléatoire qui fait la somme de deux autres variables aléatoires : {2 ; 3 ; 4 ; 5 ; 6 ; 7 ; 8 ; 9 ; 10 ; 11 ; 12}. Maintenant étudions certaines de ces modalités. (3) Par exemple, de combien de manières est-ce que je pourrais obtenir 4 ? Je pourrais par exemple avoir : 1 (dé n°1) + 3 (dé n°2) = 4 ; ou bien : 3 (dé n°1) + 1 (dé n°2) = 4 ; ou encore : 2 (dé n°1) + 2 (dé n°2) = 4. Il y a donc trois combinaisons possibles pour obtenir la valeur 4. (4) Et pour les valeurs extrêmes (i.e., 2 et 12) ? Combien de possibilités existe-t-il 37 HPS3U34 Méthodes et Statistiques pour Psychologues pour les obtenir ? Il n’y en a qu’une seule… Pour avoir 2 il faut que je fasse un double 1 (1 sur les deux dés) et pour avoir 12 il faut que je fasse un double 6. Vous commencez peut -être à voir le pattern qui se dessine ici… Plus j’ajoute de variables aléatoires, plus les valeurs extrêmes autour de la valeur la plus probable (valeur moyenne) deviennent difficiles à obtenir. C’est exactement ce qu i se passe pour la taille, le poids, les notes à l’examen, ou encore la distribution du salaire dans la population générale. Voici un graphique de la distribution de notre variable aléatoire composée uniquement de 2 autres variables aléatoires, vous verrez qu’elles commencent déjà à ressembler à la courbe en cloche que vous avez vu en L1 : une distribution normale/Gaussienne. 7 6 5 4 3 2 1 0 2 3 4 5 6 7 8 9 10 11 12 Figure 11 - Distribution des probabilités de deux dés Ce que nous venons d’illustrer graphiquement avec les exemples précédents est un théorème fondamental des statistiques qui porte le nom de « Théorème central-limite ». Voici comment le théorème central limite est formellement énoncé (ce n’est pas à apprendre par cœur !) : 38 HPS3U34 Méthodes et Statistiques pour Psychologues Soit p variables aléatoires (nos fameux dés) X 1 , X 2 , X 3 , … Xp, indépendantes et de même distribution. La somme Y = X 1 + X 2 + X 3 + … + Xp a une distribution qui tend vers une forme unique, dite « loi normale » ou « loi de Gauss » ou « loi de Laplace-Gauss », quand p devient très grand. C. F. Gauss (1777-1855) Comme vous pouvez le voir la loi normale peut prendre plusieurs formes qui vont dépendre essentiellement de 2 paramètres : la moyenne et l’écart-type. C’est une loi symétrique dont le degré d’aplatissement est lié à l’écart -type, et la moyenne détermine le centre de la distribution. Figure 12 - Variation de la loi normale en fonction de ses paramètres 3.2. Application JASP : Score z & loi normale centrée-réduite Vous manipulez des probabilités à l’aide de la loi normale depuis la L1. Voici une application avec l’utilisation des scores z (rappel de L1). En premier lieu, le score z est une transformation des scores empiriques (x i ) obtenue sur une variable numérique (X). 39 HPS3U34 Méthodes et Statistiques pour Psychologues Pour le calculer, il est nécessaire de connaitre la moyenne et l’écart-type (d’une population ou d’un échantillon). Si on veut comparer le score d’un sujet i (x i ) aux autres scores possibles d’un échantillon, on utilisera la moyenne empirique de l’échantillon ( m) et l’écart-type empirique de l’échantillon (s) pour construire la distribution de probabilité. On peut aussi vouloir comparer le score d’un sujet i (x i ) aux scores possibles dans une population, on utilisera alors les valeurs vraies connues de la population (μ ; σ). 𝒙−𝒎 𝒛= 𝒔 On peut voir que l’obtention de ce score opère par deux mécanismes : (1) le centrage (x – m) change le centre de la distribution qui au départ était la moyenne ( m) et le remplace par zéro ; (2) la réduction de l’échelle de la distribution qui est obtenu par la division par l’écart-type (ramène le score z en unité d’écart-type). Ainsi, toute variable aléatoire suivant une distribution N (μ ; σ) – (i.e., suivant une distribution normale (N) de moyenne (μ) et d’écart-type (σ)) peut être transformée en une loi normale centrée-réduite N (0 ; 1). Voici un cas pratique : L’année dernière, vous répondiez à ce type de question en utilisant la table de z unilatérale ou bilatéral e. Nous allons faire la même chose en utilisant JASP. Après avoir téléchargé et installé le logiciel JASP. Cliquez sur la croix bleue en haut à droite. Cette dernière permet d’installer des modules supplémentaires au logiciel JASP. 40 HPS3U34 Méthodes et Statistiques pour Psychologues Choisissez le module « Distribution » en le cochant. Vous pouvez maintenant utiliser le module distribution en cliquant sur la nouvelle icône : Parmi les choix proposés, sélectionnez la distribution « normale ». Comme vous pouvez le voir, le module nous propose automatiquement (1) une interface de paramétrage à gauche, (2) une interface de visualisation à droite. 41 HPS3U34 Méthodes et Statistiques pour Psychologues Pour le moment, remarquez que la distribution est automatiquement centrée sur 0 et de variance 1. Nous sommes donc face à une loi normale centrée -réduite. Dans les options, vous pouvez modifier les bornes d’affichage de la loi de distribution qui sont automatiquement entre -3 et 3. Pour le moment, la fonction la plus intéressante qui vous permettra de répondre aux questions de l’activité est « Highlight ». Si vous cochez « probability », vous allez pouvoir obtenir automatiquement certaines probabilités comme : (1) la probabilité d’avoir un score en dessous ou au-dessus d’un autre score, (2) la probabilité d’être entre deux scores. Remarquez que ces probabilités correspondent à des surfaces sous la courbe : D’un score x ou z à l’infini : probabilité d’être au-dessus du score. De moins l’infini à un score x ou z : probabilité d’être en-dessous du score. Entre deux score z ou score x. : probabilité d’être entre deux scores. 42 HPS3U34 Méthodes et Statistiques pour Psychologues Quotient intellectuel – Score z & loi normale centrée-réduite Exercice d’application : Le QI est une variable bien connue des psychologues et qui a été standardisée et étalonnée de façon que la moyenne dans la population (μ) soit de 100 et l’écart-type dans la population de (σ) soit de 15. En utilisant la formule du z, répondez aux questions suivantes : o Pour un score de QI de 142 quel est le z ? (2.8, soit 2.8 écart-types au- dessus de la moyenne) o Pour un score z de -1.75 quel est le score de QI ? (le score de Q1 est de 73.75) En utilisant JASP et le module distribution, affichez la distribution normale pertinente et répondez aux questions suivantes : o Quelle est la probabilité d’avoir un score de QI au-dessus de 94 ? (66%) o Pour un QI de 115, quel est le % de gens en-dessous ? (84% de la population est en dessous) o Quelle est la probabilité d’avoir un QI supérieur à 85 et inférieur à 115 ? (68%) o Quelle est la probabilité d’avoir au minimum un score z = 3 (0.1%) 43 HPS3U34 Méthodes et Statistiques pour Psychologues Cet exercice permet de se rendre compte qu’il est possible de quantifier la probabilité d’un score pour une moyenne et un écart-type donné. Les statistiques servent à prendre des décisions, l’utilisation des score z dans la pratique professionnelle en est un bon exemple. Souvent, lorsqu’on fait passer des tests psychologiques à un patient, les psychologues se réfèrent à des normes ( i.e., des valeurs de paramètre dans la population) permettant de déterminer alors le degré avec lequel le patient s’éloigne ou non des scores probables dans une population. 3.3. Application : Distribution d’échantillonnage d’une moyenne Cette application est essentielle car elle vous permettra de comprendre comment on peut conclure sur la population alors que nos données portent sur un échantillon. Variable aléatoire : du score à la moyenne Comme nous l’avions vu précédemment, les scores des sujets (x i ) provenant d’un échantillon sont des réalisations concrètes d’une variable aléatoire que l’on appelle (X). Si nous prenons un autre échantillon et/ou si nous pouvions remonter le temps pour interroger les 4 même sujets, les scores auraient pu être différents. En ce sens, la variable numérique continue « score de QI » est bien une variable aléatoire. Pour modéliser la probabilité d’occurrence des scores de QI que nous utilisons en exemple, nous avons vu que cette distribution était une Gaussienne (loi normale). Qu’en est-il de la moyenne d’un échantillon ? Imaginez que nous souhaitions connaitre la taille moyenne des étudiants de l’Université d’Aix-Marseille. On mesure en sélectionnant aléatoirement 100 étudiants par jour chaque jour de la semaine. Est-ce que la moyenne de la taille des étudiants du lundi sera la même que celle du mercredi ? Bien que mes échantillons proviennent d’une même population théorique (μ ; σ), intuitivement on se doute bien que même si nous mesurons le même phénomène, les moyennes obtenues dans mes échantillons ne seront pas nécessairement égale s. La 44 HPS3U34 Méthodes et Statistiques pour Psychologues raison est que la moyenne d’un échantillon i (𝒙̅𝒊 ) est également une variable aléatoire (i.e., tout comme les scores (x i ) vu lors de l’application sur le score z). Qu’est-ce que cela implique que la moyenne d’un échantillon soit une variable aléatoire ? Rappelez-vous, avec les scores z on pouvait par exemple conclure qu’un score obtenu par un sujet était parmi les 5% meilleurs ou les 50% les moins bons (en nous basant sur la loi normale), par rapport à la moyenne et l’écart-type d’un échantillon ou d’une population. On pouvait donc parler de la fréquence d’apparition d’un score pour dire si ce dernier est plutôt fréquent ou plutôt rare. On peut alors adopter le même raisonnement, mais à l’échelle des moyennes ! Si nous connaissions la manière dont se distribue une moyenne, nous pourrions alors conclure sur le fait que la moyenne obtenue dans un échantillon est plutôt probable ou improbable par rapport à la moyenne et l’écart-type d’une population. C’est très exactement ce qu’il nous faut car on souhaite raisonner au niveau de la population (cf. hypothèse nulle/alternative) à partir des résultats d’un échantillon. Pour modéliser la probabilité d’obtenir différentes moyennes , il faut que l’on détermine comment elles se distribuent et quels sont les paramètres de cette distribution. En gros, si nous tirons 500 échantillons de 30 étudiants et que je regarde comment se répartissent les moyennes de taille, qu’est-ce que nous verrons apparaitre ? Comme il n’est pas envisageable de (1) passer par trop de détails mathématiques, (2) réaliser une expérience avec des centaines d’échantillons, nous allons chercher simuler cette distribution à travers une activité. Simuler la distribution d’une moyenne Nous voulons donc simuler ce qui se passerait si nous répétions une expérience des centaines de fois. Comment les moyennes vont-elles se distribuer ? Que représenterait le centre de cette distribution ? Que représenterait son écart-type ? 45 HPS3U34 Méthodes et Statistiques pour Psychologues Nous allons donc créer un monde dans lequel la population générale a un QI moyen de 100 et une variance de 15². Nous allons ensuite générer une grande quantité d’échantillons de taille (N) et regarder comment leurs moyennes se distribuent. Le but est de construire la distribution de probabilité des valeurs que peut prendre la variable 𝑋̅𝑁 (i.e., l’indice N veut dire que les moyennes de cette distribution sont toutes obtenues sur la base de N sujets). Pour créer ce monde, nous allons utiliser l’application suivante : https://istats.shinyapps.io/sampdist_cont/ Vous avez alors accès à une page internet sur laquelle vous trouverez deux interfaces. Celle de gauche vous permettra de gérer les paramètres, celle de droite de voir les effets de vos modifications. Commençons par créer notre monde où la moyenne vraie (µ) de QI est à 100 et l’écart-type vrai (σ) de 15. Dans « select population distribution » choisissez la loi normale « bell-shaped ». Nous venons alors d’indiquer que la loi de distribution du QI suit une loi normale. Réglez maintenant les paramètres de la distribution en cliquant d’abords sur « Enter values for μ and σ ». Vous pouvez maintenant attribuer une valeur chiffrée au clavier pour la moyenne et l’écart-type du phénomène de façon à obtenir une loi N (100, 15). Cochez également « enter numerical value for n » ce qui vous permettra de modifier la taille des échantillons que nous récupérons dans le monde que nous avons créé. Regardez bien l’encadré suivant de votre interface. Ce dernier vous permettra de tirer 1, 100, 1000 ou 10 000 échantillons de taille n. N’oubliez pas de faire « Reset » quand c’est indiqué dans la question sinon les tirages vont s’ajouter les uns aux autres. 46 HPS3U34 Méthodes et Statistiques pour Psychologues Si nous tirons plusieurs échantillons, l’interface suivante nous propose trois distributions. Nous nous intéresserons surtout à la première et la troisième. La première distribution est celle de la population que nous avons créée. Ces paramètres sont ceux que nous avons renseignés durant la configuration. C’est de cette population que seront tirés les échantillons de taille n. La deuxième distribution représente le dernier échantillons tiré (si vous en tirez 100 c’est le 100 ème ). On est donc face à une distribution de score (x i ) et non de moyenne. Sous le titre on vous indique que la distribution est basée sur un échantillon de 5 personnes (n = 5), leur moyenne (m) est de 96 et leur écart-type (s) de 17.9. 47 HPS3U34 Méthodes et Statistiques pour Psychologues La troisième distribution est celle qui nous intéresse. Elle représente la distribution des moyennes des 101 échantillons de taille n = 5. La distribution représente des moyennes (x̄ i ) et non des scores. 1) Tirez 1000 échantillons de 5 observations (n = 5). Comment se distribue cette variable ? (loi normale : Elle a l’air plus recentré sur la moyenne que la population ! – la moyenne à l’air quasiment identique) 2) Tirez à de multiples reprises 1 échantillon de 5 observations (n’oubliez pas de faire « Reset » à chaque fois). Que remarquez-vous concernant les moyennes ? (elles fluctuent et ont l’air de tourner autour de la moyenne vraie de la population. Les moyennes tombent parfois au-dessus, parfois en dessous) 3) Tirez 1000 échantillons de 5, qu’en concluez-vous sur la moyenne de cette distribution ? (la moyenne des moyennes d’échantillons semble se distribuer selon une loi normale centrée autour de la moyenne vraie de la population mais ayant un écart-type différent de la vraie population) 4) Sur la base de la question (1) et (2) qu’en concluez -vous sur la moyenne de cette distribution ? (la moyenne des moyennes d’échantillons semble se distribuer selon une loi normale centrée autour de la moyenne vraie de la population) 48 HPS3U34 Méthodes et Statistiques pour Psychologues Maintenant essayons de faire varier la taille des échantillons ( n) pour observer comment évoluent les paramètres de la distribution d’échantillonnage d’une moyenne. Faire varier la taille des échantillons n’est pas anodin. On veut se rapprocher d’une information réelle qui existe dans la population (moyenne vraie), donc plus nos échantillons sont grands, plus on a d’informations sur la population et plus on devrait se rapprocher en théorie de la réalité. 5) Changez la taille des échantillons et prenez-en n = 25 – tirez plusieurs fois 1000 échantillons de la population en faisant bien attention à « Reset » avant chaque tirage. a. Que remarquez-vous concernant la moyenne des moyennes ? (elle ne change pas et est toujours égale à la moyenne vraie que nous avons définie dans la population) b. Que remarquez-vous concernant l’écart-type ? (Il semble fluctuer autour de 3. La variance serait alors de 3² = 9). Notez bien ce résultat pour n = 25 ; la moyenne des moyennes de la distribution fluctue autour de la vraie valeur dans la population. La variance est de 9. 6) Changez la taille des échantillons et prenez-en n = 75 – tirez plusieurs fois 1000 échantillons de la population en faisant bien attention à « Reset » avant chaque tirage. a. Que remarquez-vous concernant la moyenne des moyennes ? (elle ne change pas) b. Que remarquez-vous concernant l’écart-type. et celui d’avant ? (il est maintenant plus petit et fluctue autour de 1.73) c. La valeur de l’écart-type pour (n = 75) semble fluctuer autour de 1.73. Calculez la variance à partir de cet écart-type. (1.73² = 3, Le changement de taille d’échantillon semble exercer une influence sur l’écart -type car celui-ci vient de diminuer) Notez bien ce résultat pour n = 75 ; la moyenne des moyennes de la distribution fluctue autour de la vraie valeur dans la population. La variance est de 3. 49 HPS3U34 Méthodes et Statistiques pour Psychologues 7) Changez la taille des échantillons et prenez-en n = 225 – tirer plusieurs fois 1000 échantillons de la population en faisant bien attention à « Reset » avant chaque tirage. a. Que remarquez-vous concernant la moyenne des moyennes ? (elle ne change toujours pas) b. Que remarquez-vous concernant l’écart-type et celui d’avant ? (il est maintenant plus petit et fluctue autour de 1, sa variance est de 1² = 1) Notez bien ce résultat pour n = 225 ; la moyenne des moyennes de la distribution fluctue autour de la vraie valeur dans la population. La variance est de 1. 8) Voici un tableau qui récapitule les résultats de nos changements de taille d’échantillon. Que remarquez-vous ? x3 x3 N 25 75 225 Moyenne 100 100 100 variance 9 3 1 /3 /3 Vous avez peut-être remarqué la relation particulière entre les tailles d’échantillons et les variances. Lorsque nous multiplions par 3 la taille de l’échantillon (n) on divise par 3 la taille de la variance de la distribution d’échantillonnage (𝝈𝟐𝑿̅ ). Il y a donc un lien direct entre ces deux valeurs. Plus intéressant encore, vous avez peut -être remarqué que notre variance vraie (𝝈²) est égale à 15², soit 15² = 225. Ainsi sans démonstration mathématique, mais seulement à l’aide de cette application et du tableau précédent, vous devriez pouvoir créer une formule qui combine ces trois éléments et qui prendrait la forme suivante : 50 HPS3U34 Méthodes et Statistiques pour Psychologues 𝝈𝟐 𝝈𝟐𝑿̅ = 𝑵 C’est une relation très importante que nous venons d’apercevoir à travers cette activité. Elle nous apporte de nombreuses informations essentielles. (1) La variance de la distribution d’échantillonnage d’une moyenne (𝝈𝟐𝑿̅ ) n’est pas la variance vraie de la population (𝝈²). (2) La moyenne de la distribution des moyennes est égale à la moyenne vraie du phénomène (μ). (3) De (1) et (2) on déduit un principe fondamental : Toute moyenne provenant d’un échantillon de taille (N) est la réalisation concrète d’une variable aléatoire 𝑋̅𝑁 qui 𝟐 ̅ 𝑵 ~ (𝝁, 𝝈 ) se distribue de la façon suivante : 𝑿 𝑵 3.4. Variance de la distribution des moyennes (𝝈𝟐𝑿̅ ) et variance vraie (𝝈²) On a vu que la variance de la distribution d’échantillonnage d’une moyenne (𝝈𝟐𝑿̅ ) est égale à la variance vraie (𝝈²) divisée par la taille de l’échantillon (N). 𝝈² 𝝈𝟐𝑿̅ = 𝑵 Nous allons essayer de comprendre intuitivement ce qu’elle renferme. Vérifions en premier lieu que l’équation fonctionne. Pour le tirage avec des échantillons de taille N = 25 nous avions vu que la valeur semblait fluctuer autour de 3 d’écart-type (𝝈𝑿̅ = 3), soit une variance de 9 (𝝈𝟐𝑿̅ = 3² = 9). 𝜎² On devrait alors trouver que = 9. 𝑁 51 HPS3U34 Méthodes et Statistiques pour Psychologues On sait que (𝜎 2 = 15² = 225) car il s’agit ici de la variance vraie que nous avons définie au début de l’exercice. On sait également que la variance de 9 a été obtenue dans des tirages d’échantillons N = 25. 225 On voit alors que l’équation est parfaitement respectée = 9. 25 En somme, si la moyenne des moyennes d’échantillons ( 𝜇𝑋̅ ) ne semble pas varier avec la taille des échantillons, la variance d’une distribution de moyenne ( 𝜎𝑋2̅ ) est – comme le montre la formule suivante - toujours N fois plus petite que la variance vraie de la population (voici une autre manière décrire la formule : 𝜎𝑋2̅ ∗ 𝑁 = 𝜎²). Si vous regardez bien la formule que nous avons proposé plus haut : 𝝈² 𝝈𝟐𝑿̅ = 𝑵 On voit que la variance d’une distribution de moyenne ( 𝜎𝑋2̅ ) est construite à partir de : (1) 𝝈𝟐 : la variance vraie qui est une quantité qui peut être grande ou petite, mais qui est finie (e.g., pour le QI c’est bien connu : 15²). (2) N : La taille d’échantillon, qui est une quantité qui peut varier et sur laquelle nous avons le contrôle dans nos expériences. Que se passerait-il selon vous si on augmentait N à l’infini ? Intuitivement 𝜎 2 devrait diminuer et tendre vers 0 (un peu comme si on divisait un gâteau 𝜎 2 pour une quantité N infinie d’invités). Donc plus N augmente, plus la variabilité 𝜎𝑋2̅ de ma distribution des moyennes sera petite. 𝜎² 𝜎𝑋2̅ = 𝑁 Ainsi on peut se rendre compte que le paramètre de dispersion (variance) d’une distribution d’échantillonnage est basé uniquement sur l’écart-type vrai dans la population et le nombre de sujets de l’échantillon. 52 HPS3U34 Méthodes et Statistiques pour Psychologues Lorsque l’on passe cet indice 𝝈𝟐𝑿̅ sous sa forme d’écart-type, on l’appelle l’erreur-type ou l’erreur-standard de la moyenne. Ce dernier porte bien son nom car dans ce cas spécifique, il est naturel d’interpréter la variabilité ( 𝝈𝟐𝑿̅ 𝑜𝑢 𝝈𝑿̅ ) comme un indicateur de la qualité d’estimation de la moyenne vraie d’un phénomène. 𝝈 𝝈𝑿̅ = √𝑵 En somme, plus cette variabilité est petite plus vous serez confiant que la moyenne de votre échantillon de taille N est une bonne estimation de la moyenne vraie du phénomène mesuré. De plus, nous pouvons améliorer la qualité de nos estimations en augmentant N. 53