HPS3U34 Méthodes et Statistiques pour Psychologues - CM3 (PDF)
Document Details
Uploaded by BestPerformingMoose
Tags
Summary
These notes detail statistical methods, specifically for comparing a mean with a theoretical value (known σ²). The content focuses on the application of hypothesis testing and probability to answer research questions, using the WAIS intelligence test as an example.
Full Transcript
HPS3U34 Méthodes et Statistiques pour Psychologues 4. Comparaison d’une moyenne à une valeur théorique (σ² connue) : Le test z Mettons en application ce qu’on vient d’apprendre sur ( 1) la démarche de test d’hypothèse ; (2) l’application des probabilit...
HPS3U34 Méthodes et Statistiques pour Psychologues 4. Comparaison d’une moyenne à une valeur théorique (σ² connue) : Le test z Mettons en application ce qu’on vient d’apprendre sur ( 1) la démarche de test d’hypothèse ; (2) l’application des probabilités pour donner une réponse à une véritable question de recherche. Le test d'intelligence de la WAIS est étalonné dans la population générale pour être de moyenne μ 0 = 100 et d'écart-type σ 0 = 15. Supposons que mesurions le QI d’un groupe de 70 étudiants en psychologie, et que nous trouvions un QI moyen empirique de m = 105. En admettant que l'écart-type des scores chez ces étudiants soit le même que dans la population générale (notez que ça ne sera pas toujours le cas, mais pour le moment faisons comme si !) peut-on dire que les étudiants en psychologie ont une intelligence supérieure à la moyenne ? Notez une chose importante, nous sommes ici dans un cas idéal qui ne se présente pas fréquemment. Nous connaissons la moyenne et l’écart-type de la population générale pour la variable qui nous intéresse, à savoir le QI mesuré à l’aide du test de la WAIS. Le problème ici est alors de comparer une moyenne inconnue (la moyenne vraie de la population des étudiants en psychologie) à une moyenne de référence ou normative (moyenne de la population générale). Nous avons appris que lorsque nous parlons des paramètres d’une population, nous utilisons des lettres grecques et nous devons ici distinguer μ 0 et σ 0 , qui sont respectivement la moyenne vraie et l’écart-type vrai de la population générale, d’autres paramètres que nous ne connaissons pas, qui sont μ et σ de la population des étudiants en psychologie. Concrètement, notre problème revient à savoir si μ est égal ou non à μ 0 … mieux encore, on peut chercher si la différence (variable de différence δ) entre μ et μ 0 est égale à zéro. Commençons par la base de toute chose lorsque l’on veut faire des statistiques, posons 54 HPS3U34 Méthodes et Statistiques pour Psychologues nos hypothèses formelles : H0 : μ = μ0 H1 : μ > μ0 Ici l’hypothèse alternative H 1 est dite unilatérale à droite, ou orientée à droite (car elle suppose que la différence entre (μ) et (μ 0 ) est supérieure à 0 (i.e., μ - μ 0 > 0). Cependant, nous ne connaissons pas (μ) - et on ne connaitra jamais vraiment cette valeur ! La seule chose que l’on peut faire, c’est d’en fournir une estimation à partir des données de notre échantillon. Si nous utilisons (m = 105) comme une estimation de la moyenne vraie de QI de la population des étudiants en psychologie (μ), nous aurons alors une différence de 5 points entre nos deux moyennes : Si μ = m, alors μ = 105 μ - μ 0 = 105 – 100 = 5 Plutôt de d’étudier directement si 105 est plus grand que 100, on peut plutôt se pencher sur cette différence de moyenne de 5 en considérant cette différence comme une variable aléatoire. Nous connaissons la distribution d’une moyenne ou d’une différence de moyennes : 𝟐 ̅ 𝑵 ~𝑵 (𝝁, 𝝈 ). En utilisant les informations de l’exercice, on peut construire une 𝑿 𝑵 distribution N(100 ; 15²/70). Ou plutôt, on peut utiliser la version centrée-réduite ̅ 𝑵 ~𝑵(𝟎, 𝟏) qui donne sens à H 0 car elle est centrée sur une différence de zéro. On 𝑿 passe alors d’une question « Est-ce que 105 est différent de 100 ? » à une autre équivalente mais posée autrement : « Est-ce que 5 points est un écart rare à obtenir dans un monde où il n’y a pas de différence (μ - μ 0 = 0) ? ». En conclusion, on va chercher à modéliser la distribution des réponses possibles dans un monde où il n’y a pas de différence de QI entre étudiant s en psychologie et population générale : un monde dont la distribution est centrée sur 0. 55 HPS3U34 Méthodes et Statistiques pour Psychologues 4.1. Construire la statistique z Maintenant qu’on a toutes les pièces du puzzle, nous allons construire notre première statistique de décision. Il s’agit de la statistique Z. Attention, il ne s’agit pas du score z. Le score z vous permet de déterminer si un score est plutôt fréquent ou plutôt rare compte tenu d’une moyenne et d’un écart-type (de l’échantillon ou de la population). La statistique Z vous permet de déterminer si une moyenne ou une différence de moyenne est plutôt fréquente ou plutôt rare compte tenu d’une moyenne et d’un écart -type connus dans la population. (1) Nous savons déjà que toute variable suivant une loi normale peut donc être transformée en une variable X’ ~ N (0, 1) – ce qui veut dire : suivant une loi normale centrée réduite de moyenne 0 et écart-type 1. Il suffit pour cela d’utiliser la formule du z : 𝒙−𝒎 𝒛= 𝒔 (2) Comme nous l’avons vu précédemment dans le cours, vous savez qu’une moyenne est une réalisation concrète d’une variable aléatoire 𝑋̅ (moyenne ou différence de 𝜎2 moyenne) qui suit une loi normale de moyenne (μ) et de variance ( ) (ce qui est 𝑁 𝜎 équivalent à : d’écart-type ). C’est la distribution d’échantillonnage d’une √𝑁 moyenne. 56 HPS3U34 Méthodes et Statistiques pour Psychologues 𝝈 √𝑵 μ (3) Nous pouvons alors remplacer les score z (z) par la statistique Z (Z) ; le score (x) d’un participant, par la moyenne ou différence de moyenne empirique de notre ̅ ), la moyenne de référence/échantillon ̅ issu de la variable aléatoire 𝑿 échantillon (𝒙 (m) par celle de distribution d’échantillonnage d’une moyenne, qui n’est rien d’autre que la moyenne de la population (𝝁), et l’écart-type de l’ensemble de référence/échantillon (s) par l’écart-type de la distribution d’échantillonnage d’une moyenne, lui-même basé sur l’écart-type vrai de la population et la taille de 𝝈 l’échantillon ( ). √𝑵 𝜎 Nous pouvons alors la centrer (𝑋̅ − 𝜇) - réduire ( ) pour obtenir une valeur de Z √𝑁 interprétable dans une table de z (loi normale centrée -réduite), ou à l’aide de JASP. Cette statistique fait le pont entre échantillon et population dans les quantités qu’elle manipule. Elle permet alors de quantifier si la moyenne ou différence de moyenne de mon échantillon est probable ou non dans un monde où il n’y aurait pas de différence (rappelez-vous que notre distribution est centrée-réduite, donc de moyenne égale à zéro). ̅−𝝁 𝑿 𝒁= 𝝈 √𝑵 57 HPS3U34 Méthodes et Statistiques pour Psychologues Cette variable transformée (Z), suit une loi normale centrée-réduite, on l’écrira symboliquement de la façon suivante : Z~N (0, 1) 𝟏 0 Au vu des données de notre problème initial sur la différence de QI entre étudiant s en psychologie et population générale, on a maintenant une statistique qui permet de juger la valeur d’une moyenne ou différence de moyenne observée. Nous pouvons alors calculer la valeur Z et la positionner dans une loi normale centrée -réduite (comme on l’aurait fait pour un score z). 105−100 𝑍= 15 = 2.789 √70 Vous pourriez comme l’année dernière utiliser les tables de z pour obtenir la probabilité d’être au-dessus ou en dessous d’une certaine valeur de z. Ici, vous allez le faire directement avec JASP comme dans l’activité sur le score z, cela nous permettra de développer la notion de valeur p. 4.2. La valeur p La valeur de la statistique Z calculée précédemment est de 2.789. On doit élaborer un raisonnement un peu inhabituel pour juger cette valeur en termes de probabilité s et répondre à nos hypothèses. En effet, parmi H 0 et H 1 , seule H 0 nous donne une valeur 58 HPS3U34 Méthodes et Statistiques pour Psychologues numérique testable (H0 : μ = μ 0 donc μ - μ 0 = 0). On doit maintenant se demander si la différence de moyenne empirique obtenue (Z =2.789) est plutôt rare ou fréquent e dans un monde ou Z devrait être égale à 0. Dit autrement, nous souhaitons juger du caractère probable ou improbable d’une différence de moyenne que j’ai obtenue via des données empiriques dans un monde o ù en réalité, il n’y aurait pas d’effet. Ouvrez JASP > Module distribution > loi normale C’est normalement automatiquement une loi normale centrée -réduite qui vous est proposée (sinon modifiez les paramètres en conséquence). Vous allez maintenant « highlight » la probabilité d’avoir un Z de 2.789 ou plus. Que dire de cette probabilité ? (1) Elle est obtenue à partir des données (cf. le calcul du Z). (2) Elle représente la probabilité d’obtenir 5 de différence de moyenne s mais également toute valeur supérieure à 5. (3) Elle s’interprète dans une distribution centrée sur 0 (et d’écart -type 1) – Dans un monde où il n’y a pas de différence. Cette probabilité particulière est la valeur p. Remarquez une chose très importante : cette probabilité n’est pas la probabilité d’obtenir une différence de moyenne de 5 (z = 2.789). Mais bien la probabilité d’obtenir une différence de moyenne de 5 (z = 2.789) ou plus encore (plus extrême encore) ! La première probabilité porte un nom, on l’appel le vraisemblance. C’est par exemple, la probabilité d’obtenir une donnée particulière (D) dans une distribution (H). On l’écrira vraisemblance = P(D|H) qu’on lit « Probabilité des données D sachant l’hypothèse H (i.e., la distribution). C’est une donnée ponctuelle, un point sur la courbe, qui ne parle que d’une valeur à la différence de la valeur p qui est une somme de probabilité et représente plutôt une surface sous la courbe et non un point unique de cette courbe. 59 HPS3U34 Méthodes et Statistiques pour Psychologues En nous basant sur ce que nous avons émis comme propriétés , on peut la définir ainsi : La valeur p est la probabilité d’obtenir la moyenne (ou différence de moyenne) que j’ai obtenue dans des données (D) ou plus encore (*) lorsque ma distribution est centrée sur 0 (H) Ou encore... La valeur p est la probabilité d’obtenir les données que j’ai eu ou plus extrême encore (D*) dans un monde ou l’hypothèse nulle serait vraie (H 0 ) On peut l’écrire symboliquement ainsi : Valeur p = P(D*|H 0 ) Comme vous pouvez le voir, cette probabilité dans notre exemple (z = 2.789 et au- dessus) est très faible (p = 0.002645). 𝟏 Il nous faut alors convenir d’une valeur seuil pour décider de la crédibilité de l’hypothèses nulle. Comme vous l’avez appris l’année dernière, le seuil minimum fixé en psychologie est le seuil alpha (α) de 5%. En termes de décision statistique, si la valeur p est plus petite que 0.05 (5%), nous dirons que la différence observée est vraiment improbable dans un monde où il ne devrait pas y avoir de différence. Nous 60 HPS3U34 Méthodes et Statistiques pour Psychologues dirons alors que la différence est significative et accepterons l’hypothèse alternative. Les résultats obtenus dans notre exemple p < α sont donc en faveur d’une différence significative de QI entre la population des étudiants en psychologie et la population générale. Attention, ce n’est pas parce que la valeur p est très petite que la différence de QI entre la population générale et celle des étudiants est très forte. Nous étudierons l’indicateur de taille d’effet plus tard dans ce cours, cela vous permettra de quantifier la puissance de l’effet qui est une information tout aussi essentielle que la valeur p. Si à l’inverse nous avions trouvé une valeur de Z plus petite comme (Z = 1.18) la valeur p aurait été égale à 0.12. 𝟏 Ici p > α. Dans le cas présent on ne peut pas rejeter l’hypothèse nulle. La différence de moyenne correspondant à un Z de 1.18 (que vous pouvez vous amuser à calculer) n’est pas suffisamment importante pour considérer qu’il existe une différence de QI entre les populations des étudiants en psychologie et la population gén érale. Pour autant, on n’accepte pas H 0 ! On suspend son jugement car peut-être que l’expérience ne permettait pas de mettre en évidence l’effet qui pourtant existe. 4.3. Les erreurs de type 1 (α) et de type 2 (β) Pour comprendre ces deux types d’erreurs qui sont également des probabilités , il est intéressant de se pencher sur quelques aspects historiques. La première formulation des tests d’hypothèses a été formulée par Fisher en 1922, et on 61 HPS3U34 Méthodes et Statistiques pour Psychologues les appelle « tests de significativité ». Dans cette première formulation, il n’existait que l’hypothèse nulle. Cette hypothèse (H 0 ) correspond à la négation de l’hypothèse d’intérêt du chercheur (e.g., la population des étudiants en psychologie à un QI plus élevé que la population générale, donc H 0 : étudiant en psychologie = population générale). Parce qu’il est nécessaire de fixer un risque a priori, même si arbitraire, Fisher propose la valeur de 5% pour dire si un résultat est significatif (i.e., surprenant, improbable si l’effet recherché n’existait pas). Ce dernier sera appelé plus tard le seuil alpha (α). Cependant ces 5%, au-delà de représenter un seuil de décision pour dire qu’un résultat est significatif, représentent aussi un risque. On peut dire que c’est le risque de se tromper en affirmant qu’il y a un effet alors qu’en réalité il n’y a rien. Pour Fisher, c’était en réalité un seuil bien plus flexible que l’utilisation qu’on en fait aujourd’hui (une valeur p de 0.051 était tout aussi intéressante qu’une valeur exactement sur le seuil 0.05 0.01 0.001 p = 0.050). La figure précédente présente différents seuils α. Prenez toutefois en compte que comme la valeur p, ce seuil α est une surface sous la courbe (i.e., de 0.05 à +∞). C’est également à Fisher qu’on doit l’idée des gradations dans la significativité (e.g., significatif à 0.05, très significatif à 0.01) et le fait d’écrire la valeur p telle que sortie sur le logiciel. Pour Fisher la valeur p devait être interprétée comme un continuum, et plus la valeur p était petite plus la preuve apportée par les données était forte contre H 0. 62 HPS3U34 Méthodes et Statistiques pour Psychologues Cependant, que se passe-t-il si nous obtenons un résultat non-significatif ? Et si nous obtenons un résultat non-significatif, n’y aurait-il pas également une autre probabilité de se tromper en disant qu’il n’y a pas d’effet ? Pour Fisher, la question n’a pas de sens, c’est d’ailleurs à cause de lui que vous apprenez en L1 qu’il n’est pas possible d’accepter (H 0 ). En effet, avec la méthode fisherienne il n’est pas possible de quantifier a priori le risque qu e l’on prend à accepter (H 0 ). Mais pour Fisher cela n’avait aucun intérêt car si le chercheur en vient à ne pas trouver un résultat significatif, c’est peut-être simplement qu’il n’a pas mis en place un protocole approprié ou autre… Plein de raisons peuvent alors expliquer pourquoi on échoue à montrer une différence. Pour Fisher, il faut se concentrer sur le fait d’accumuler des preuves (par la conduite de différentes études expérimentales) à l’aide de la valeur p contre l’hypothèse nulle. Aujourd’hui nous continuons comme Fisher à suspendre notre jugement lorsque nous obtenons un résultat non-significatif. On n’accepte alors jamais H 0. Quelques années plus tard en 1933, Neyman et Pearson vont proposer une nouvelle réflexion sur les tests statistiques. Ils vont alors introduire la notion d’hypothèse alternative et formaliser un second risque d’erreur : le risque beta (β). La notion d’hypothèse nulle et alternative chez Neyman & Pearson est un peu différente de celle que nous avons apprise. L’hypothèse nulle ne représente plus forcément la négation de l’hypothèse d’intérêt du chercheur. Il est possible d’accepter H 0 ou H 1 (si on a assez de sujet) mais pour cela il est nécessaire de connaitre a priori différentes choses : la taille de l’effet (i.e., on en reparlera plus tard dans le cours, sur la figure ça représente la distance entre H0 et H1). Le risque alpha (α) et le risque beta (β) Nous ne reviendrons pas sur les subtilités de cette approche mais il est intéressant de noter que maintenant nous avons deux courbes et 4 probabilités (surface s coloriées) à 63 HPS3U34 Méthodes et Statistiques pour Psychologues recontextualiser. Sous la courbe blanche (H 0 ) nous avons des probabilités pour chaque valeur de différence de moyenne et la même chose pour (H 1 ). On voit par exemple qu’une différence zéro points (z = 0) est la plus probable sous H 0 – ce qui est logique – et l’une des moins probables sous l’hypothèse alternative. La surface rouge représente le risque alpha (α) : La probabilité d’affirmer à tort qu’il existe une différence (car si notre différence de moyennes est tombée par-là, c’est quand même très improbable dans un monde ou H 0 est vrai). La surface bleu marine, représente le risque beta (β) : La probabilité de conclure à tort qu’il n’y a pas d’effet alors qu’en réalité il y en a un. On va vouloir réduire au maximum ces deux risques. Essayez d’imaginer en regardant le graphique précédent ce qui se passerait si je choisissais par exemple de réduire la surface en rouge, le risque alpha (α). Il suffit de bouger la limite labelisé Z crit vers la droite, et vous devriez remarquer qu’automatiquement vous allez augmenter la surface bleu marine, risque beta. Les deux types d’erreurs sont inversement lié s. La surface bleue est ce qu’on appelle la puissance statistique (1-β) c’est la probabilité de votre test à détecter une différence si cette dernière existe réellement. En psychologie nous choisissons en général un seuil de 80%. La surface blanche est la probabilité d’un vrai-négatif (1-α). C’est donc la probabilité 64 HPS3U34 Méthodes et Statistiques pour Psychologues de ne pas rejeter l’hypothèses nulle alors qu’en réalité elle est vrai. Voici un tableau récapitulatif : H 0 est… Vraie Fausse Faux positif (α) Vrai positif (1-β) Rejetée Décision incorrecte Décision correcte Vrai négatif (1-α) Faux négatif (β) Pas rejetée Décision correcte Décision incorrecte En général, on fixe le seuil α à 5%, mais vous pourriez tout à fait vouloir le baisser pour avoir un test statistique plus exigeant. Idem, on fixe la puissance d’un test statistique à 80%, mais cette valeur pourrait être augmenté e. Imaginez que vous construisez des voitures et que vous achetez une machine qui vérifie la qualité des voitures en faisant 20% de faux négatifs : la machine vous dit que la voiture n’est pas défectueuse alors qu’elle l’est 20% du temps… Vous ne risquez pas de vendre beaucoup de voiture… En somme, tout dépend, encore une fois, du contexte psychologique dans lequel vous interprétez ces chiffres. 65