HPS3U34 – CM 10-11-12 : Tester les effets principaux, d'interaction, et simples dans les différents plans factoriels (PDF)
Document Details
Uploaded by Deleted User
HPS3U34
Nicolas Pichot, Jérémy Béna
Tags
Summary
This document is an educational material that details methods and statistical techniques used in the study of psychology. It covers different types of factorial designs for ANOVA, and the related concepts and calculations involved. Focus is on psychological research.
Full Transcript
HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) HPS3U34 Méthodes et statistiques pour psychologues...
HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) HPS3U34 Méthodes et statistiques pour psychologues CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) Responsables : Nicolas Pichot, [email protected] Jérémy Béna, [email protected] Table des matières Structure du cours........................................................................................................................... 2 À la fin de ce cours, vous devriez savoir….................................................................................... 2 Les plans factoriels......................................................................................................................... 3 Sources de variations...................................................................................................................... 4 Hypothèses statistiques................................................................................................................... 6 La taille d’effet : de η2 à η2p (eta-carré partiel)............................................................................... 7 Évaluer les prérequis statistiques de l’ANOVA à un facteur à mesures répétées.......................... 8 Réaliser des ANOVAs factorielles avec JASP............................................................................... 9 Références citées dans le cours..................................................................................................... 31 Références pour aller plus loin..................................................................................................... 31 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) Le CM 9-10 était consacré à l’introduction aux plans factoriels et au concept d’effet d’interaction. Nous avons notamment vu qu’un plan factoriel (composé au moins d’un 2*2, repensez à l’effet Stroop en fonction de l’âge pris en exemple) permet de tester des effets principaux et des effets d’interactions, et de décomposer l’interaction en effets simples. Comment tester l’existence d’effets principaux et d’interaction dans des plans factoriels ? L’ANOVA, que nous avons vue pour les plans simples avec des VI à plus de deux modalités, est un outil couramment utilisé pour tester des effets principaux et d’interaction dans des plans factoriels (que les VI aient deux modalités ou plus). Structure du cours Dans ce cours, nous verrons comment réaliser une ANOVA à deux facteurs dans des plans (1) à mesures indépendantes, (2) à mesures répétées, et (3) mixtes (où au moins une VI est inter- groupes et au moins une VI est intra-participants). Nous reprendrons la structure de la présentation des ANOVAs à un facteur, en rentrant toutefois moins dans le détail des étapes des calculs (nous ne verrons pas les calculs à la main). Ce cours n’inclut pas d’encadrés ‘Activité’, une large section étant dédiée à la conduite des ANOVA factorielles avec JASP et supposant la réalisation concomitante de votre part des analyses décrites. À la fin de ce cours, vous devriez savoir… - Identifier les multiples moyennes impliquées dans les plans factoriels - Quelles sont les hypothèses testées par l’ANOVA factorielle - Comprendre la notion d’eta-carré partiel (notée η2p) et sa différence par rapport à l’eta- carré - Évaluer les prérequis statistiques des ANOVA factorielles (qui varient en partie en fonction du plan factoriel considéré) - Réaliser des ANOVAs factorielles dans les différents plans factoriels avec le logiciel JASP 2/32 HPS3U34 – Méthodes et statistiques pour psychologues - Conduire des tests de comparaisons multiples, notamment pour identifier les interactions - Rédiger les résultats aux normes APA. Les plans factoriels Les plans factoriels, nous l’avons vu, permettent de tester l’effet de plusieurs VI (au moins deux) sur une VD. Ces plans permettent de tester les effets principaux des VI comme leur interaction. Contrairement aux plans simples, qui sont soit à mesures indépendantes soit à mesures répétées, les plans factoriels peuvent, en plus d’être inter-groupes ou intra-participants, être mixtes. Les plans factoriels sont mixtes quand au moins une VI est à mesures indépendantes et au moins une VI est à mesures répétées. C’est le cas, par exemple, si on estime l’état dépressif de participants avant et après une intervention (VI intra : Moment de la mesure, pré- ou post-intervention) et que l’intervention consiste pour certains participants à suivre une thérapie X et pour d’autres participants à suivre une intervention Y (VI inter : Intervention, X ou Y). Le nombre de VI et de modalités permet de décrire un plan factoriel. Par exemple, lorsque deux VI à deux modalités sont à mesures indépendantes, le plan est un plan factoriel 2 x 2. Le plan sera factoriel 2 x 3 x 3 si une VI a deux modalités et deux autres VI ont trois modalités. On pourra ajouter la mesure des VI pour décrire le plan factoriel. Par exemple, s’il y a deux VI à trois modalités à mesures répétées, le plan sera un plan factoriel 3 x 3 à mesures répétées. Tester des effets principaux et d’interaction avec une ANOVA factorielle sera très similaire quel que soit le plan factoriel. Nous verrons des exemples dans des plans factoriels 2 x 2 à mesures indépendantes, à mesures répétées, et mixtes. Notez qu’à travers ce cours, nous verrons le cas des plans équilibrés : c’est-à-dire que le nombre d’observations est le même dans chaque cellule du croisement des VI (2 * 2 = 4 conditions pour un plan en 2 x 2). Il arrive que le nombre d’observations ne soit pas le même dans toutes les conditions (par exemple, si une des VI est l’âge et que nous avons collecté davantage de données de participants jeunes adultes que de participants âgés). Ce que nous allons voir s’y applique en principe, mais nous ne les verrons pas directement. 3/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) Sources de variations De façon abstraite, posons deux VI, V1 et V2, toutes deux à deux modalités (a et b pour V1 ; 1 et 2 pour V2), et une VD (toujours numérique/quantitative). Leur croisement est représenté dans la Table 10.1. Table 10.1. Croisement de deux VI à deux modalités V1 a, 1 b, 1 V2 a, 2 b, 2 Dans les plans simples, nous avons identifié deux sources de variations : la variation liée au modèle (à la VI), et la variation liée à l’erreur (les résidus, ce qui n’est pas expliqué par le modèle). Cette même logique s’applique aux plans factoriels, mais les sources de variations de la VD sont plus nombreuses (naturellement, car il y a davantage de VI). La VD peut varier à cause de V1, de V2, de leur interaction (notée V1*V2), et de l’erreur. Lorsque nous cherchons à déterminer si V1, V2, et l’interaction V1*V2 ont un effet sur la VD, nous cherchons à quantifier la part de la variation de la VD qui est due à ces différentes sources, et ce afin de tester les hypothèses statistiques. Pour rappel, ces hypothèses statistiques ne portent pas sur l’échantillon que nous avons collecté, mais sur leur population parente. Nous cherchons à déterminer si les moyennes de la population sont égales ou différentes. Dans un plan factoriel, nous avons au moins quatre moyennes à disposition. Les voici pour le 2 x 2 abstrait présenté plus haut (sur base de données simulées) : Table 10.2. Moyennes (simulées) dans un plan factoriel 2 x 2 V1 a b 1 62.13 63.88 V2 2 32.56 9.03 4/32 HPS3U34 – Méthodes et statistiques pour psychologues En plus de ces quatre moyennes, il est possible de calculer les moyennes marginales, qui sont les moyennes à chaque niveau ou modalité d’une VI sans considérer les modalités de l’autre VI. On peut aussi calculer la moyenne globale (à travers l’ensemble des modalités des VI). Voici la Table 10.3 augmentée de ces moyennes : Table 10.3. Moyennes (simulées) dans un 2 x 2, dont moyennes marginales et générale V1 Total a b 1 62.13 63.88 63.01 V2 2 32.56 9.03 20.80 Total 47.35 36.46 41.90 Ces moyennes sont des estimations basées sur un échantillon (pour rappel, notées x̄) des moyennes de la population (pour rappel, notées μ). Lorsque nous posons nos hypothèses statistiques (portant sur μ), quelles moyennes sont concernées ? Vous voyez qu’avec un ‘simple’ 2 x 2, 9 moyennes sont déjà disponibles ! Reprenons la notation de Navarro (2022) et utilisons-la en reprenant la Table 10.4 : Table 10.4. Notation des moyennes dans la population (μ) basée sur Navarro (2022) V1 Total a b 1 μ1a μ1b μ1 V2 2 μ2a μ2b μ2 Total μa μb μ 5/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) Avec cette notation, nous pouvons maintenant décrire les hypothèses statistiques que nous testerons avec une ANOVA factorielle. Hypothèses statistiques Hypothèses sur les effets principaux La première hypothèse nulle porte sur l’effet de V1 sur VD. Cette hypothèse nulle pose que les k moyennes de la V1 sont égales : 𝐻0 ∶ 𝜇𝑎 = 𝜇𝑏 = 𝜇𝑐 = ⋯ = 𝜇𝑘 Dans notre exemple, nous aurions 𝐻0 ∶ 𝜇𝑎 = 𝜇𝑏 et l’hypothèse alternative est que les deux moyennes ne sont pas égales. L’hypothèse alternative sur V1 est qu’au moins une moyenne diffère des autres. Remarquez que ces hypothèses sont identiques à celles posées dans une ANOVA à un facteur. Notez que le test de ces hypothèses est fait en prenant en compte l’existence d’une autre VI (en particulier dans le calcul des résidus, ce qui fait qu’analyser un effet principal dans une ANOVA factorielle et l’effet de la VI sur la VD dans une ANOVA à un facteur ne revient pas exactement au même). Pour V2, la logique est la même, mais les hypothèses portent cette fois-ci sur les moyennes en ligne, et non plus en colonne : 𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 = ⋯ = 𝜇𝑘 L’hypothèse alternative sur V2 est qu’au moins une moyenne diffère des autres. Dans notre exemple, nous aurions 𝐻0 ∶ 𝜇1 = 𝜇2 et l’hypothèse alternative est que les deux moyennes ne sont pas égales. 6/32 HPS3U34 – Méthodes et statistiques pour psychologues Hypothèses sur l’effet d’interaction Les hypothèses que nous venons de voir portent sur les effets principaux des VI. Il reste encore à présenter l’hypothèse d’interaction. Dans un plan en 2 x 2, il ne peut il y avoir qu’un seul effet d’interaction. Notez que dans des plans factoriels plus complexes, il existe plusieurs effets d’interaction. Prenons le cas d’un 2 x 2 x 2. En plus des trois effets principaux (trois VI), nous pourrions tester trois effets d’interaction à deux facteurs. Notons A, B, et C les trois VI. Nous pourrions tester A*B, A*C, et B*C. Nous pourrions en plus tester l’interaction à trois facteurs A*B*C. Avec trois facteurs, 7 effets peuvent être testés (trois effets principaux ; 4 effets d’interaction). Revenons au cas d’un 2 x 2, où une seule interaction est à tester. Pour faire simple, nous considérerons que l’hypothèse nulle pose l’absence d’interaction, tandis que l’hypothèse alternative pose l’existence d’une interaction, et ce quelle que soit la forme précise de l’interaction. Les hypothèses concernant l’interaction ne sont pas aussi claires à poser que les hypothèses statistiques concernant les effets principaux car il nous faudrait rentrer dans davantage de détails ici (voir Navarro, 2022 pour davantage d’informations). La description de l’ANOVA suit la même logique que celle vue pour décrire les plans factoriels. Par exemple, dans un plan factoriel 2 x 2 à mesures répétées, nous dirons que nous réalisons une ANOVA 2 x 2 à mesures répétées. Dans un plan factoriel mixte 3 x 4, nous dirons que nous réalisons une ANOVA mixte 3 x 4. Contrairement aux ANOVAs à un facteur, nous n’allons pas passer par l’ensemble des étapes pour calculer les statistiques F (mais si vous souhaitez quand même avoir un aperçu, voir Bikos (2023). Nous verrons comment réaliser l’ANOVA factorielle dans JASP après avoir abordé la taille d’effet et les prérequis du test. La taille d’effet : de η2 à η2p (eta-carré partiel) Le calcul de la taille d’effet est similaire à celui vu pour l’ANOVA à un facteur. Dans une ANOVA factorielle, il est possible de calculer η2 pour chaque effet d’intérêt (de V1, de V2, V1*V2) en divisant la somme des carrés de l’effet-cible (V1, V2, ou l’interaction V1*V2) par la somme des carrés totale. Pour l’effet de V1 sur la VD nous aurions : 7/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) 𝑆𝐶𝑉1 η² = 𝑆𝐶𝑇 où SCV1 est la somme des carrés de la VI notée V1. 𝑆𝐶𝑇 représente la somme des carrés totale, c’est-à-dire la somme des carrés de chaque effet et des résidus (à la fois inter-participants et intra-participants dans le cas d’un plan mixte). Cet η2 indique la proportion de variance de la VD expliquée par la VI cible. Dans les faits, η2 est rarement utilisé comme indice de taille d’effet dans les ANOVAs factorielles. Un autre indice, proche de η2, lui est préféré : c’est l’eta-carré partiel, noté η2p. η2 est calculé par rapport à la somme des carrés des autres effets, qui rentrent dans le calcul de la somme des carrés totale (nous en verrons une illustration en utilisant JASP). Il arrive que l’on souhaite calculer la taille d’un effet tout en ignorant les autres effets (par exemple, estimer l’effet de V1 tout en ignorant V2). η2p est calculé en divisant la somme des carrés de l’effet-cible par la somme des carrés totale sans prendre en compte les autres effets (en d’autres termes, uniquement la somme de la somme des carrés de l’effet-cible et de la somme des carrés des résidus) : 𝑆𝐶𝑉1 η²p = 𝑆𝐶𝑉1 + 𝑆𝐶𝑅 Note. Dans le cas d’une VI intra-participants, 𝑆𝐶𝑅 représente les résidus intra-participants (voir cours sur l’ANOVA à un facteur à mesures répétées). Notez que pour les mêmes effets, η2p sera généralement plus large que η2. η2p ne s’interprète pas de la même façon que η2. Les différentes valeurs de η2 sont directement comparables : trouver un η2 plus large pour l’effet de V1 que V2 est interprétable comme un effet plus large de V1 que V2 sur la VD. Puisque les η2p sont calculés comme si les autres effets n’existaient pas, la comparaison de la magnitude des différents effets n’est plus possible, et la comparaison est faite uniquement par rapport à la variation résiduelle. Évaluer les prérequis statistiques de l’ANOVA factorielle Les prérequis statistiques sont identiques à ceux vus pour l’ANOVA à un facteur : les variances (ou variances des différences pour les plans à mesures répétées) doivent être homogènes et la distribution de la VD (plus particulièrement, des résidus) doit être normale (au moins 8/32 HPS3U34 – Méthodes et statistiques pour psychologues approximativement). La façon de tester ces prérequis est très similaire à ce que nous avons vu pour l’ANOVA à un facteur. Néanmoins, certaines des corrections que nous pourrions utiliser dans le cadre de l’ANOVA à un facteur pour groupes indépendants ne sont pas disponibles pour l’ANOVA factorielle pour groupes indépendants (i.e., la correction de Welch). Quand c’est le cas, nous nous limiterons à utiliser l’ANOVA classique, sans correction. Réaliser des ANOVAs factorielles avec JASP Voyons comment réaliser les ANOVAs factorielles dans JASP. En fonction du plan factoriel considéré, la façon précise de procéder différera légèrement. Plans factoriels à mesures indépendantes Commençons par l’ANOVA factorielle à mesures indépendantes. Les données : Abel et al. (2023) Description de l’étude d’Abel et al. Commençons avec des données concrètes dans un plan factoriel 2 x 2 à mesures indépendantes. Abel et al. (2023) ont cherché à répliquer les résultats d’Ellenbogen et al. (2006) sur l’effet du sommeil sur la mémoire (leurs stimuli et données sont disponibles sur l’Open Science Framework : https://osf.io/xvuq9/). Dans cette étude, les auteurs ont testé si le sommeil préserve la mémoire de l’effet d’interférences rétroactives (apprendre de nouvelles informations diminue la récupération d’informations similaires apprises antérieurement). Abel et al. ont recruté 120 participants qui ont été attribués à une des quatre conditions suivantes (n = 30) : - 12 heures de sommeil et phase d’encodage supplémentaire - 12 heures de sommeil et pas de phase d’encodage supplémentaire - 12 heures d’éveil et phase d’encodage supplémentaire - 12 heures d’éveil et pas de phase d’encodage supplémentaire. Ces quatre conditions résultent du croisement de deux VI à deux modalités manipulées en inter-groupes : - Délai : sommeil ou éveil - Encodage supplémentaire : présent ou absent 9/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) Après avoir encodé 20 paires de mots (e.g., ‘hammer’ – ‘island’), les participants devaient passer 12h à dormir ou à rester éveillés (VI : délai). Les participants en condition ‘présent’ de la VI ‘encodage supplémentaire’ étaient invités à encoder 20 paires de mots, où un des mots de chaque paire vue en encodage initial était présenté avec un nouveau mot (e.g., ‘hammer’ – ‘banner’). Les participants en condition ‘absent’ de la VI ‘encodage supplémentaire’ ne réalisaient pas cette tâche. Tous les participants étaient ensuite invités à réaliser une tâche de rappel : un mot de chaque paire de mots vue en encodage initial était présenté avec la tâche d’indiquer le mot avec lequel il était associé en encodage initial (e.g., ‘hammer’ – ?, avec ‘island’ comme réponse correcte). Abel et al. ont calculé la performance de rappel (estimée en proportions, avec 0 = aucun mot correctement rappelé et 1 = tous les mots correctement rappelés). Les auteurs ont réalisé une ANOVA 2 x 2 à mesures indépendantes sur la performance de rappel, dont l’échelle a été transformée pour les besoins de l’analyse. Ouvrons et regardons leurs données ! 1. Ouvrons les données d’Abel et al. (fichier adapté pour le présent cours, intitulé ‘data_abel_2023_factorial_btw_ANOVA.csv’) avec JASP (disponible dans l’espace AMeTICE du CM 10). Une fois JASP ouvert, aller dans le menu principal (les trois traits bleus horizontaux en haut à gauche de l’écran) puis ‘Open’, ‘Computer’, ‘Browse’ (et sélectionner le fichier). 2. Identifier les colonnes : - ‘ID’ correspond à l’identifiant des participants - ‘delay correspond à la modalité de la VI Délai assignée à chaque participant. C’est une variable catégorielle à deux modalités (‘12-h sleep’ pour la condition de sommeil et ‘12-h wake’ pour la condition d’éveil). - ‘additional encoding’ correspond à la modalité de la VI Encodage supplémentaire assignée à chaque participant. C’est une variable catégorielle à deux modalités (‘present’ pour la condition avec encodage supplémentaire et ’absent’ pour la condition sans encodage supplémentaire). - ‘proportion_correct’ correspond à la performance de rappel des mots vus en encodage initial 10/32 HPS3U34 – Méthodes et statistiques pour psychologues - ‘proportion_correct_transformed’ correspond à la performance de rappel transformée. 3. On peut avoir un aperçu du nombre de participants dans chaque condition : aller dans ‘Descriptives’ et glisser ‘proportion_correct’ (ou ‘proportion_correct_transformed’) dans ‘Variables’ et une des VI dans ‘Split’. On ne peut cependant pas avoir le compte à chaque niveau du croisement des deux VI. Pour cela, on pourra filtrer les données en amont : retourner dans le tableau de données et cliquer sur l’icône ‘Show filter’ en haut à gauche (l’icône ressemble à un entonnoir). Dans le champ qui apparaît, déplacer par exemple ‘additional_encoding’, puis déplacer le symbole ‘=’ et écrivez present à la place des ‘…’. Appuyer sur ‘Apply pass-through filter’ (‘Appliquer le filtre de passage’). Vos données sont maintenant filtrées pour que ne soient utilisées que les lignes dont la colonne ‘additional_encoding’ prend la valeur ‘present’. Retourner dans l’onglet des résultats des analyses, et passez ‘delay’ dans ‘Split’. Vous voyez qu’il y a 30 participants dans chaque condition de la VI Délai. On pourra faire la même chose avec comme règle de filtrage ‘additional_encoding = absent’ et remarquer qu’il y a 30 participants également dans chaque condition de la VI Délai. On a donc bien 30 participants dans chaque cellule/condition du croisement du Délai et de l’Encodage supplémentaire. On pensera à désactiver le filtre avant de réaliser les analyses (en déplaçant les termes de l’équation dans l’icône de poubelle puis en cliquant sur ‘Apply pass-through filter’. Note. Le nombre de participants peut aussi être affiché en réalisant l’ANOVA. 4. Pour avoir un aperçu de la distribution des données dans chaque condition, nous reprendrons la procédure décrite en 3. ci-dessus et irons dans l’onglet ‘Statistics’. Cocher ‘Skewness’, ‘Kurtosis’, et ‘Shapiro-Wilk test’. Pour visualiser les distributions, aller dans l’onglet ‘Basic plots’ et cocher ‘Distribution plots’ et ‘Display density’. Nous voyons que, de façon approximative, les données semblent globalement suivre une loi normale dans chaque condition résultant du croisement des deux VI. Réaliser l’ANOVA factorielle pour groupes indépendants 1. Pour réaliser l’ANOVA factorielle pour groupes indépendants quand toutes les VI sont inter-groupes, aller dans ‘ANOVA’, puis dans ‘Classical’, cliquer sur ‘ANOVA’ (c’est-à- dire, la même procédure que pour réaliser l’ANOVA à un facteur pour groupes indépendants). 11/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) 2. Mettre ‘proportion_correct_transformed’ dans ‘Dependent Variable’ ; mettre ‘delay’ et ‘additional_encoding’ dans ‘Fixed Factors’ (l’ordre n’a pas d’importance). La table de l’ANOVA indiquant la somme des carrés, les carrés moyens, les degrés de libertés, la statistique F ainsi que la valeur p apparait pour chaque effet apparaît (une ligne par effet). Les deux premières lignes indiquent les effets principaux (Délai ; Encodage supplémentaire), et la troisième ligne indique l’interaction entre Délai et Encodage supplémentaire. 3. Vérifions l’homogénéité des variances. On ira dans l’onglet ‘Assumption Checks’ et on cochera ‘Homogeneity tests’ (à nouveau, comme pour l’ANOVA à un facteur pour groupes indépendants). Une nouvelle table apparaît, qui présente le test de Levene. Nous voyons ‘3.991’ dans la colonne ‘F’ et ‘0.010’ dans la colonne ‘p’. Le test de Levene est significatif : cela signifie que nous devons rejeter l’hypothèse nulle d’homogénéité des variances, et accepter l’hypothèse d’hétérogénéité des variances. Nous allons tout de même réaliser l’ANOVA, car la correction de Welch ne s’applique pas à l’ANOVA factorielle. 4. Nous pourrons également évaluer visuellement la distribution avec un diagramme Q-Q. Dans l’onglet ‘Assumption checks’, cliquer sur ‘Q-Q plot of residuals’. Un diagramme Q- Q apparaît, qui présente la distribution des résidus (non-expliqués par le modèle) contre les quantiles théoriques (attendus sous la loi normale). À l’exception de quelques valeurs pour les quartiles de l’échantillon les plus élevés, les résidus tombent globalement sur la droite à 45 degrés, suggérant que les résidus suivent approximativement une distribution normale. 5. Lisons la table de l’ANOVA pas à pas. Pour obtenir les tailles des effets, aller dans ‘Display’ et cocher ‘Estimates of effect size’ et ‘𝜂²p’. Une nouvelle colonne apparaît dans la table. Pour comparer, on cochera également ‘𝜂²’ – une autre colonne apparaît. - La première ligne présente l’effet de la VI Délai (si la VI ‘delay’ a été rentrée en première) sur la proportion de mots rappelés transformée. La valeur F est de 26.436, et la valeur p associée est inférieure à.05 (même inférieure à.001) : le délai influence significativement la proportion de mots correctement rappelés. La taille d’effet η2p est de.186 et la taille d’effet η2 est de.09 (notez la relation η2 ≤ η2p abordée avant). - La deuxième ligne présente l’effet de la VI Encodage supplémentaire sur la proportion de mots rappelés transformée. La valeur F est de 140.258, et la valeur p associée est inférieure 12/32 HPS3U34 – Méthodes et statistiques pour psychologues à.05 (même inférieure à.001) : l’encodage supplémentaire influence significativement la proportion de mots correctement rappelés. La taille d’effet η2p est de.547 et la taille d’effet η2 est de.479. - Enfin, la troisième ligne présente l’interaction Délai*Encodage supplémentaire sur la proportion de mots rappelés transformée. La valeur F est de 9.864, et la valeur p associée est inférieure à.05 (elle est de.002) : le délai et l’encodage supplémentaire interagissent significativement sur la proportion de mots correctement rappelés. La taille d’effet η2p est de.078 et la taille d’effet η2 est de.034. Prenez le temps, si vous le souhaitez, d’essayer de retrouver les valeurs des F et des tailles des effets avec des calculs à la main en vous basant sur les valeurs des sommes des carrés et des carrés moyens rapportées dans la table. Réaliser les tests post hoc 1. Nous voyons que les trois effets sont statistiquement significatifs ! La performance de rappel dépend à la fois du délai, de l’encodage supplémentaire, et de leur interaction. Mais l’ANOVA ne nous dit rien de la direction de ces effets, autrement dit, du pattern de résultats : il nous faut réaliser des étapes supplémentaires pour mieux identifier les effets. Par exemple, dans le cas de l’effet du délai sur la proportion de mots correctement rappelés, il est très différent de trouver une proportion de mots correctement rappelés supérieure en condition ‘sommeil’ qu’en condition ‘éveillé’ (un effet protecteur du sommeil sur la mémoire) et de trouver une proportion de mots correctement rappelés inférieure en condition ‘sommeil’ qu’en condition ‘éveillé’ (un effet délétère du sommeil sur la mémoire) ! En ce qui concerne les effets principaux, on peut aisément déterminer la direction de l’effet car les VI ont deux modalités : en regardant les statistiques descriptives ou une figure, nous pourrons déterminer que la proportion de mots correctement rappelés est significativement supérieure en condition ‘sommeil’ qu’en condition ‘éveillé’ (l’effet bénéfique du sommeil). Nous pourrons également identifier que la proportion de mots correctement rappelés est significativement supérieure en l’absence d’un encodage supplémentaire qu’en présence d’un encodage supplémentaire (l’effet délétère des inférences rétroactives). Dans ces tables et figures, les moyennes et écarts-types sont présentés avec l’échelle transformée ; il est 13/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) possible de les générer avec les données non transformées pour les interpréter en pourcentages. 2. En ce qui concerne l’interaction, nous l’avons vu, il faut la décomposer en effets simples et tester la significativité des différences pour des niveaux donnés de l’autre VI. Les comparaisons par paires (tests post hoc), parmi d’autres options que nous ne voyons pas dans ce cours, sont utiles à cet égard. Dans le volet ‘Post hoc Tests’, déplacez ‘delay’, ‘additional_encoding’, et ‘delay * additional_encoding’ dans le champ de droite. Trois nouvelles tables apparaissent, présentant les tests post-hoc associés à chaque effet. Les tables des tests post hoc associés aux effets principaux ne nous intéressent pas : à nouveau, puisque les VI n’ont que deux modalités, ces tables sont complètement redondantes avec l’ANOVA déjà réalisée (quand les degrés de liberté du modèle sont de 1 : t = sqrt(F) et F = t², vous pouvez l’explorer en comparant les valeurs ici). On se focalisera, dans le cas de l’ANOVA 2 x 2, sur les tests post hoc de l’interaction. Puisqu’il y a 2 x 2 = 4 moyennes, 6 comparaisons sont possibles (rappelez-vous de l’Activité 10 du CM 7-8). On cochera ‘Bonferroni’ dans ‘Correction’ pour que les valeurs p soient corrigées, étant donné l’utilisation de comparaisons multiples. Si on coche ‘Effect size’ dans ‘Type’, nous aurons dans la table, en plus des statistiques t et du p corrigé, l’indice de taille d’effet d (voir cours sur les t-tests). Les comparaisons par paires consistent à comparer deux à deux la proportion de mots correctement rappelés dans chacune des quatre conditions. Nous voyons que toutes les différences deux-à-deux sont statistiquement significatives sauf la différence entre la proportion de mots correctement rappelés en condition sommeil, pas d’encodage supplémentaire et éveil, pas d’encodage supplémentaire. 3. Pour avoir un aperçu des données, on ira par exemple dans ‘Descriptives Plots’ (nous aurions aussi pu aller dans ‘Raincloud plots’) et on déplacera ‘delay’ dans ‘Horizontal axis’ et ‘additional_encoding’ dans ‘Separate lines’. Notez que nous aurions pu également déplacer ‘additional_encoding’ dans ‘Horizontal axis’ et ‘delay’ dans ‘Separate lines’ – le choix revient au même (les mêmes moyennes et barres d’erreur sont présentées), mais la facilité d’interprétation dépendra des hypothèses posées. On cochera ‘Confidence interval’ dans ‘Display’ pour obtenir les intervalles de confiance à 95% autour des moyennes. Il apparaît clairement sur le graphique que nous observons un effet 14/32 HPS3U34 – Méthodes et statistiques pour psychologues d’atténuation/amplification : l’effet de la présence d’un encodage supplémentaire dégrade davantage la performance de rappel en condition éveillé qu’en condition sommeil. Concluons sur les données d’Abel et al. (2023) Pour rappel, l’hypothèse d’Abel et al. est que le sommeil protège la mémoire des interférences rétroactives. C’est une hypothèse d’interaction : l’effet (délétère) des interférences rétroactives sur la mémoire devrait être moins fort lorsque les individus ont dormi que lorsqu’ils sont restés réveillés. Vous pouvez essayer de représenter l’hypothèse d’une interaction dans un schéma. Il pourrait ressembler à celui-ci : Dans des termes plus opérationnels, l’hypothèse est que l’effet délétère d’un encodage supplémentaire sur la proportion de mots correctement rappelés est moins fort quand les participants ont dormi que lorsqu’ils sont restés éveillés. Comme l’indiquent les analyses présentées ci-dessus, ces résultats soutiennent l’hypothèse d’Abel et al., sous la forme d’une atténuation de l’effet délétère d’un encodage supplémentaire sur la proportion de mots correctement rappelés quand les participants ont dormi plutôt que quand ils sont restés éveillés. Rapporter les résultats aux normes APA Maintenant que les analyses ont été réalisées, il convient d’en rapporter les résultats. Voici par exemple comment Abel et al. (2023, p.6) les rapportent : “A 2 x 2 ANOVA showed a significant main effect of delay, F(1, 116) = 26.44, MSE = 0.05, p <.001, η² =.19, reflecting better recall after sleep than wakefulness (87.58% vs. 74.08%). Moreover, there was a significant main effect of additional learning, F(1, 116) = 140.26, MSE = 0.05, p <.001, η² =.55, indicating better recall in the absence than in the presence of additional learning (95.83% vs. 65.83%). Most critically, there was also a significant interaction between 15/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) the two factors, F(1, 116) = 9.86, MSE = 0.05, p =.002, η² =.08, suggesting that the influence of additional learning depended on type of delay (see also Fig. 1). Higher recall after sleep compared to wakefulness was found in the presence of additional learning (78.17% vs. 53.50%), t(58) = 4.95, p <.001, d = 1.28, 95% CI [0.72, 1.83], but not in its absence (97.00% vs. 94.67%), t(58) = 1.82, p =.073, d = 0.47, 95% CI [−0.04, 0.98]. Additional learning impaired recall, but this effect was more pronounced after wakefulness, t(58) = 11.08, p <.001, d = 2.86, 95% CI [2.13, 3.58], than after sleep, t(46.66) = 5.91, p <.001, d = 1.53, 95% CI [0.94, 2.10].” Notez que rapporter les carrés moyens des résidus (MSE pour Mean Squared Error) n’est pas nécessaire. Notez également que les auteurs ont rapporté les intervalles de confiance à 95% des tailles des effets des tests post hoc, ce qui n’est pas toujours fait (nous pouvons les obtenir avec JASP : dans ‘Post Hoc Tests’, sélectionner ‘Confidence intervals’ dans ‘Display’). Notez la différence entre les tests post hoc réalisés par les auteurs et ceux réalisés ici (si vous le souhaitez, vous avez assez d’informations pour essayer de reproduire les t-tests réalisés par Abel et al. avec JASP et le présent jeu de données !). D’ailleurs, selon vous, Abel et al. (2023) rapportent-ils des eta-carré, comme ils l’indiquent (η²) ou plutôt des η²p ? Basez-vous sur les analyses que nous venons de faire, et vous verrez qu’ils rapportent des η²p comme des η²… C’est un bon rappel que chercher à reproduire les analyses permet parfois d’identifier des imprécisions (et parfois même, des erreurs) dans les articles publiés ! En français, voici comment nous pourrions rédiger leurs résultats : « Nous avons réalisé une ANOVA 2 x 2 à mesures indépendantes sur la proportion de mots correctement rappelés en fonction du délai et de l’encodage supplémentaire. Nous avons trouvé un effet principal du délai, F(1, 116) = 26.44, p <.001, η²p =.19 : la proportion de mots correctement rappelés est supérieure après avoir dormi qu’après être resté éveillé. L’effet principal d’un encodage supplémentaire était lui aussi significatif, F(1, 116) = 140.26, p <.001, η²p =.55, avec une proportion de mots correctement rappelés supérieure sans encodage supplémentaire plutôt qu’avec. De façon plus critique, l’interaction entre le délai et l’encodage supplémentaire était significative, F(1, 116) = 9.86, p =.002, η²p =.08. Nous avons décomposé cette interaction en réalisant des tests post hoc avec la correction de Bonferroni. À l’exception de la différence de proportion de mots correctement rappelés entre les conditions sommeil et éveil sans encodage supplémentaire (t = 1.42, pBonf =.959), toutes les différences étaient significatives (ts ≥ 4.74, ps 16/32 HPS3U34 – Méthodes et statistiques pour psychologues <.001). De façon critique, l’effet de l’encodage supplémentaire était plus large après être resté éveillé (t = 10.60, p <.001) qu’après avoir dormi (t = 6.15, p <.001). » Plans factoriels à mesures répétées Maintenant que nous avons vu l’ANOVA factorielle à mesures indépendantes, voyons l’ANOVA factorielle à mesures répétées. Nous allons utiliser les données de l’expérience 1 de Heycke et Gawronski (2020). Les données : Heycke & Gawronski (2020, Experiment 1) Description de l’expérience 1 de Heycke et Gawronski (simplifiée) Dans les CM 8-9, nous avons déjà abordé l’effet de conditionnement évaluatif (en parlant des données de Bading et al.) : c’est un changement de l’évaluation d’un stimulus neutre suite à sa présentation avec des stimuli positifs ou négatifs. Dans la littérature sur le conditionnement évaluatif, les stimuli neutres sont appelés CS pour Conditioned Stimuli, et les stimuli valencés sont appelés US pour Unconditioned Stimuli. Heycke et Gawronski ont cherché à tester la contribution de la simple co-occurrence entre les stimuli (un CS et un US) et des informations relationnelles dans l’effet de conditionnement évaluatif (leurs stimuli et données sont disponibles sur l’Open Science Framework : https://osf.io/7ac4d/). Ils ont adapté une procédure consistant, en plus de présenter des CS avec des US (positifs ou négatifs), à qualifier la relation entre les CS et les US. Dans leur procédure, les CS étaient des images de produits pharmaceutiques inconnus (e.g., « Shimeron »). Les US étaient des images, positives ou négatives, représentant des conditions de santé (e.g., être en bonne santé, ce qui est positif ; avoir des caries, ce qui est négatif). En plus de faire varier la valence des US, Heycke et Gawronski ont manipulé l’information relationnelle : les CSs étaient présentés comme causant ou comme évitant les états de santé représentés dans les US. Heycke et Gawronski ont recruté 111 participants (95 participants avec des données exploitables), et tous voyaient les stimuli suivants : - 3 CS qui causent des US positifs - 3 CS qui causent des US négatifs - 3 CS qui évitent des US positifs - 3 CS qui évitent des US négatifs. 17/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) Ces quatre conditions résultent du croisement de deux VI à deux modalités manipulées en intra-participants : - Valence des US : positive ou négative - Information relationnelle : cause ou évite Heycke et Gawronski ont supposé que lorsque les produits pharmaceutiques (CS) ‘causent’ des états de santé, ils devraient être évalués positivement s’ils causent des états de santé positifs et négativement s’ils causent des états de santé négatifs. À l’inverse, lorsque les CS ‘évitent’ des états de santé, ils devraient être évalués négativement s’ils évitent des états de santé positifs, et positivement s’ils évitent des états de santé négatifs. Après avoir vu de façon répétée la présentation des triplets ‘[CS] – [Information relationnelle] – [US]’ dans une phase d’apprentissage (chaque triplet était présenté 8 fois en tout, pour une durée de trois secondes à chaque fois), une tâche d’évaluation des CS était administrée : chaque CS était présenté seul dans un ordre aléatoire sans limite de temps avec la tâche de l’évaluation sur une échelle de Likert entre 1 ‘très négatif’ et 7 ‘très positif’ (le design de Heycke et Gawronski est un peu plus complexe, mais nous en resterons à ce niveau de description pour le cours). Heycke et Gawronski ont calculé un score d’évaluation pour chaque participant en faisant la moyenne des évaluations à chaque niveau du 2 (Valence de l’US) x 2 (Information relationnelle). Ils ont ensuite réalisé une ANOVA 2 x 2 à mesures répétées sur le score d’évaluation. Ouvrons et regardons leurs données ! 1. Ouvrons les données de Heycke et Gawronski (fichier adapté pour le présent cours, intitulé ‘data_heycke_2020_factorial_rep_ANOVA.csv’) avec JASP (disponible dans l’espace AMeTICE du cours). Nous avons légèrement plus de participants que Heycke et Gawronski (99 au lieu de 95) car nous n’avons pas exclu 4 participants ne répondant pas aux critères d’inclusion (par facilité dans la création du jeu de données pour le présent cours). Une fois JASP ouvert, aller dans le menu principal (les trois traits bleus horizontaux en haut à gauche de l’écran) puis ‘Open’, ‘Computer’, ‘Browse’ (et sélectionner le fichier). 2. Identifier les colonnes : - ‘ID’ correspond à l’identifiant des participants 18/32 HPS3U34 – Méthodes et statistiques pour psychologues - Les quatre colonnes qui suivent présentent les scores d’évaluation dans chaque condition du 2 x 2 : o ‘pos_causes’ présente les scores d’évaluations pour les produits pharmaceutiques présentés comme causant des états de santé positifs o ‘pos_prevents’ présente les scores d’évaluations pour les produits pharmaceutiques présentés comme évitant des états de santé positifs o ‘neg_causes’ présente les scores d’évaluations pour les produits pharmaceutiques présentés comme causant des états de santé négatifs o ‘neg_prevents’ présente les scores d’évaluations pour les produits pharmaceutiques présentés comme évitant des états de santé négatifs. 3. On peut vouloir vérifier que nous avons bien le même nombre d’observations dans chaque colonne (ce qui devrait être le cas, vu le plan à mesures répétées). On pourra alors aller dans ‘Descriptives’ et glisser les scores d’évaluations des quatre conditions dans ‘Variables’. Pour avoir un aperçu de la distribution des données dans chaque condition résultant du croisement des deux VI, on ira dans l’onglet ‘Statistics’ et on cochera ‘Skewness’, ‘Kurtosis’, et ‘Shapiro-Wilk test’. Pour visualiser les distributions, aller dans l’onglet ‘Basic plots’ et cocher ‘Distribution plots’ et ‘Display density’. Les graphiques Q- Q pourront être générés en cliquant sur ‘Q-Q plots’. Nous voyons que les valeurs de skewness et de kurtosis sont plutôt réduites, mais que les tests de Shapiro-Wilk, la visualisation des distributions, et les graphiques Q-Q suggèrent des déviations à la normalité des distributions. Réaliser l’ANOVA factorielle à mesures répétées 1. Pour réaliser l’ANOVA factorielle à mesures répétées, aller dans ‘ANOVA’, puis dans ‘Classical’, cliquer sur ‘Repeated measures ANOVA.’ 2. Pour les ANOVAs à mesures répétées, nous pouvons indiquer le nombre de VI (ou factors) dans le champ ‘Repeated Measures Factors’. Cliquer sur ‘RM Factor 1’ pour le renommer en ‘valence’. Nous pouvons aussi renommer les modalités (niveaux, ou levels) – ‘Level 1’ pourra être ‘positive’ et ‘Level 2’ pourra être ‘negative’ (ce sont uniquement des labels pour se repérer dans les analyses). Puisque nous avons une deuxième VI, il faudra cliquer sur ‘New Factor’ que nous pourrons nommer ‘relation’ (puis cliquer sur Entrée). Nous 19/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) pourrons renommer ‘Level 1’ en ‘cause’ et ‘Level 2’ en ‘évite’. L’ordre des niveaux des deux VI n’est pas important ici, les VI étant nominales. 3. Le champ ‘Repeated Measures Cells’ s’est mis à jour avec les informations passées dans Repeated Measures Factors’ : il y a quatre cellules, chacune représentant un niveau du croisement des deux VI à deux modalités. Déplacer les colonnes dans la cellule appropriée : ‘pos_causes’ dans ‘positive,cause’, ‘pos_prevents’ dans ‘positive,évite’, ‘neg_causes’ dans ‘negative,cause’, et ‘neg_prevents’ dans ‘negative,évite’. La table de l’ANOVA se met à jour pour calculer et présenter les résultats. 4. Nous avons déjà évalué la normalité des distributions. Les deux VI étant intra-participants mais ayant uniquement deux modalités, nous n’avons pas à vérifier la sphéricité. 5. Remarquez la présence de deux tables d’ANOVA : ‘Within Subjects Effects’ et ‘Between Subjects Effects’. La table ‘Within Subjects Effects’ présente les effets principaux des deux VI intra-participants (Valence des US et Relation) ainsi que l’interaction Valence des US*Relation (et les résidus associés à chaque effet). La table ‘Between Subjects Effects’ présente uniquement les résidus, prenant comme source les variations inter-participants. Aucun F n’est présenté dans la table ‘Between Subjects Effects’ car nous n’avons pas de VI manipulée en inter-groupes. Dans ‘Display’, cocher ‘Display statistics’, ‘Estimates of effect size’ et ‘partial η²’ (la situation sera différente pour l’ANOVA mixte, nous la verrons un peu plus loin). 6. Dans la table de l’ANOVA (‘Within Subjects Effects), trois valeurs F sont présentées : - La valeur F pour l’effet principal de Valence des US sur les scores d’évaluations. L’effet est significatif, F(1, 98) = 25.71, p <.001, η²p =.208. En cliquant sur le volet ‘Marginal Means’ et en déplaçant ‘valence’ dans le champ de droite, nous obtenons les moyennes marginales de l’effet de Valence des US sur les scores d’évaluations (à travers les niveaux de Relation). Nous voyons que les CS présentés avec des US positifs sont évalués plus positivement (M = 4.21) que les CS présentés avec des US négatifs (M = 3.65). - La valeur F pour l’effet principal de Relation sur les scores d’évaluations. L’effet n’est pas statistiquement significatif, F(1, 98) = 2.03, p =.157, η²p =.02. En cliquant sur le volet ‘Marginal Means’ et en déplaçant ‘relation’ dans le champ de droite, nous obtenons les moyennes marginales de l’effet de Relation CS – US sur les scores d’évaluations (à travers 20/32 HPS3U34 – Méthodes et statistiques pour psychologues les niveaux de Valence des USs). Nous voyons que les évaluations sont similaires en condition ‘évite’ (M = 4.00) et en condition ‘cause’ (M = 3.86). - La valeur F pour l’effet d’interaction entre Valence des US et Relation sur les scores d’évaluations. L’effet est significatif, F(1, 98) = 120.86, p <.001, η²p =.552. Réaliser les tests post hoc 1. L’ANOVA montrant un effet significatif de l’interaction Valence des US*Relation, nous rejetons l’hypothèse d’absence d’interaction et acceptons l’hypothèse alternative d’interaction. Nous pouvons alors réaliser des tests post hoc afin de décomposer l’interaction dans des comparaisons par paires. On ira dans l’onglet ‘Post Hoc Tests’ (dans les options de l’ANOVA) et on déplacera ‘us * relation’ du champ de gauche vers le champ de droite. On cochera ‘Bonferroni’ dans ‘Correction’ pour que les valeurs p soient corrigées avec la correction de Bonferroni. Si on coche ‘Effect size’, nous aurons dans la table, en plus des statistiques t et du p corrigé, l’indice de taille d’effet d. Nous voyons que les six comparaisons multiples sont significatives. 2. Nous pourrons nous appuyer sur une figure (à réaliser dans le volet ‘Descriptive plots’ ou ‘Raincloud plots’) ou sur une table (à réaliser dans le volet ‘Marginal Means) pour aider à identifier le pattern des résultats. Particulièrement intéressant pour le présent test, nous voyons que l’effet de Valence des US se renversent en fonction des conditions de Relation. En condition ‘cause’ de Relation, nous voyons que les CS présentés avec des US positifs sont évalués plus positivement que les CS présentés avec des US négatifs. En condition ‘prevent’ de Relation, nous voyons que les CS présentés avec des US positifs sont évalués plus négativement que les CS présentés avec des US négatifs. Concluons sur les données de Heycke et Gawronski (2020) Pour rappel, Heycke et Gawronski cherchaient à voir si présenter une relation spécifique entre les CS et l’US qualifie l’effet de la valence des US sur les évaluations (du moins c’est l’hypothèse adaptée présentée dans ce cours). C’est une hypothèse d’interaction : l’effet de la valence des US sur les évaluations devrait se renverser lorsque la relation CS – US est assimilative (‘cause’) plutôt que contrastive (‘évite’). Vous pouvez essayer de représenter l’hypothèse d’une interaction dans un schéma. Il pourrait ressembler à celui-ci : 21/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) Les résultats que nous avons obtenus soutiennent l’hypothèse de renversement de Heycke et Gawronski. Rapporter les résultats aux normes APA Maintenant que les analyses ont été réalisées, il convient d’en rapporter les résultats. Voici par exemple comment Heycke et Gawronski (2020, p.111) les rapportent : 22/32 HPS3U34 – Méthodes et statistiques pour psychologues Notez que Heycke et Gawronski ont rapporté les eta-carrés généralisés (notés η²G dans le passage ci-dessus) et non pas les eta-carrés ou les eta-carrés partiels (une variante des eta-carrés que nous ne verrons pas dans le cadre de ce cours). Notez également que les auteurs ont réalisé des comparaisons multiples, mais apparemment sans corriger le seuil α ou les valeurs p, et uniquement les comparaisons multiples concernant les modérations sont rapportées (modération de l’effet de Valence des US sur les évaluations par Relation ; modération de l’effet de Relation sur les évaluations par Valence des US), qui sont les comparaisons les plus pertinentes ici (e.g., comparer pos_cause et neg_prevent n’est pas particulièrement pertinent). Notez enfin que, même si nous avons inclus 4 participants que Heycke et Gawronski ont exclus, les conclusions que nous pourrions tirer de nos analyses sont les mêmes que celles de Heycke et Gawronski. En français, voici comment nous pourrions rédiger les résultats : « Nous avons réalisé une ANOVA 2 x 2 à mesures répétées sur les scores d’évaluations en fonction de la valence des US et de la relation entre les CS et les US (voir Figure 1). Nous avons trouvé un effet principal de la valence des US, F(1, 98) = 25.71, p <.001, η²p =.208 : les scores d’évaluations étaient plus positifs pour les CS présentés avec des US positifs plutôt que négatifs. L’effet principal de la relation entre les CS et les US n’était pas statistiquement significatif, F(1, 98) = 2.03, p =.157, η²p =.02. De façon plus critique, l’interaction entre la valence des US et la relation entre les CS et les US était significative, F(1, 98) = 120.86, p <.001, η²p =.552. Nous avons décomposé cette interaction en réalisant des tests post hoc avec la correction de Bonferroni. Toutes les comparaisons étaient statistiquement significatives. En condition ‘cause’, les CS présentés avec des US positifs étaient évalués plus positivement (M = 5.05 ; SD = 1.27) que les CS présentés avec des US négatifs (M = 2.66 ; SD = 1.24), t = 11.96, pBonf <.001. En condition ‘évite’, les CS présentés avec des US positifs étaient évalués plus négativement (M = 3.37 ; SD = 1.32) que les CS présentés avec des US négatifs (M = 4.63 ; SD = 1.41), t = -6.32, pBonf <.001. Pour les CS présentés avec des US positifs, les évaluations étaient plus positives en condition ‘cause’ que ‘évite’, t = 8.70, pBonf <.001. Pour les CS présentés avec des US négatifs, les évaluations étaient plus positives en condition ‘évite’ que ‘cause’, t = -10.16, pBonf <.001. Figure 1. Scores d’évaluation en fonction de la valence des US et de la relation CS - US 23/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) Note. Les barres d’erreur représentent les intervalles de confiance à 95%. » Plans factoriels mixtes Enfin, voyons maintenant l’ANOVA mixte. Nous allons utiliser les données de l’expérience 2 de Pennycook et al. (2020). Les données : Pennycook et al. (2020, Study 2) Description de l’expérience 2 de Pennycook et al. (simplifiée) Pendant l’épidémie de Covid-19, Pennycook et al. ont cherché à savoir pourquoi les individus partagent de fausses informations à propos du Covid-19. Les chercheurs ont supposé que les individus ne pensent pas suffisamment à la justesse des informations quand ils décident de partager une information. Ils ont alors supposé qu’amener les individus à penser à la justesse des informations avant de considérer l’idée de partager des informations ou non en ligne pourrait diminuer l’intention de partager de fausses informations. Pour tester ces hypothèses, Pennycook et al. ont réalisé deux études – nous verrons une version simplifiée de leur seconde étude (leurs données et stimuli sont disponibles sur l’Open Science Framework : https://osf.io/7d3xh/). Dans cette étude, 856 participants (après application des critères d’inclusion et d’exclusion) ont été assignés à une des deux conditions suivantes : - En condition contrôle (428 participants), les participants voyaient 30 titres de journaux concernant le Covid-19, tous présentés avec une image et une source (comme le sont les 24/32 HPS3U34 – Méthodes et statistiques pour psychologues titres de journaux en ligne). 15 de ces titres étaient vrais, et 15 étaient faux. Les participants devaient indiquer dans quelle mesure ils partageraient ces titres de journaux en ligne sur une échelle de Likert en 6 points (1 : « très peu probable » ; 6 : « extrêmement probable »). - En condition « traitement » (428 participants), les participants évaluaient la justesse d’un seul titre de journal (sans lien avec le Covid-19), les auteurs prétextant un prétest. Les participants ont ensuite réalisé la même tâche qu’en condition contrôle. Pennycook et al. ont collecté d’autres données que nous ne décrivons pas car nous ne les analyserons pas. Vous voyez peut-être déjà qu’il y a deux VI à deux modalités, une manipulée en inter- groupes, et une manipulée en intra-participants : - Vérité des titres de journaux : vrai ou faux - Condition : contrôle ou traitement Pennycook et al. n’ont pas calculé de scores d’intention de partage (ils ont utilisé des analyses plus complexes que les ANOVAs, qui sont des modèles de régression linéaire mixtes – nous ne les verrons pas dans ce cours). Pour le présent cours, nous avons calculé les moyennes d’intention de partage des titres de journaux pour chaque participant. Chaque participant, en condition contrôle ou de traitement, a deux scores : un score d’intention de partage des titres de journaux factuellement faux et un score d’intention de partage des titres de journaux factuellement vrais. Ouvrons et regardons leurs données ! 1. Ouvrons les données de Pennycook et al. (fichier adapté pour le présent cours, intitulé ‘data_pennycook_2020_factorial_mixed_ANOVA.csv’) avec JASP (disponible dans l’espace AMeTICE du cours). Une fois JASP ouvert, aller dans le menu principal (les trois traits bleus horizontaux en haut à gauche de l’écran) puis ‘Open’, ‘Computer’, ‘Browse’ (et sélectionner le fichier). 2. Identifier les colonnes : - ‘ID’ correspond à l’identifiant des participants - ‘cond’ correspond à la condition à laquelle les participants ont été assignés : ‘contrôle’ pour les participants en condition contrôle (par défaut, l’encodage des accents fait que la modalité est codée en ‘contr.le’ – pour le changer, cliquer sur le nom de la colonne puis, 25/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) dans la fenêtre qui s’affiche, corriger ‘contr.le’ en ‘controle') et ‘traitement’ pour les participants en condition ‘traitement’. - Les deux colonnes qui suivent présentent les scores d’intention de partage dans chaque condition de la VI vérité : o ‘false’ présente les scores d’intention de partage des titres de journaux factuellement faux o ‘true’ présente les scores d’intention de partage des titres de journaux factuellement vrais Note. Le jeu de données est en format ‘large’ pour la VI intra-participants : les scores sont présentés sur deux colonnes pour chaque participant. Dans certains logiciels (comme R), les données doivent être représentées dans un format ‘long’ – c’est-à-dire qu’il y aurait eu autant de lignes que de scores pour chaque participants, avec les scores présentés dans une seule colonne et les deux VI présentés dans deux colonnes séparées (avec ID et cond se répétant à l’identique pour chaque participant et ‘vérité’ prenant la valeur de la modalité concernée). 3. On peut vouloir vérifier que nous avons bien le même nombre d’observations dans chaque colonne. On pourra alors aller dans ‘Descriptives’ et glisser les scores d’évaluations des deux conditions de la VI intra-participants dans ‘Variables’ et ‘cond’ (la VI inter-groupes) dans ‘Split’. Cocher ‘Transpose descriptive variables’ pour que la table des statistiques descriptives soit présentée dans un format moins long mais plus large (peut être utile dans certains cas pour faciliter la lecture de la table). Nous voyons qu’il y a deux données manquantes en condition contrôle (une en ‘false’ et une en ‘vrai’). Le plan est donc légèrement déséquilibré (427 participants en condition contrôle et 428 en condition de traitement), mais cela n’affecte pas la façon de conduire l’ANOVA ni l’interprétation des sorties du logiciel. 4. Pour avoir un aperçu de la distribution des données dans chaque condition résultant du croisement des deux VI, on ira dans l’onglet ‘Statistics’ et on cochera ‘Skewness’, ‘Kurtosis’, et ‘Shapiro-Wilk test’. Pour visualiser les distributions, aller dans l’onglet ‘Basic plots’ et cocher ‘Distribution plots’ et ‘Display density’. Les graphiques Q-Q pourront être générés en cliquant sur ‘Q-Q plots’. Nous voyons que les valeurs de skewness et de kurtosis sont plutôt réduites, mais que les tests de Shapiro-Wilk, la visualisation des 26/32 HPS3U34 – Méthodes et statistiques pour psychologues distributions, et les graphiques Q-Q suggèrent des déviations à la normalité des distributions. Réaliser l’ANOVA mixte 1. Pour réaliser l’ANOVA mixte, on fera ‘comme si’ on allait réaliser une ANOVA à mesures répétées. Aller dans ‘ANOVA’, puis dans ‘Classical’, et cliquer sur ‘Repeated measures ANOVA.’ 2. Nous avons deux VI : une intra-participants, et une inter-groupes. Commençons par spécifier la VI intra-participants. Dans le champ ‘Repeated Measures Factors’, cliquer sur ‘RM Factor 1’ pour le renommer en ‘vérité’. Nous pouvons aussi renommer les modalités (niveaux, ou levels) – ‘Level 1’ pourra être ‘vrai’ et ‘Level 2’ pourra être ‘faux’ (ce sont uniquement des labels pour se repérer dans les analyses). On remarquera que la procédure est jusqu’ici très similaire à celle vue pour l’ANOVA à un facteur à mesures répétées. 3. Le champ ‘Repeated Measures Cells’ s’est mis à jour avec les informations passées dans Repeated Measures Factors’ : il y a deux cellules, chacune représentant un niveau de la VI intra-participants. Déplacer les colonnes dans la cellule appropriée : ‘true’ dans ‘vrai’ et ‘false dans ‘faux’. La table de l’ANOVA ‘Within Subjects Effects’ se met à jour pour calculer et présenter les résultats. 4. Le champ ‘Between Subject Factors’ est vide – c’est ici que nous allons ajouter la VI manipulée en inter-groupes, qui est ‘cond’. La seconde table de l’ANOVA, ‘Between Subjects Effects’ se met à jour. 5. Nous avons déjà évalué la normalité des distributions, et nous avons vu que le prérequis de normalité n’est pas respecté. Puisque nous avons une VI inter-groupes, nous devons vérifier l’homogénéité des variances de la VI ‘cond’. Deux tests de Levene seront réalisés : un en modalité ‘false’ et un autre en modalité ‘true’ de Vérité. Aller dans ‘Assumption Checks’ et cocher ‘Homogeneity tests’. Une nouvelle table, présentant les résultats des deux tests de Levene, apparaît. Nous lisons que les valeurs p sont supérieures à.05 – nous ne rejetons donc pas l’hypothèse nulle d’égalité des variances des scores d’intention de partage sous les deux modalités de Condition à chaque niveau de Vérité. 6. Notez à nouveau la présence de deux tables d’ANOVA : ‘Within Subjects Effects’ et ‘Between Subjects Effects’. La table ‘Within Subjects Effects’ présente l’effet principal de 27/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) la VI ‘vérité’ et l’interaction Vérité*Condition. La table ‘Between Subjects Effects’ présente maintenant le test de l’effet principal de la VI ‘cond’. Dans ‘Display’, cocher ‘Display statistics’, ‘Estimates of effect size’ et ‘partial η²’ pour obtenir les tailles des effets. 7. Dans la table de l’ANOVA ‘Within Subjects Effects, deux valeurs F sont présentées : - La valeur F pour l’effet principal de ‘vérité’ sur les scores d’intention de partage. L’effet est significatif, F(1, 853) = 47.21, p <.001, η²p =.052. En cliquant sur le volet ‘Marginal Means’ et en déplaçant ‘vérité’ dans le champ de droite, nous obtenons les moyennes marginales de l’effet de Vérité sur les scores d’intention de partage (à travers les niveaux de Condition). Nous voyons que les scores d’intention de partage sont plus élevés pour les titres de journaux factuellement vrais (M = 3.53) plutôt que factuellement faux (M = 3.35). - La valeur F pour l’effet d’interaction entre Vérité et Condition est lui aussi significatif, F(1, 853) = 10.51, p =.001, η²p =.012. Nous y reviendrons lorsque nous réaliserons les tests post hoc. 8. Dans la table de l’ANOVA ‘Between Subjects Effects, une valeur F est présentée : - La valeur F pour l’effet principal de Condition sur les scores d’évaluations n’est pas significatif, F(1, 853) = 0.87, p =.352, η²p =.001. En cliquant sur le volet ‘Marginal Means’ et en déplaçant ‘cond’ dans le champ de droite, nous obtenons les moyennes marginales de l’effet de Condition sur les scores d’intention de partage (à travers les niveaux de Vérité). Nous voyons que les scores d’intention de partage sont similaires (ou plutôt : ne sont pas significativement différents) en condition contrôle (M = 3.40) et en condition de traitement (M = 3.49). Réaliser les tests post hoc 5. L’ANOVA montrant un effet significatif de l’interaction Vérité*Condition sur les intentions de partage, nous rejetons l’hypothèse d’absence d’interaction et acceptons l’hypothèse alternative d’interaction. Nous pouvons alors réaliser des tests post hoc afin de décomposer l’interaction dans des comparaisons par paires. On ira dans l’onglet ‘Post Hoc Tests’ (dans les options de l’ANOVA) et on déplacera ‘cond * vérité’ du champ de gauche vers le champ de droite. On cochera ‘Bonferroni’ dans ‘Correction’ pour que les valeurs p soient corrigées avec la correction de Bonferroni. Si on coche ‘Effect size’, nous aurons dans la table, en plus des statistiques t et du p corrigé, l’indice de taille d’effet d. Nous 28/32 HPS3U34 – Méthodes et statistiques pour psychologues voyons que seules deux des six comparaisons multiples sont significatives : la comparaison des scores d’intention de partage entre ‘traitement, vrai’ et ‘traitement, faux’ et entre ‘traitement, vrai’ et ‘contrôle, faux’. 6. Nous pourrons nous appuyer sur une figure (à réaliser dans le volet ‘Descriptive plots’ ou ‘Raincloud plots’) ou sur une table (à réaliser dans le volet ‘Marginal Means) pour aider à identifier le pattern des résultats. De façon particulièrement intéressante pour le présent test, nous voyons que l’avantage de scores d’intention de partage entre les titres vrais est faux est plus élevé (et significatif) en condition de traitement qu’en condition contrôle (où cet effet n’est pas significatif). Autrement dit, on trouve un effet simple significatif de la vérité en condition de traitement, mais l’effet simple de la vérité en condition contrôle n’est pas significatif. Concluons sur les données de Pennycook et al. Pour rappel, Pennycook et al. cherchaient à tester si le partage de fausses informations liées au Covid-19 est en partie dû au fait que les individus ne pensent pas à la justesse des informations au moment de partager une information. Dans leur seconde étude, ils ont testé si une intervention pour que les participants pensent à la vérité avant de déclarer leur intention de partager des titres de journaux sur le Covid-19 factuellement vrais et faux influençait l’intention de partager des titres de journaux vrais et faux. Dans les analyses que nous avons réalisées, nous avons constaté une interaction significative entre la vérité des titres de journaux et la condition expérimentale : en condition contrôle, l’intention de partager les titres de journaux ne diffère pas significativement en fonction de la vérité des titres de journaux. En condition de traitement, l’intention de partager les titres de journaux est significativement supérieure pour les titres de journaux factuellement vrais que pour les titres de journaux factuellement faux. Conformément aux hypothèses des chercheurs, il semble bien que, sans incitation à penser à la justesse des informations, les individus partagent indifféremment des informations vraies et fausses (attention toutefois à ne pas accepter l’hypothèse nulle). Inciter les participants à penser à la justesse des informations pourrait amener les individus à considérer la justesse des informations avant de décider de les partager, et à prendre en compte la justesse dans la décision de partager ou non les informations. Notez toutefois que l’étude porte sur les intentions de partager les informations plutôt que sur leur partage effectif. Les intentions 29/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) comportementales ne sont pas toujours fortement corrélées aux comportements réels – la conclusion au niveau des intentions n’est qu’un indice de ce qui pourrait se passer au niveau des comportements réels (sur les comportements de partage effectifs, voir par exemple Pennycook et al., 2021). Rapporter les résultats aux normes APA Maintenant que les analyses ont été réalisées, il convient d’en rapporter les résultats. Voici comment nous pourrions les rédiger : « Nous avons réalisé une ANOVA 2 x 2 mixte sur les scores d’intention de partage en fonction de la vérité des titres de journaux et de la condition expérimentale. Nous avons trouvé un effet principal de la vérité des titres de journaux, F(1, 853) = 47.21, p <.001, η²p =.052 : les scores d’intention de partage étaient plus élevés pour les titres de journaux vrais plutôt que faux. L’effet principal de la condition expérimentale n’était pas statistiquement significatif, F(1, 853) = 0.87, p =.352, η²p =.001. De façon plus critique, l’interaction entre la vérité des titres de journaux et la condition expérimentale était significative, F(1, 853) = 10.51, p =.001, η²p =.012. Nous avons décomposé cette interaction en réalisant des tests post hoc avec la correction de Bonferroni. En condition contrôle, l’effet de la vérité des titres de journaux sur les scores d’intention de partage n’était pas significatif, t = 2.57, pBonf =.063. En condition expérimentale, les scores d’intention de partage étaient significativement plus élevés pour les titres de journaux factuellement vrais (M = 3.62 ; SD = 1.43) plutôt que factuellement faux (M = 3.35 ; SD = 1.50), t = 7.16, pBonf <.001. L’effet de la condition expérimentale n’était pas significatif sur les scores d’intention de partage de titres factuellement vrais, t = -1.74, pBonf =.493, ni de titres factuellement faux, t = -0.06, pBonf = 1. » 30/32 HPS3U34 – Méthodes et statistiques pour psychologues Références citées dans le cours Abel, M., Nickl, A., Reßle, A., Unger, C., & Bäuml, K.-H., T. (2023). The rôle of sleep for memory consolidation: Does sleep protect memories from retroactive interference? Psychonomic Bulletin & Review. https://doi.org/10.3758/s13423-023-02264-8 Bikos, L. H. (2023). Recentering psych stats. https://lhbikos.github.io/ReCenterPsychStats/ Caldwell, A. R., Lakens, D., Parlett-Pelleriti, C. M., Prochilo, G., & Aust, F. (2022). Power analysis with Superpower. https://aaroncaldwell.us/SuperpowerBook/ Heycke, T., & Gawronski, B. (2020). Co-occurrence and relational information in evaluative learning: A multinomial modeling approach. Journal of Experimental Psychology: General, 149(1), 104–124. https://doi.org/10.1037/xge0000620 Lakens, D., & Caldwell, A. R. (2021). Simulation-Based power analysis for factorial analysis of variance designs. Advances in Methods and Practices in Psychological Science, 4(1), 251524592095150. https://doi.org/10.1177/2515245920951503 Navarro, D. J. (2022). Leaning statistics with R – A tutorial for psychology students and other beginners. Open Education Resource (OER) LibreTexts Project. https://stats.libretexts.org/Bookshelves/Applied_Statistics/Learning_Statistics_with_R_- _A_tutorial_for_Psychology_Students_and_other_Beginners_(Navarro) Pennycook, G., McPhetres, J., Zhang, Y., Lu, J. G., & Rand, D. G. (2020). Fighting COVID-19 Misinformation on Social Media: Experimental Evidence for a Scalable Accuracy-Nudge Intervention. Psychological Science, 31(7), 770–780. https://doi.org/10.1177/0956797620939054 Pennycook, G., Epstein, Z., Mosleh, M., Arechar, A. A., Eckles, D., & Rand, D. G. (2021). Shifting attention to accuracy can reduce misinformation online. Nature, 592(7855), 590–595. https://doi.org/10.1038/s41586-021-03344-2 Références pour aller plus loin Bikos, L. H. (2023). Recentering psych stats. https://lhbikos.github.io/ReCenterPsychStats/ Howell, D.C. (2008). Méthodes statistiques en sciences humaines (traduit par Y. Bestgen, M. Rogier, & V. Yzerbyt; 2nde édition). De Boeck. Meier, L. (2023). ANOVA and mixed models: A short introduction using R. CRC Press. 31/32 HPS3U34 – CM 10-11-12 : Tester des effets principaux, d’interaction, et simples dans les différents plans factoriels (mesures indépendantes, répétées, et mixtes) Navarro, D. J. (2022). Leaning statistics with R – A tutorial for psychology students and other beginners. Open Education Resource (OER) LibreTexts Project. https://stats.libretexts.org/Bookshelves/Applied_Statistics/Learning_Statistics_with_R_- _A_tutorial_for_Psychology_Students_and_other_Beginners_(Navarro) 32/32