Méthode Quantitatives de la Recherche en Psychologie PDF
Document Details
Uploaded by PowerfulHeliotrope5423
Université Paris 8
B. Bardin
Tags
Related
- CM4 - Recherche et QoL PDF
- Einführung in die empirisch-wissenschaftliche Psychologie (IU Internationale Hochschule) (PDF)
- Cours 1: Psychologie du développement - PSY1095-A PDF
- Méthode de recueil des données PDF
- L2 Psychologie Méthodologie (2024-2025) PDF
- Méthodes de recherche en psychologie 2022-2023 PDF
Summary
Ce document présente une introduction aux méthodes quantitatives en psychologie. Il couvre des concepts tels que la formulation d'hypothèses, le choix des variables, les statistiques descriptives et inférentielles, et les méthodes de régression.
Full Transcript
*UE1 -- Méthode et recherche B. Bardin* Méthode quantitatives de la recherche en psychologie **PREAMBULE -- RAPPEL DES BASES FONDAMENTALES** L'idée est de **bien circonscrire**, dès le départ, le **périmètre de la recherche** sans se laisser emporter par les questionnements connexes qui sont, cer...
*UE1 -- Méthode et recherche B. Bardin* Méthode quantitatives de la recherche en psychologie **PREAMBULE -- RAPPEL DES BASES FONDAMENTALES** L'idée est de **bien circonscrire**, dès le départ, le **périmètre de la recherche** sans se laisser emporter par les questionnements connexes qui sont, certes stimulants, mais peuvent entrainer une **dérive du travail** de recherche loin des préoccupations de départ du chercheur. Il faut que le chercheur débutant accepte cette frustration de ne **pas pouvoir explorer** toutes les **questions** qui lui viennent à l'esprit dès la revue de la question et garde à **l'esprit l'objectifs de départ tel qu'il a été défini**. **[La revus littéraire]** : permet de **prendre connaissance** des **travaux** menés jusque-là. **[La question de départ]** : à partir des **revus étudié**, le jeune chercheur pourra **définir une question de départ**, une **problématique qui aide la discipline à se dvp**. **[Les variables étudiées]** : du choix de ces **variables et de leur nature** découlera le **protocole expérimental** conçu sur la base **[hypothético opérationnelle]** (l'hypothèse générale) *Par exemple, si l'hypothèse générale est : « les fumeurs ont une attitude plus positive que les non-fumeurs à l'égard du tabac », alors l'hypothèse opérationnelle pourrait être « les fumeurs ont des scores à l'échelle d'attitude à l'égard du tabac supérieure aux scores des non-fumeurs ».* **[Attention une hypothèse doit assurer une différence]** !! Énoncer une **hypothèse opérationnelle** à diverses **conséquences** qu'il faut peser avant toute expérimentation. Le choix des **variables et leur nature** **contraint** non seulement les **traitements stat** qui peuvent être mis en œuvre mais, plus en amont, le choix du **terrain de recherche et de l'échantillon**. Ainsi, on gardera à l'esprit cette citation de Jean Dion 'Les chiffres sont aux analystes ce que les lampadaires sont aux ivrognes : ils fournissent bien plus un appui qu\'un éclairage.'' **DIFFÉRENCE ENTRE STATISTIQUES DESCRIPTIVES ET INFÉRENTIELLES, RAPPEL** Différence entre **[stat descriptives et inférentielles]** - **[Stat descriptives :]** au niveau de **l'échantillon**. Elles permettent d'obtenir des **graphiques, des moyennes**, des indices de dispersion au **niveau de l'échantillon étudié**. Comme c'est au niveau de l'échantillon, une **erreur d'échantillonnage** pourrait entrainer des **données erronées**. A ce niveau il n'est **pas possible de conclure** - **[Les stat inférentielles]** : **généraliser** les résultats de **l'échantillon** (niveau descriptif) au niveau de la population (niveau inférentiel). Dès lors, on soulignera **l'importance d'avoir recours à un échantillon** qui soit **représentatif de la population** que l'on souhaite étudier **LES VARIABLES ET LEUR NATURE** I. **[Les variables dépendantes et indépendantes ]** Les variables ont **au minimum 2 modalités** pour que les variations de ces modalités - **Entrainent** potentiellement **un effet** sur les **variables dépendantes** - **Varient** au regard des **modalités** d'une **variable indépendante**. Les modalités sont donc les **différentes valeurs** que **peuvent prendre les variables** **[Une variable dépendant]** (VD) : **dépend** d'un autre **élément**. Elle dépend des **valeurs prises** par les différentes **modalités de la VI** **[Variable indépendante]** (VI) : ne **dépend** **d'aucun autre élément** dans le **protocole expérimentale**. C'est une variable dont le chercheur veut **étudier les effets** sur une **autre variable** (dépendante). ATTENTION -- Dans un même protocole expérimental, une **variable** peut être considérée pour une analyse comme une **variable indépendante** alors que pour une **autre analyse** elle sera considérée comme une variable **dépendante**. → *Par exemple, le chercheur peut considérer le comportement tabagique (fumeurs versus non fumeurs) comme une variable indépendante et étudier l'effet de ce comportement sur l'attitude à l'égard du tabac (score d'attitude).* Cette attitude serait alors la **variable dépendante** puisqu'elle prendrait des **valeurs différentes** selon le **comportement tabagique**. Pour autant, le même chercheur peut, dans la même étude, se questionner quant à **l'effet de l'attitude envers le tabac** (**[variable indépendante]**) sur l'attitude à l'égard de la loi anti- tabac (score d'attitude) comme **variable dépendante**. Deux choses sont à souligner. - D'une part, une **même variable** peut être **considérée** soit comme une **variable indépendante** ou **variable dépendante** en fonction des **hypothèses** du chercheur. - D'autre part, une **variable exprimée** sous forme de **score** peut être une **variable indépendante**. Si on considère un élément comme étant une variable mais que celui-ci n'a **pas au moins deux modalités** alors ce **n'est pas une variable** et il ne peut **pas y avoir d'hypothèse formulée**. a. [Les différents types de variables indépendantes ] - **Variables indépendantes invoquées VS indépendantes provoquées** Les **[variables indépendantes invoquées]** sont des variables qui **préexistent à la recherche**, elles sont le plus souvent des **catégories naturelles**. *Par exemple, si le chercheur veut étudier l'effet de la Météo sur l'humeur des étudiants en cours de psychologie, il est contraint par le temps en lui-même. Les modalités de cette variable pourraient donc être de deux ordres : soit il fait beau, soit il ne fait pas beau*. Il n'est **pas possible** pour le chercheur de **modifier ces modalités**. Il en est de même pour une variable telle que le **comportement** tabagique. *Soit un individu fume soit il ne fume pas et l'on comprendra aisément que, pour des raisons éthiques, on ne puisse pas demander à un non-fumeur de se mettre à fumer*. *D'autres VI invoquées sont couramment étudiées par les chercheurs en psychologie tels que le sexe, l'âge, l'origine ethnique, la catégorie socioprofessionnelle, etc.* Les **[variables indépendantes provoquées]** (ou manipulées) ne **préexistent pas à la recherche**. C'est le chercheur qui **va les créer** afin **d'étudier leurs effets** sur les **variables dépendantes**. *Reprenons l'exemple de l'effet de la météo sur l'humeur des étudiants en cours de psychologie. Le chercheur peut finalement trouver qu'il est arbitraire de dire si tel ou tel « météo » correspond à un beau temps ou non ou encore penser que d'autres facteurs pourraient modifier l'effet de la météo sur l'humeur (par exemple, s'il pleut, qu'il fait froid mais qu'il y a un magnifique arc-en-ciel doit-on alors considérer que ce temps aura le même effet que le pluie et le froid sans arc-en-ciel ?).* *Ce chercheur, rigoureux, préférera alors organiser un cours de psychologie dans une salle aveugle et faire varier lui-même la température des lieux*. Il s'agit donc bien dans ce cas d'une **variable provoquée par le chercheur**. - **Les groupes appariés VS indépendants** Dans les **protocoles expérimentaux**, on peut trouver des **[variables indépendantes « intra]** » et des **[variables]** **[indépendantes « inter ».]** Elles se distinguent par **l'opérationnalisation des hypothèses**. Une **[variable « inter »]** est considérée comme telle lorsqu'elle est **étudiée par le biais de comparaison** d'au moins de **deux groupes d'individus**. Ces **catégories** (modalités de la variable) sont **exclusives** les unes des autres. On parle alors de **groupes indépendants**. *Par exemple, le « comportement tabagique » est une variable « inter » à deux modalités (fumeurs et non-fumeurs). Au moment précis de la recherche, un individu ne peut pas être fumeur et simultanément non-fumeur.* **[Une variable « intra »]** est considérée comme telle lorsque **les mêmes individus** (groupes appariés) réalisent **plusieurs fois la même** **mesure** à **différents temps**. *Par exemple, il s'agira de mesurer de façon répétée dans le temps la dépendance nicotinique d'individus en servage tabagique. Les modalités de cette variable « intra » seront alors les différents temps de mesure.* ATTENTION -- Il est très important de **pouvoir distinguer une variable « inter** » (ou des groupes indépendants) d'une **variable « intra »** (ou des groupes appariés) car cela **conditionne les tests statistiques** à mettre en œuvre. - **Les variables nominale, ordinale et d'intervalle** Les variables peuvent être - **Nominale**, - **Ordinale** - **D'intervalle** (ce dernier type de variable peut également prendre les appellations de « continue » ou « numérique »). La **nature des variables** détermine les **tests statistiques** à mettre en **œuvre** ; il est donc important de bien les **définir et d'anticiper** que le choix de telle ou telle variable dans le **protocole expérimental** aura un impact sur le traitement des données. - **[La variable nominal]** : C'est **une variable qualitative**. Les **modalités** d'une **variable nominale** ne sont que des **catégories sans valeur numérique**. Il n'y a **pas de notion d'ordre** entre les différentes modalités de la variable. *Il peut s'agir du **sexe** (masculin ou féminin), de la **catégorie socio-professionnelle** (artisan, employé, fonctionnaire, cadre, etc.) de la couleur des cheveux des participants (blond, brun, roux), du comportement tabagique (fumeur, non-fumeur, ex-fumeurs), d'un traitement (avoir suivi une thérapie ou ne pas l'avoir suivi), etc.* ***LES STATISTIQUES DESCRIPTIVES POSSIBLES AVEC DES VARIABLES NOMINALES*** Il est possible à partir de ce **type de variables** d'obtenir des effectifs, des fréquences, des pourcentages et le mode. Par exemple, pour la variable « sexe », nous pourrions résumer ces statistiques par le tableau ci-dessous pour une expérience comptant 20 individus (N=20). Le **mode est la modalité** la plus **représentée**, dans cet exemple, il s'agit des femmes (n=15 contre n=5 pour les hommes). - **[La variable ordinale]** : C'est une **variable qualitative**. Les modalités d'une variable ordinale ne sont que des catégories **sans valeur numérique**. Il y a une **notion d'ordre** entre les **différentes modalités** de la variable*. Il peut, par exemple, s'agir de la taille d'individu (petit, moyen, grand) ou encore de la fréquence d'entraînement à la course à pied d'un futur marathonien (rarement, régulièrement, souvent, très souvent).* ***LES STATISTIQUES DESCRIPTIVES POSSIBLES AVEC DES VARIABLES ORDINALES*** Il est possible à partir de ce type de variables d'obtenir, **comme pour les variables nominales**, des effectifs, des fréquences, des pourcentages et le mode. De plus, on peut également **définir la médiane**. La **médiane** correspond à la **valeur qui va permettre** de **diviser en deux parties l'effectif** **total** d'un échantillon. Par exemple, si pour la variable « taille » le chercheur a les effectifs suivants : petit (n=10), moyen (n=4) et grand (n=8). L'effectif total étant de N=24 le 12ième et le 13ième individus (centraux) se trouveront dans la **catégorie « moyen** » qui est, dès lors, la valeur de la médiane. Sur le même principe il est possible de définir les **quartiles, déciles**, etc. - **[La variable d'intervalle]** : Il s'agit d'une **variable dite numérique** (ou continue). Toutes les modalités de ce type de variables peuvent être **classées** et **l'écart entre chaque modalité est identique**. *Par exemple, il peut s'agir de la taille des individus exprimée en cm. Chaque modalité possible de la variable prise deux à deux (par exemple, 171 cm, 172 cm, 173 cm) a exactement le même écart soit 1 cm.* ***LES STATISTIQUES DESCRIPTIVES POSSIBLES AVEC DES VARIABLES D'INTERVALLES*** Il est possible d'étudier les **effectifs, fréquences, pourcentage, quartiles, mode et la médiane**. Mais également **l'indice de tendance centrale** utilisé dans **les tests d'hypothèses** : la **moyenne** et son **indice de dispersion l'écart-type.** Rappelons que **l'écart-type** représente la **dispersion des valeurs** de la **distribution** **autour** de sa **moyenne**. **Plus il est élevé**, plus la distribution « **s'étale** » autour de la **moyenne** ; plus il est faible, plus ces valeurs sont « ramassées » autour de la moyenne. La **variance** est un **autre indicateur** de **dispersion** qui va également permettre de caractériser la distribution ; **plus elle est proche de la valeur 0**, plus les **données sont proches de la moyenne**. Elle n'est autre que la **valeur de l'écart-type au carré**. IL est également **possible de calculer un coefficient** de **variation**. - **Retour sur les exemples** ATTENTION -- D'un point de vue rigoureux, les **échelles de type Likert** sont des **échelles ordinales**. Du point de vue pratique, très nombreux sont les chercheurs, et les publications, qui les considèrent comme des variables d'intervalles pour peu que les modalités (par exemple : pas du tout d'accord, assez d'accord, d'accord, totalement d'accord) soient remplacées par des valeurs tel que (1,2,3,4). L'énoncé de l'item est en général du type : Dans quelle mesure êtes- vous d'accord avec les propositions suivantes de 1 «pas du tout d'accord » à 4 « tout à fait d'accord ».) Le **choix des variables** entraîne des **conséquences** quant **aux traitements statistiques** qui pourront être réalisés. Il faut donc être très attentif au choix de ces dernières. **LE CHOIX DES VARIABLES ENTRAINE UN CHOIX DE TYPE DE TRAITEMENT STATISTIQUE** Les **tests statistiques** ont pour objet de **faire un choix entre deux hypothèses**. Une **hypothèse** formulée sur la **base de la littérature** et qui affirme une **différence de variabilité** de la **[variable dépendante]** au regard des **[modalités de la variable indépendante]**. Elle est appelée **[hypothèse alternative]** (H1). Encore une fois, son appellation parle d'elle-même, cette hypothèse est une **alternative à l'hypothèse nulle** (H0), c\'est-à-dire l'hypothèse d'une l'absence de différence. Le test statistique dit « d'hypothèse » vise donc à faire un choix entre **hypothèse alternative et hypothèse nulle**. Lorsque l'hypothèse alternative est retenue, on dit alors que **l'on rejette l'hypothèse nulle**. **Attention** ! On n'accepte jamais H0. Il existe **deux types de tests** : - **[Les tests paramétriques]** - **[Les tests non paramétriques]**, Ils ont chacun des avantages et des inconvénients. Leur mise en œuvre est **fortement dépendante du protocole** **expérimental** et de la **distribution des données**. Ce qui les distingue est la prise en compte ou non des paramètres de la population dont est issu l'échantillon. I. **[Les tests non-paramétriques ]** Comme leur nom l'indique, ces tests permettent de **tester des hypothèses** en **dehors** de **contrainte de prise** en **compte des paramètres de la population de l'échantillon**. Ils sont adaptés lorsque les échantillons sont de **petites tailles** ou que les **variables dépendantes** sont **[qualitatives]** *(nominale ou ordinale).* De façon générale, le chercheur a recours à de tels tests lorsque les conditions d'applications des **tests paramétriques ne sont pas respectées**. Les tests non paramétriques sont donc particulièrement utiles dans un grand nombre de cas. Les tests non paramétriques mis en œuvre le plus souvent sont les suivants : *Chi2 (X2), Rho de Spearman, Test de Mann-Whitney, test de Friedman, test de McNemar, etc.* II. **[Les tests paramétriques ]** Les **tests paramétriques** peuvent être mis en œuvre dès lors que l'on est en mesure de s'assurer que les **paramètres de la population le permettent**. Il est nécessaire que la **variable dépendante** soit **d'intervalle** (numérique, continue). Il est important de vérifier avant le recours à tel ou tel test que les **conditions d'applications sont respectées**. D'une manière succincte, on soulignera les **conditions principales** sans pour autant être exhaustif pour l'ensemble des tests paramétriques : **[l'homogénéité des variances]** et la **[normalité de la distribution]**. Les tests paramétriques le plus souvent mis en œuvre sont **le t de Student** (pour groupes appariés, pour groupes indépendants, en comparaison à une valeur), les **analyses de la variance** (ANOVA), les **analyses de variance multivariées** (MANOVA), **coefficient de corrélation de Pearson**, la régression linéaire etc. a. [L'homogénéité des variances ] Les **logiciels** utilisés en sciences humaines afin d'opérer des traitements statistiques (SPSS, SAS, Statistica, etc.) permettent de **contrôler aisément les conditions d'application des tests** *(qu'il s'agisse de l'homogénéité des variances ou de la normalité de la distribution)*. Rappelons que **la variance correspond** à la **dispersion** d'une **distribution** (dispersion des données de l'échantillon) **autour de sa moyenne**. Comme pour **l'écart-type**, **plus sa valeur est élevée**, **plus les valeurs** de la **distribution** sont **éloignées** les unes des autres. Il est normal que la **variance** apporte des **informations** de même nature que l'écart-type, puisque l'écart-type n'est rien d'autre que la racine carrée de la variance. Différents tests sont directement réalisés par les logiciels de traitement de données pour **évaluer l'homogénéité des variances** en fonction du **test statistique utilisé**. On parle **[d'homogénéité des variances]** lorsque l'on **compare plusieurs groupes** (t de Student) ou de co-variance (ANOVA). b. [La normalité de la distribution ] **Respecter** cette **condition d'application** des **tests paramétriques** sous-entend que la **distribution** des **données** suit une **courbe gaussienne**, c\'est-à-dire une **[loi normale]**. A nouveau, les logiciels de traitement de données fournissent des indicateurs permettant d'accepter une distribution comme suivant une loi normale ou non. Les plus couramment utilisés sont le **coefficient d'asymétrie** (Skewness) et **d'aplatissement** (Kurtosis). Du point de vue de la littérature, l'encadrement des valeurs acceptables pour ces deux coefficients n'est pas tranché. Il est fréquent d'accepter des distributions comme normales si les **valeurs du coefficient** **d'aplatissement** appartiennent à **l'encadrement suivant** : \[-1.5, 1.5\] alors que, dans l'idéal, un encadrement **plus restreint** \[-1, 1\] est préférable. Plus le coefficient **d'aplatissement est proche de 0**, **plus la distribution** se rapproche d'une **distribution normale** (mais elle peut être asymétrique). Il en est de même pour le coefficient d'asymétrie. Dans un souci de rigueur méthodologique, il est possible de **mettre en œuvre des tests** qui vont déterminer si la **distribution peut s'apparenter à une distribution normale**. Le plus couramment utilisé est le **[test de Shapiro-Wilk]** qui va tester la **distribution des données du chercheur** à une **distribution normale**. Il faut que ce **test soit non significatif** (c\'est-à-dire qu'on ne puisse pas rejeter H0) **pour pouvoir conclure** que la **distribution est normale**. Plus la taille de **l'échantillon est importante**, plus la **probabilité que la distribution suive une loi gaussienne est élevée.** III. **[Pourquoi privilégier une variable indépendante d'intervalle aux variables ordinale et nominale ?]** Le chercheur débutant aura tendance, en pensant bien faire, à créer des catégories (ordinales ou nominales). Ainsi, il est particulièrement courant de retrouver chez le chercheur novice, et parfois chez le moins novice également, une tendance à « classer » comme si cela relevait de la plus haute importance. Or, il n'en est rien. **Catégoriser** ainsi **pénalise** grandement votre **recherche** et **entraine une perte importante** de **variabilité** de **variables dépendantes**. Ainsi en **catégorisant les individus** vous **perdez de l'information**. *EXEMPLE : un chercheur souhaite évaluer l'impact de la taille de joueurs de baskets sur leur performance, il relève donc la taille de 100 joueurs professionnels de baskets, leur poste et le nombre de paniers marqués durant une saison de basket. Par poste, il classe (car c'est un chercheur novice) les joueurs en « petits », « moyens » et « grands ». Il décide de ranger les basketteurs qui mesurent entre 165 cm et 190 cm en petits, puis les joueurs de 191 cm à 205 cm en « moyens » et, enfin les joueurs à partir de 206 cm en « grand ». A ce stade, le lecteur devrait déjà s'interroger de la pertinence de la démarche du chercheur.* *Deux principales raisons à cela,* - *Une telle trichotomisation (est le processus consistant à transformer une variable continue en une variable catégorielle ayant trois catégories ou niveaux. Cela implique de diviser la plage de valeurs d\'une variable en trois groupes distincts, généralement basés sur des seuils prédéfinis) des données, le **chercheur considère** de **la même façon** un **joueur ayant une taille de 165 cm** et ceux **faisant 190 cm**. De cette façon, et caricaturalement, il part du principe qu'il n'y **aurait pas d'effet** sur le nombre de paniers marqués d'une différence de 25 cm entre 2 joueurs (un joueur de 165 cm et un joueur de 190 cm) !* - *Il considère qu'une **différence de 1 cm** a un **effet potentiel sur la performance** des joueurs puisque qu'un joueur de 190 cm va être considéré entrant dans la catégorie « moyen » et qu'un joueur de 191 cm sera considéré comme étant dans la catégorie « grand ». On voit bien, ici, apparaitre un **paradoxe** qui **peut fortement nuire à la qualité de la recherche**.* ![](media/image2.png)Cohen (1983) a montré qu'en cas de **distribution normale**, **dichotomiser** une **variable indépendante** continue **réduit la puissance statistique du test**, équivalant à exclure 38 % des participants. Il est donc crucial de **conserver des données continues** lorsque cela est **possible** et, dès la conception du protocole expérimental, de **privilégier l'utilisation d'échelles** **continues** plutôt qu'ordinales. En effet, bien qu'il soit facile de créer des catégories à partir de données continues, il devient **impossible d'évaluer la variabilité** au sein de ces catégories une fois le questionnaire rempli. *Par ailleurs, êtes-vous certain(e) que tous vos participants comprennent de la même manière des termes comme « souvent » ou « régulièrement » ?* De nombreux exemples montrent les **limites** des **catégories subjectives**, mais ces problèmes peuvent être évités en sélectionnant soigneusement les **échelles utilisées** et en formulant les items pour obtenir des **variables continues** et **numériques**. Enfin, les **variables d'intervalles** (numériques, continues) permettent le **recours aux tests paramétriques** qui sont **également plus puissants** que les **tests non-paramétriques**. **LES DIFFERENTS NIVEAUX DE MESURE** Un **large éventail de mesure** s'offre au chercheur allant de l'observation aux questionnaires et tests, en passant par l'interview, la réalisation de tâches telles que le dessin ou le jeu etc. Les **méthodes utilisées** en psychologie visent à **étudier des construits psychologiques** par leurs observables. Il s'agit donc **d'évaluer** des **dimensions psychologiques** à partir de **comportements verbaux** ou non (on parle alors de variable latente). *EXEMPLE, lorsque l'on constate qu'un individu mange des bonbons régulièrement et avec gourmandise, il est possible d'en déduire qu'il aime les bonbons*. Les **[tests psychologiques]** ont pour vocation **d'évaluer** les **dimensions psychologiques affective**, **comportementale** et **cognitive** à l'égard d'un objet. Ainsi, le nombre de bonbons consommés par jour (dimension comportementale), la mine réjouie/dégoûtée de l'individu lorsqu'il consommera un bonbon ou encore sa réponse à la question « Dans quelle mesure vous aimez les bonbons ? » (Dimension affective) et la connaissance de l'objet en lui-même (dimension cognitive) permettra de déterminer s'il a une attitude plutôt négative ou positive à l'égard de l'objet «bonbon». Traditionnellement **l'évaluation de ces 3 dimensions** (comportementale, affective et cognitive) s'opère par le **biais de questionnaire regroupant** un certain nombre **d'items**. Il s'agit de **[mesure auto-rapportées]** par le participant à la recherche car c'est lui qui va **évaluer** dans **quelle mesure il aime ou non**. I. **[Les différents types d'échelles ]** Il existe principalement 3 types d'échelles : - **[Nominale]**, - **[Ordinale]**, - **[Continue]** (numérique, intervalle). La principale critique que l'on puisse faire envers les questionnaires réside dans le **[caractère auto rapporté]** de la mesure. En effet, cela suppose : - Que l'individu a **un accès conscient** aux **déterminants** de ses **jugements**, de ses **attitudes**, ce sont les **limites de l'introspection** (Nisbett & Bellow, 1977 ; Nisbett & Wilson, 1977). - Que ces **réponses ne sont pas biaisées** par **la désirabilité sociale**, c\'est-à-dire que le participant réponde sincèrement aux items sans se préoccuper de la norme sociale pour l'objet concerné (Paulhus, 1984). *EXEMPLE : il est assez rare qu'un fumeur indique qu'il n'est « pas du tout d'accord » avec la proposition suivante : «Le tabagisme passif nuit à la santé » car cela n'est pas socialement désirable à l'instar, par exemple, des items portant sur le racisme ou le sexisme.* Ces **méthodes** sont aussi dites « **[explicites]** ». D'autres méthodes dites « **[implicites]** » tentent de **dépasser** ces **limites** tels que les **[tests d'association implicite]** qui ont connu un engouement très important au cours des vingt dernières années. II. **[Les mesures indirectes ]** Parmi les tests qui utilisent la chronométrie, **[l'IAT]** est **certainement l'outil le plus utilisé** avec plus de 500 publications indexées Depuis une trentaine d'années, de nombreuses recherches investiguent de nouvelles mesures d'attitude reposant sur le **principe d'automatisme** et qui s'inscrivent dans les **méthodes chronométriques**. Un **[automatisme]** est un **processus** qui ne **nécessite ni contrôle**, **ni attention** est indépendant des buts et **déclenché** uniquement par un **stimulus de l\'environnement** (De Houwer & Moors, 2007). Reposant sur des **temps de réaction**, les **mesures d'attitude implicite** seraient basées sur le fait que la **simple évocation** d'un **objet d'attitude** engendrerait un **déclenchement non conscient** et **irrépressible** (=automatique) de son **évaluation**. Parmi toutes les mesures existantes, l'IAT (Implicit Association Test, IAT, Greenwald et al., 1998) est la plus utilisée. Il permet de **mesurer la force de l'association** en **mémoire** entre **deux concepts cibles** et des **attributs évaluatifs** (Lane, Banaji, Nosek & Greenwald, 2007). C'est une tâche de catégorisation informatisée durant laquelle les **temps de réaction** des participants sont **enregistrés**. Ce type de mesure permet de **dépasser** les **limites des mesures auto-rapportées** mais sont assez **contraignantes dans leur mise en œuvre**. Le score étant basé sur des **temps de réaction**, il s'agit d'une **variable continue**. Récemment, des travaux portant sur la validité de l'outil (Schimmak, 2019) conduisent à considérer prudemment les données recueillis par des IAT. A suivre l'auteur, l'IAT ne peut être considéré comme une mesure de caractéristique personnelle n'expliquant que peu de variance (en fonction des objets) mais qui reste **pertinente** lorsqu'il s'agit **d'objet sujets** à **désirabilité sociale** dans une **approche multiméthodes**. Il conclue « The IAT is an implicit measure of attitudes with varying validity. It is not a window into people's unconscious feelings, cognitions, or attitudes. » (p. 16). Le débat reste donc ouvert sur ce que mesure exactement les tests d'association implicite. D'autres mesures de ce type existent à l'instar des tâches de **type STROOP**, les techniques d'amorçage ou encore de décision lexicale (liste non exhaustive). Nous avons abordé très rapidement un exemple de tâche chronométrique mais nous aurions pu tout aussi bien présenter les méthodes d'analyse du discours et les logiciels associés. Dans le cadre **d'étude d'attitude implicite** on peut également citer l'étude du **niveau d'abstraction** utilisé dans le **langage**. Maass, et al. Semin (1989) et Franco et Maass (1999). Ces linguistic Intergroups bias (LIB) constituent un **outil implicite d'expression** des **attitudes** qui **échapperaient à la conscience des individus**. Plus précisément, le **niveau d'abstraction** utilisé dans le langage **lorsqu'un individu décrit l'endo ou l'exogroupe** varierait **en fonction de son attitude**. Ainsi, pour **l'endogroupe**, les **comportements positifs** seraient décrits avec un **niveau d'abstraction supérieur** à ceux de **l'exogroupe** alors que ce serait le contraire pour les comportements négatifs. **SEUIL DE SIGNIFICATIVITÉ, TAILLE D'EFFET ET PUISSANCE STATISTIQUE** I. **[Le seuil de significativité alpha ]** Lorsque le chercheur réalise des statistiques en vue de **tester H1 par rapport à H0**, les logiciels de traitement de données lui fournissent un certain nombre d'éléments parmi lesquels figure la probabilité de **rejeter H0 à tort**. Ce qui consiste **à conclure à une différence** (un effet des modalités de la VI sur la VD) au niveau de la **population** alors que **cet effet n'existe pas**. Cette **probabilité** est connue sous la **[lettre p]**. En psychologie, on considère habituellement que H1 est validée si la **valeur de p est inférieure ou égale à.05 (**p≤.05). Ce **[seuil de significativité]** est nommé **[alpha]** (α). La probabilité p calculé correspond à un **pourcentage de risque de rejeter H0 à tort**. Ainsi, en psychologie, par convention on accepte de prendre **un risque de 5 %** (α≤.05) d'erreur (5/100 =.05) de rejeter H0 et de conserver H1 à tort. Communément en psychologie on considère l'on prend un risque de 5% (si p=.05) en concluant un effet alors qu'il n'y en a pas ou encore, si la valeur de p=.023 (par exemple), un risque de 2.3%. Il s'agit ici d'une **simplification commune** qui peut porter à **confusion**. En effet, cela ne signifie pas que l'hypothèse nulle n'a que 2.3% d'être vraie mais la **probabilité d'obtenir** ces **résultats s'il l'effet n'existe pas**. Par exemple, un chercheur souhaite étudier l'effet de l'apprentissage à distance sur les résultats à un test. Il trouve un résultat significativement différent à p=.01 en faveur d'un apprentissage à distance. Cela ne signifie pas que dans 1% des cas il n'existe pas de différence mais que les résultats qu'il a trouvés peuvent être retrouvé dans 1% des cas lorsqu'il n'y a pas d'effet. S'agissant de probabilité, la **valeur de p** ne peut **jamais être supérieure** **à 1**. Pour certaines recherches purement exploratoires, le **seuil alpha est parfois augmenté à.10** (soit 10% de risque). Il est à noter que **plus l'effectif de l'échantillon** est **important**, **plus** il est **probable que la valeur de p** **s'abaisse**. En conclusion, il faut retenir que **p fournit un pourcentage d'erreur** et uniquement. Il ne donne pas d'information sur la taille de la différence que l'on peut observer entre 2 groupes d'individus par exemple. Ainsi, **avoir une différence significative à p=.003**, ne montre pas un plus grand effet de la VI sur la VD que si p=.05. Cela indique simplement que **le risque de rejeter H0** à **tort** **est plus faible dans un cas** (p=.003) que dans l'autre (p=.05). L'importance de cette différence est fournie par **des [indices de taille d'effet.]** II. **[La taille d'effet]** Les **indices de taille d'effet** fournissent une **indication** sur la **magnitude de l'effet des modalités** de la **VI** sur la **VD**. Contrairement à p qui donne une évaluation de risque de conclure d'une différence significative au niveau de la population (inférence statistique), la taille d'effet est une **mesure descriptive**. La force de l'effet des modalités de la VI sur la VD est traduite par des indices différents selon les tests statistiques mis en œuvre. Ainsi, il s'agir du - **[d de Cohen]** pour **le t de Student** (groupes indépendants, appariés ou comparaison à une valeur) - **[r de Pearson]** (afin de démontrer la force du lien lors d'une corrélation, la valeur de r2 fournissant la part de la variance expliquée) Ƞ2 (part de variance expliquée pour l'ANOVA), etc. Les **logiciels de traitement statistique**, pour la plupart, **fournissent les valeurs** de ces **indices**. III. **[Introduction à la notion de puissance statistique (béta)]** Dans la présente section nous aborderons rapidement la **valeur β (bêta)** dans le cadre de **l'analyse de puissance.** Afin de **définir la [puissance statistique]** il peut être utile de faire les rappels suivants concernant les erreurs de première et seconde espèces. - L'erreur de première espèce correspond au **[risque de conduit à rejeter l\'hypothèse nulle]** (H0) alors que cette **dernière est vraie** (c\'est-à-dire : conclure a un effet des modalités de la VI sur la VD, alors qu'aucun effet n'existe). On parle alors **de rejeter H0 à tort** (au seuil α). - L'erreur de seconde espèce correspond au **risque de ne pas rejeter H0** alors **qu'elle est fausse** (c\'est-à-dire à conclure à une absence de différence, d'effet des modalités de la VI sur la VD alors que cet effet existe). La **[puissance]** correspond ainsi à la **probabilité** de **retenir l'hypothèse alternative** (H1) à **raison** (si l'effet existe réellement). Cette **probabilité** -- de **ne pas mettre en exergue** un **effet** qui **existe** - **[est notée β (bêta).]** Lors d'une analyse de puissance on part du postulat que **l'hypothèse alternative** (H1) est **vraie** et on s'interroge sur la **probabilité de mettre significativement** en **évidence** une **différence** (entre plusieurs groupes de participants pour une même tâche par exemple). Comme pour la valeur de α , il existe un **seuil de convention** en psychologie pour **la valeur de β** qui est.**[20.]** Ainsi **pour β=.20** on prend un **risque de rejeter H1 à tort** (erreur de type II) de **20%.** La puissance statistique correspond alors à **[1− β=.80 soit 80%]** de chances de mettre en **évidence l'effet s'il existe**. La puissance va **dépendre de la valeur** **α** retenue de la **taille d'effet recherchée** et du nombre de participants (ou d'individus statistiques). Une **analyse de puissance** permet ainsi de **déterminer la taille de l'échantillon** a priori (avant la recherche) en **fonction du seuil α** et de la **taille d'effet cible** ; cela constitue alors un critère **d'arrêt du recueil**. Le chercheur détermine avant même le recueil des données quelle sera la taille de son échantillon. Dans le cadre de l'Open Science ces calculs sont plus que souhaitables dans une perspective de **rigueur** et de **transparence scientifiques**. Mais ce type d'analyse peut également **être menée a posteriori** (après l'étude) afin de déterminer **si l'absence de résultats significatifs** (p\>α) provient d'une **faible puissance** **statistique** conséquente d'un nombre insuffisant d'observations. Si l'analyse montre une faible puissance statistique alors conclure à **une absence d'effet n'a aucun sens**. **LES PRINCIPAUX TESTS PARAMÉTRIQUES** Comme il est mentionné précédemment, les **données** **conditionnent** le **choix du test**. Il est donc très important d'avoir, préalablement à toute recherche, bien réfléchi le **protocole expérimental** et identifier clairement la **nature des données récoltées** et les **perspectives de traitement statistique**. Les tests qui vous sont présentés dans cette section sont réalisables en ayant recours au logiciel de **traitement de données SPSS** qui est un des logiciels les plus utilisés en science humaine (comme Statistica, SAS, XLS Stat, Statview, etc I. **[Comparer un groupe à une valeur : t de student pour échantillon unique ]** Lorsqu'on souhaite **comparer** un **groupe** à une **valeur de référence**, le test approprié est alors **[le t de Student]** pour **échantillon unique** (ou pour comparaison à une valeur). Ce test permet de valider l'hypothèse selon laquelle les **résultats trouvés au niveau descriptif** (celui de l'échantillon) peuvent permettre de faire des **inférences au niveau de la population** dont est tiré l'échantillon. Par exemple, lorsqu'une échelle va de -3 à +3 pour mesurer une attitude à l'égard d'un objet en considérant qu'à un score négatif correspond une attitude négative et à un score positif une attitude positive et que la moyenne de l'échantillon est de 0.02. Quelle certitude peut avoir que cette différence sera supérieure également au niveau de la population, la moyenne de l'échantillon étant très proche de 0 (0 pouvant alors être considéré comme une attitude neutre) ? Une façon de répondre à cette question est de faire un t de Student pour échantillon unique (ou pour comparaison à une valeur). Si le résultat du test est significatif alors il est possible de conclure à une attitude positive à l'égard de l'objet. II. **[Comparer les moyennes de 2 groupes distincts : t de student pour groupes indépendants ]** Lorsque l'on souhaite **comparer** les **moyennes de deux groupes** d'individus et qu'il n'y a **qu'une seule VD d'intervalle** ; alors il est possible de réaliser **un t de Student** pour **groupes indépendants**. Rappelons que, pour ce type de tests, les **distributions doivent suivre une loi normale** et les **variances être homogènes**. Par exemple, il peut s'agir de comparer l'attitude des fumeurs et des non-fumeurs à l'égard du tabac. L'attitude sera alors mesurée sur une échelle permettent de traiter cette variable comme une variable continue. III. **[Comparer les 2 moyennes d'un même groupe : t de student pour groupes appariés ]** Lorsqu'on où l'on souhaite comparer les **moyennes obtenues à deux tests** (et pas plus) par le même échantillon alors le test adapté est le **t de Student pour groupes appariés**. Il faut donc être en présence d'une **VI à 2 modalités** (mesure 1 et mesure 2) et d'une **VD d'intervalle** (score à la mesure). Par exemple, ce test sera mis en œuvre si l'on veut tester l'hypothèse que les fumeurs ont une attitude plus négative à l'égard du tabac après la loi anti-tabac, qu'avant. Ce sont les mêmes individus dont on mesure deux fois l'attitude à l'égard du tabac. IV. **[Comparer la moyenne de PLUS de 2 groupes distincts : l'ANOVA à 1 facteur ]** Si l'objet du traitement des données est de **comparer la moyenne obtenue** par **3 groupes de personnes** **différents** (ou plus), il convient d'avoir recours à **une ANOVA à un facteur** ; par exemple, pour comparer les attitudes à l'égard du tabac des fumeurs, non-fumeurs et ex- fumeurs. Il s'agit bien d'une variable inter car il n'est pas possible d'appartenir à la fois à ces 3 catégories (si l'on considère qu'être non-fumeur signifie ne jamais avoir fumé). Le **résultat de l'ANOVA** nous indiquera s'il existe une **différence significative** entre les groupes **d'individus** mais **pas à quel niveau elle se situe**. Par exemple, est ce que les fumeurs ont une attitude plus positive que les ex-fumeurs ou encore est-ce les ex-fumeurs qui ont une attitude plus négative que les non-fumeurs, etc. Pour déterminer où se situe les **différences de moyennes**, il faut **comparer les moyennes deux** à **deux** en ayant recours à un **test appeler « post hoc** ». Il existe différents tests, il est conseillé d'employer les plus conservateurs d'entre eux (e.g. **test de Tukey)** ou encore le test Scheffé couramment utilisé. Le choix du **test Post Hoc s'opère avant le lancement du traitement ANOVA** en sélectionnant dans le logiciel l'option adéquat. Il y a des tests post hoc qui sont plus adaptés que d'autres dans des situations particulières (par exemple en cas de groupes déséquilibrés). Cette procédure et le recours aux tests post hoc est identique pour tous les types d'ANOVA (dont ceux abordés dans la suite de ce document). V. **[Comparer les effets de plusieurs VI et une VD : l'ANOVA univariée]** Lorsque l'on est en présence d'au **moins deux groupes d'individus par VI** (variable inter, groupes indépendants) dont on veut tester les **effets sur une seule VD**, il est possible d'avoir recours à **[l'ANOVA univariée]**. L'ANOVA univariée permet également d'étudier **l'éventuel effet de l'interaction de deux facteurs** **explicatifs** sur une **variable dépendante**. Ainsi, elle permettrait d'étudier **l'effet du sexe** (variable inter dichotomique) et de la **catégorie socio professionnelle** sur l'estime soi mais également l'effet de l'interaction de ces deux VI sur l'estime de soi. VI. **[Comparer les effets de plusieurs VI sur plusieurs VD : L'ANOVA multivariée (MANOVA)]** Ce test permet de **comparer plusieurs moyennes** (plusieurs VD) en fonction de plusieurs facteurs explicatifs (plusieurs VI). Au regard de l'exemple précédent, elle permettrait, par exemple, d'étudier l'effet du sexe (variable inter dichotomique) et de la catégorie socio professionnelle sur l'estime soi et le niveau de revenus (mesurés sur des échelles permettant de considérer ces VD comme des variables continues), mais également l'interaction de ces deux facteurs sur ces deux VD. VII. **[Comparer les moyennes d'individus ayant réalisé la même mesure plusieurs fois ]** *(Nombre de temps de mesure \>2) ou d'au moins 2 groupes distincts sur plusieurs temps de mesure : l'ANOVA pour mesure répétée/ANOVA mixte (inter et intra)* Exemple. Si un praticien souhaite évaluer les effets d'une thérapie sur ses patients agoraphobiques, il va dans un premier temps mesurer le niveau de phobie (sur une échelle continue) avant toute prise en charge puis, tous les 2 mois pendant un an (il s'agit donc d'une variable intra-sujets). Il va alors avoir recours à l'ANOVA pour mesure répétée pour vérifier que les niveaux de phobie mesurés aux différents temps de mesure sont bien significativement différents (si cette différence a été trouvée au niveau descriptif. En plus de **mesurer les effets au niveau intra-sujet** (différents temps de mesure), il est possible également de **mesurer des effets au niveau inter-sujets**. Par exemple, le chercheur veut en plus étudier l'effet de la thérapie aux différents temps de mesure (variable intra-sujet) et l'effet du sexe (variable inter-sujets). Il pourra ainsi **étudier l'interaction** des effets de la **thérapie aux différents temps** de **mesure** et du sexe de ses patients. **CODIFICATION DES DONNÉES** Ces méthodes ont pour objectif de **mettre en relation** les **variables entre elles**. Les méthodes d'analyse des données de **[type exploratoire]** s'inscrivent dans une **[démarche empirico-inductive]** se basant sur un recueil de **données quantitatives**, les méthodes d'analyse des données de **[type confirmatoire]** s'inscrivent dans une **[démarche hypothético-déductive]**. Parmi les **[méthodes exploratoires]**, citons les méthodes d'analyse statistique **de type factorielle**, largement utilisées en **psychologie sociale**. Parmi les **[méthodes confirmatoires]**, citons les méthodes statistiques utilisant les **modèles** de **régression** (logistique ou linéaire, simple ou multiple) largement utilisées en **psychopathologie** du développement, ainsi que la **modélisation par équations structurelles**. La **codification** des **données** consiste en : - La transformation de **données brutes** en **données catégorielles** (codage) - La transformation de **données numériques** en **données catégorielles** (recodage). L'objectif de la codification des données est de **permettre leur traitement statistique**. Les principes guidant le **codage/recodage** des variables sont les suivants : - **Perdre le moins possible** **d'informations** sur la variable - Choisir des **catégories de codage exclusives** les **unes par rapport aux autres** A un niveau plus avancé, il est **implicite de (d')** : - **Éviter** de faire des **hypothèses arbitraires** sur la forme de la **relation** **entre X et l'association avec Y** - Trouver un **compromis** entre **l'adéquation** du **modèle aux données** (tendance vers des modèles complexes du point de vue de l'allure de la relation entre X et Y) et la **robustesse du modèle** (tendance vers des variables codées simplement). *EXEMPLES :* *1er exemple. Genre : Masculin ͢ codé 1* *Un échantillon de 50 sujets comprend 30 hommes et 20 femmes. Le tableur/logiciel statistique reconnait/comptabilise 30 codes « 1 » et 20 codes « 2 ».* EXEMPLE 2 -- Indice de détresse psychologique. Cet indice est un score mesuré à partir de 14 items, évaluant l'état de santé psychique des adolescents. Bien que l'utilisation du score, variable numérique, soit préférable à l'utilisation d'une variable catégorielle (nominale), les chercheurs effectuent une transformation/recodage de cette variable numérique en 3 classes selon un regroupement en fonction de la distribution de la variable (Cf encadré ci-dessous), afin de mettre en évidence une relation entre un niveau de détresse psychologique élevée (VD) et un certain nombre de variables indépendantes (VI). **CODIFICATION DES DONNÉES -- DESCRIPTION DES DONNÉES** Avant toute **analyse statistique**, les **données** doivent être **examinées** afin **d'attester de leurs qualités**. Cet examen permet de **vérifier la transcription** des **données** dans un **tableur**, d'évaluer **l'importance d'éventuelles** données **manquantes** et d'en **apprécier les conséquences**, et de **traiter les données marginales** de **l'échantillon**. La première étape du **traitement des données est [descriptive]**. Indépendamment de la question de recherche, la description des variables permet de **caractériser la population** d'étude et **d'examiner l'ensemble** des **données recueillies**. D'un point de vue méthodologique, cette étape descriptive permet aussi de **vérifier** les **postulats en lien avec la normalité**, la **linéarité et l'homoscédasticité des variables**, ainsi que l'absence de colinéarité entre 2 ou plusieurs variables. La description de ces variables s'effectue à partir des **mesures** de **tendance centrale** et des **mesures de dispersion**. Les **[mesures de tendance centrale]** sont la **moyenne**, la **médiane** et le **mode**. - Les **variables nominales** sont caractérisées par leur **mode** - Les **variables ordinales**, par leur **médiane** - Les **variables d'intervalle**, par leur **moyenne arithmétique**. Les **[mesures de dispersion]** sont **l'étendue interquartile**, **l'écart-type**, la **variance** et le **coefficient de variation**. La seule description des variables suffit rarement pour justifier d'un travail de recherche en psychologie. La mise en **relation des variables** se fait donc dans un deuxième temps à partir de **méthodes de corrélation**, **d'analyses** **exploratoires ou d'analyses confirmatoires**. **CODIFICATION DES DONNÉES -- ANALYSE DES DONNÉES** I. **[La corrélation : mise en relation de 2 variables ]** La **notion de corrélation** a été **développée** en **psychologie différentielle** par Francis Galton (1822-1911). 2 variables sont dites corrélées quand la **variation** de **l'une** **s'accompagne de la variation de l'autre**. Les indices de corrélation les plus fréquemment utilisés sont le **[coefficient r de Pearson]**, le **[coefficient rho de Spearman]** et les **[mesures d'association]**. - **Le coefficient r de Pearson** C'est l'indice de corrélation le **plus fréquemment** **utilisé** en psychologie. Sa valeur peut se situer **entre -1,0 et +1,0** traduisant la **taille** et la **direction de la relation** **linéaire** entre 2 variables mesurées sur des échelles d'intervalles ou de proportions. L'interprétation des valeurs du coefficient de corrélation est arbitraire. Celle proposée par Cohen (1988) de la façon suivante est communément admise : - **Relation faible** entre les variables pour **r entre 0 et 0,3,** - **Relation modérée** entre les variables pour **r 0,3 et 0,5**, - **Relation forte** au-**delà de 0,5**. **L'indice est symétrique**, c\'est-à-dire qu'un coefficient de corrélation de 0,80 entre la variable A et la variable B est identique au coefficient de corrélation entre la variable B et la variable A *(**l'ordre d'apparition** n'a **pas** **d'importance**).* Ce **coefficient demeure invariant** aux **transformations linéaires** que l'on peut appliquer aux données. C'est-à-dire que **r ne change pas** si les **données** sont **transformées** **de manière proportionnelle**. Enfin, lorsque le coefficient de **corrélation r de Pearson** est **élevé au carré et est multiplié par 100**, il correspond au **[coefficient de détermination]** reflétant le **pourcentage de variance** **commune** entre les **2 variables mises en corrélation.** - **Le coefficient rho de Spearman** C'est utilisé lorsque les variables sont mesurées sur des **échelles ordinales**. L'interprétation de la corrélation de rang calculée à l'aide du **coefficient rho** se fait de la **même façon que celle du r de Pearson**. - **Les mesures d'associations** Dans le cas d'une **recherche d'association** et de sa **quantification** entre **2 variables mesurées sur des échelles** **différentes**, une série de mesures d'association existe. - **[Corrélation bisériale de point]** (r~pb~) : Ce coefficient est utilisé pour mesurer l'association entre : - **Variable dichotomique** *(exemple : fumeur/non-fumeur).* - **Variable continue** *(exemple : nombre de cigarettes fumées par jour).* → Le r~pb~ aide à voir si ces deux variables ont une relation significative. - **[Coefficient ϕ]** : Mesure l'association entre deux **variables dichotomiques** (exemple : sexe et réussite à un test, où les deux variables ont deux catégories chacune). - **[Coefficient λ]** : Utilisé dans des cas spécifiques, souvent pour des **variables catégoriques nominales** - **[Tau de Kendall]** : Mesure l'association entre **deux variables ordinales** (exemple : classement dans deux compétitions différentes). - **[Corrélation bisériale]** : mais dans des cas où une variable est **quasi-dichotomique** (exemple : une note d\'examen traitée comme \"réussite\" ou \"échec\"). - **[Corrélation tétrachorique]** : Mesure l'association entre deux **variables dichotomiques**, mais en supposant qu'elles viennent de variables continues sous-jacentes (exemple : succès/échec sur deux tâches qui pourraient dépendre de capacités continues). II. **[Analyse exploratoires par les méthodes d'analyse factorielle : mis en évidence de la structure latente des données]** Dans une **[démarche exploratoire]**, le chercheur rassemble de façon plus ou moins exhaustive un ensemble de données, sous forme de **variables** dont un certain nombre peuvent s'avérer être redondantes. La première étape d'analyse consiste à réaliser une **[analyse en composantes principales]** afin de **réduire les données**. Dans une deuxième étape, **[l'analyse factorielle exploratoire]** permet de mettre en évidence la **structure** **factorielle des données**. À partir d'un ensemble de N variables, l'analyse factorielle rend compte des **intercorrélations** entre ces variables en mettant en **évidence des facteurs communs** (ou variables latentes) auquel le chercheur tente de donner une signification. a. [Analyse en composantes principales ] L'analyse en composantes principales (ACP) est une **méthode statistique d'analyse des données quantitatives** consistant à **transformer des variables** dites **corrélées** en de **nouveaux facteurs non corrélés** les uns aux autres. Ces nouveaux facteurs sont nommés « **composantes principales** » ou axes principaux. Cette méthode permet de **réduire le nombre de variables** à **quelques facteurs** qui **expliquent un pourcentage important** de la **variance des données**. Il est possible de **représenter géométriquement** les variables dans un nouvel espace, selon des directions d'inertie maximale. D'un point de vue statistique, la recherche porte sur des axes indépendants expliquant au mieux la variabilité --la variance- des données. L'objectif de réduction des données procède à partir de la **matrice de covariance** et la **matrice de corrélation des variables initiales**. L'ACP **réduit le nombre total de données** **sans perdre trop d'informations** importantes. Elle utilise des **calculs précis** (à partir de matrices de corrélation ou de covariance) pour choisir quelles **informations sont les plus utiles et éliminer les moins importantes**. Une **[matrice de corrélation]** correspond aux **variances** et aux **covariances des variables initiales** préalablement **transformées en scores standardisées**. En effet le calcul de la corrélation fait en sorte que **chaque variable** **perd sa métrique originale** et est ramenée à une **échelle standard** possédant une **moyenne de 0 et une variante de 1.** L'algorithme s'assure que la **première composante principale** (C1) capture la **plus grande part possible** de la **diversité présente** dans les **données initiales**. Les composantes suivantes (C2, C3, etc.) capturent des **parties de la diversité restantes**, mais en respectant toujours des critères stricts, comme celui de **Kaiser**, pour savoir lesquelles garder. Pour comprendre à quel point une variable originale est liée à une composante, on utilise un **score appelé** \"**[saturation]**\" (ou \"factor loading\"). Si ce **score est fort (supérieur à 0,30**), cela signifie que la **composante** **explique bien cette variable**. b. [Analyse factorielle exploratoire ] L'analyse factorielle exploratoire (AFE) est une méthode utilisée pour **comprendre un groupe de variables** (par exemple, des notes ou des mesures). Elle suppose que ces **variables** sont **influencées par des \"facteurs** **communs**\" cachés, que l\'on essaie de découvrir. Chaque variable peut être décomposée en deux parties : 1. *[La part commune]* : Elle est **partagée avec les autres variables** et **expliquée par ces facteurs communs**. On l'appelle la \"**[communalité]**\". 2. *[La part spécifique]* : Elle est **propre à cette variable**, comprenant : - Une \"**variance spécifique**\" (ce qui est unique à cette variable). - Une \"**variance d'erreur**\" (imprécisions dues à des erreurs de mesure ou de collecte). On représente cela avec des équations. Par exemple : - Var 1 = β1 F1 + β2 F2 + β3 F3 + β4 F4 +U1 - Var 2 = β1 F1 + β2 F2 + β3 F3 + β4 F4 + U2...etc Par exemple, la variable observée Var1 est expliquée par la somme d'un certain nombre de facteurs communs (F1, F2...) auxquels s'ajoute une certaine proportion de variance spécifique (U1). III. **[Analyses confirmatoire par les méthodes de régression : relation prédictive entre variables ]** a. [La régression simple ou relation prédictive entre 2 variables] Lorsqu'il existe une **corrélation entre deux variables**, c\'est-à-dire une **relation linéaire**, il est possible d'estimer le **score d'une variable Y** pour un individu à **partir du score d'une autre variable X** pour cet individu. Par exemple, un sujet présentant un niveau élevé de dépression (variable X) a plus de risque de tentative de suicide (variable Y). Pour faire cette prédiction, on utilise **une méthode appelée régression simple**. Elle permet d\'expliquer ou de **prédire une variable dépendante** (ici, les tentatives de suicide) à partir d\'une **variable indépendante** (ici, la dépression). Cette prédiction s'effectue à partir d'une régression simple qui consiste à expliquer ou prédire une variable que l'on appelle variable dépendante ou variable critère (tentative de suicide) à partir d'une variable indépendante ou prévisionnelle (dépression). En revanche, il **n'existe pas de réciprocité numérique** entre les **deux directions de prédiction** car la régression tient compte des **différences de dispersion des deux mesures** concernées. Par exemple, un sujet déprimé est à risque de tentative de suicide en revanche, un sujet ayant fait une tentative de suicide n'est pas forcément déprimé, cette asymétrie dans la régression simple est vérifiée en psychopathologie puisqu'une tentative de suicide peut être le résultat d'un passage à l'acte sans trouble de l'humeur. b. [La régression multiple ou relation prédictive entre un groupe de variables et une variable ] **D'autres facteurs** (variables) peuvent être **pris en compte pour expliquer** une **variable dépendante**. Par exemple, le faible **niveau socio --économique des sujets** est lié à un risque plus élevé de suicide. La **prédiction** d'une **variable dépendante** à partir de **plusieurs variables indépendantes** ou **prévisionnelles** s'effectue à partir d'une **[régression multiple]**. Dans une régression multiple, l\'objectif est **d\'expliquer le plus possible** la **variabilité** de la **variable** **dépendante**. Pour cela, on **calcule** les poids mathématiques (ou **pondérations**) **optimaux** pour **chaque variable** **indépendante**. Par exemple, des facteurs comme la dépression et le faible statut socio-économique peuvent être deux causes principales des tentatives de suicide, mais ils n\'expliquent pas 100 % des cas. La régression multiple permet de savoir dans **quelle proportion chacun de ces facteurs contribue** à expliquer les tentatives de suicide. Avec une **analyse de régression hiérarchique**, on teste des **hypothèses spécifiques** sur les **relations** entre les **variables**. Cette méthode produit **une équation où la variable dépendante** est exprimée comme une **combinaison des différentes variables indépendantes**, avec des **poids ajustés** pour maximiser la variabilité expliquée. **L'analyse de régression hiérarchique** fournit **plusieurs tests statistiques** : - Un **[R multiple]** permettant de **déterminer le pourcentage de variance totale** expliquée et son niveau de **signification à une étape donnée** ; (montre si c\'est juste une coïncidence ou si c\'est réellement pertinent). - La **[proportion de variance expliquée additionnelle]**, provoquée par **l'ajout d'un nouveau bloc** de **variables** à chacune des étapes ; ce test montre si ces **nouvelles variables apportent** quelque chose de **significatif en plus** pour expliquer la **variable dépendante**. - **[Les coefficients béta]** correspondant au **poids de chacune** des **variables prévisionnelles** prises en compte dans **l'analyse** de même que le niveau de signification associé à chacun de ces coefficients. Le test te dira **quel facteur a le plus d\'impact**. Si le coefficient béta pour la **motivation est de 0,6** et celui pour le **soutien familial est de 0,3**, cela signifie que la motivation **est plus importante pour expliquer** la réussite scolaire que le soutien familial. Le niveau de signification te dira si **cette différence est fiable** ou non c. [Choisir entre une régression linéaire ou une régression logistique] La **[régression linéaire]** est utilisée lorsque la **variable à expliquer est quantitative**. La **[régression logistique]** est utilisée lorsque la **variable à expliquer** (dépendante) est **nominale**. **[L'avantage] de la régression** est qu'elle ne nécessite **aucun postulat sur la relation** entre la **variable** à **prédire** et les **variables prévisionnelles**. Pas d'hypothèse en amont (VI sur VD) Son **[inconvénient]** est qu'elle nécessite un **nombre important de sujets** de telle sorte que **le ratio entre variable** **prévisionnelle** et **nombre de sujets** soit de **1/50 par variable** (Wright, 1995) Dans le cas où le nombre de **sujets est faible**, **[l'analyse par fonction discriminante]**, cas particulier de Modèle linéaire général peut être utilisée pour répondre à la même question de recherche. Toutefois, les postulats de **multi-normalité** des variables (loi normale), de **linéarité des relations**, **d'égalité des matrices** de **variance/covariance** doivent être respectés. IV. **[Analyse acheminatoires (ou par cheminement causal)]** Les **relations entre les individus** et les **influences** entre les **différentes variables** sont en réalité beaucoup plus complexes. Pour comprendre ces relations, on utilise des techniques mathématiques appelées **[équations]** **[structurelles]**. Ces méthodes sont souvent utilisées pour **analyser des données collectées** sur une **longue** **période** (longitudinales) auprès de **nombreux participants**. Elles sont particulièrement **utiles** pour les **études** en **psychologie sociale et en sociologie**, notamment pour **analyser des enquêtes**. d. [Variables médiatrices ] co Dans un article princeps publié en 1986, Barron et Kenny ont défini **2 variables** ayant une **fonction particulière** au sein des **modèles de relations entre variables** : les **[variables médiatrices]** et les **[variables modératrices]**. Dans un modèle où il existe une **relation significative entre X et Y,** la variable **intermédiaire M est médiatrice** : - Si **M est significativement** et **indépendamment associée à X et à Y** - Si **l'ajout de la variable M** dans le modèle entraine une **diminution significative** de **l'association entre X et Y.** D'un point de vue statistique, la **recherche de médiation** s'effectue à partir de **modèles de régression** ou de **modèles par analyse acheminatoire** (ou pistes causales, « path anlysis »). e. [Variables modératrices ] Dans un modèle où il existe une **relation significative entre X et Y**, la variable M est modératrice sous 2 conditions : - Si **M est une variable antécédente** c'est à dire une **variable préexistante** à la **survenue de la variable X** **et Y.** Par exemple, le genre, déterminé à la naissance des sujets, est une variable antécédente dans une séquence temporelle biographique. - S'il existe une **variation de la relation entre X et Y** en **fonction** des **différentes modalités de la variable** **M**. D'un point de vue statistique, la **recherche de modération s'effectue** : - Par la recherche d'une **interaction significative entre M et X sur Y** à partir de **modèles de régression** testant **[X x M sur Y,]** après avoir testé la **régression de X sur Y** et la **régression de M sur Y** - Par une **régression de X sur Y** effectuée respectivement dans **chacun des groupes de sujets** correspondant à une **modalité différente de la variable M**. Les coefficients de **régression Béta** sont alors **comparés selon un test de la différence significative**. f. [Introduction aux modèles d'équations structurelles] Les **méthodes de modélisation par équations structurelles** se sont développées depuis une vingtaine d'années en sciences humaines et sociales (sociologie, sciences de l'éducation, gestion des ressources humaines). Leur intérêt est de permettre : - De **tester un réseau de relations** **complexes** entre les **variables indépendantes et dépendantes** - De prendre en **compte des facteurs explicatifs latents**, en testant la **validité et la fiabilité** de leur **construit** - De **comparer différents modèles** en tenant **compte de l'erreur de mesure**. Les **logiciels comprenant un module** permettant **d'effectuer des analyses** par **équations structurelles** sont Lisrel, Amos, EQS et plus récemment **[SPSS]**. Un **modèle d'équation structurelle** se décompose en un **modèle structurel** comprenant **l'ensemble** des **relations entre les construits latents** et un **modèle de mesure**, comprenant l'ensemble des variables observées et leur **relation avec les variables latentes**.