Examen 2 - Déontologie - PDF
Document Details
Uploaded by SelfSatisfactionStrontium
Université du Québec à Trois-Rivières
Valerie Allard
Tags
Summary
Ce document présente un aperçu des notions de mesure et d'évaluation en psychologie. Il introduit le sujet avec une description des différentes échelles de mesure selon Stevens, souligne l'importance des méthodes et comment la mesure en psychométrie est un processus technique permettant l'évaluation de phénomènes psychologiques.
Full Transcript
lOMoARcPSD|14342597 Examen 2 - déontologie - Prof: Marcos Balbinotti Mesures, évaluations et déontologie (Université du Québec à Trois-Rivières) Scanne pour ouvrir sur Studocu Studocu n'est pas sponsorisé ou supporté par une université ou...
lOMoARcPSD|14342597 Examen 2 - déontologie - Prof: Marcos Balbinotti Mesures, évaluations et déontologie (Université du Québec à Trois-Rivières) Scanne pour ouvrir sur Studocu Studocu n'est pas sponsorisé ou supporté par une université ou un lycée Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 Quelques mots d’introduction Mesure et évaluation: Mesure : La mesure en psychologie est une notion (un processus) complexe et relative à une personne (la taille, la tension, l'extraversion, l'intelligence, la température corporelle, etc.). De façon générale mesurer en psychologie c'est « attribuer des nombres aux construits psycho-sociaux », selon des règles bien déterminées. Ces règles vont fondamentalement avoir pour objet d'établir une correspondance entre certaines propriétés des nombres et certaines propriétés des construits. Stevens, en 1946, propose de classer ces échelles de mesure en fonction des propriétés des nombres qui sont conservées. Variable latente = construit psychosocial Évaluation : L'évaluation psychologique est un processus technique réalisé avec des personnes ou des groupes de personnes qui nécessite des méthodologies spécifiques. Elle est dynamique et constitue une source d'information de nature explicative sur les phénomènes psychologiques. Il convient de souligner que les résultats des évaluations psychologiques ont un grand impact sur les personnes, les groupes et même la société. Je veux expliquer quelque chose, et pour ce faire, j’ai besoin de l’évaluation. Mesure La mesure est partout: Physique : énergie, masse, force, longueur, poids, etc. Biologie : rythme cardiaque, pouls, taux de métabolisme, etc. Économie : produit national brut, taux de chômage, etc. Loisir : performance sportive, cote d'un film, etc. Éducation : notes en mathématiques, français, etc. La psychologie n'échappe pas aux mesures! Son rôle est, justement : Définir certaines caractéristiques du comportement; Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 Décrire/prédire des différences au niveau du comportement; Prédire des changements au niveau du comportement; et, Expliquer les « pourquoi/comment » de ces changements… La qualité de ces définitions, descriptions, prédictions, explications et d’autres aspects du comportement humain dépendra (au moins en partie) de la qualité de la mesure. De façon générale, on définit la mesure comme étant « un ensemble de méthodes utilisées pour donner une description caractéristique d'un phénomène ». Spécifiquement, la mesure est une opération qui consiste à associer, selon certaines règles, des symboles (souvent numériques)… …à des objets, …à des événements, et/ou …à des individus… …de façon à évaluer le degré auquel ils présentent certains attributs. Pour être représentatifs, les symboles numériques doivent être accompagnés d`une unité de mesure: Dans le cas d`une personne de 2 mètres (2m), on associe le nombre «2» au mot «mètre», qui est l`unité de mesure utilisée et qui a été appliquée deux fois sur la longueur de la personne. La mesure des attributs physiques ne soulève aucun problème, mais la mesure des attributs psychologiques est plus complexe (plus de variable à définir et à contrôler pour obtenir un résultat réaliste – valide et fidèle). Les procédés d`obtention d`une mesure doivent être explicites. Pour cette raison, il existe des règles précises qui régissent le processus de mesure. La formulation rigoureuse de ces règles contribue à ce que les résultats obtenus soient reproductibles. La méthodologie pour arriver à cette composition numérique doit être clair et explicite, reproductible. En conclusion, la mesure, en plus de permettre une quantification, donne une description beaucoup plus « objective » et s’avère plus économique en temps (et en argent) qu’une évaluation « subjective », conçue pour fournir des informations comparables. Évaluation On peut définir l’évaluation comme étant une opération qui consiste à porter un jugement de valeur ou à accorder une valeur à un objet ou à une personne en la comparant avec un critère donné. o L’expression 2,14 mètres est le résultat d’une mesure (une règle précise a été appliquée). Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 oUne personne qui mesure 2,14 mètres est souvent évalué comme « très grande »! Le résultat (classification) « 128 » ne révèle pas beaucoup à propos d’une personne (ni de sa compétence…) : o Pour porter un jugement de valeur, il faudrait connaître ces informations : l’unité de mesure et les limites du phénomène en question. La classification des échelles de mesure Plusieurs auteurs s’entendent pour reconnaître un des postulats de la mesure proposés par Stanley Smith Stevens (1946) (très important dans le contexte de la psychométrie): o Les quatre principaux niveaux de mesure correspondant à quatre types fondamentaux d’échelles de mesure: Nominale, ordinale, d’intervalle égal et de proportion. Très important!!! Va déterminer le genre d’analyse que je vais utiliser pour faire avancer les connaissances. Pour choisir les analyse, il faut savoir si cette échelle est ordinal, d’intervalle […]. L’échelle nominale (de classe ou catégorielle): La forme la plus simple de classification (niveau primaire); Permets de regrouper des individus en fonction des caractéristiques communes; Il n’y a pas d’ordre inhérent à la mesure! Ce sont des échelles non ordonnées (non ordonnable); o Par exemple, si on classifie les homme comme étant 1 et les femmes comme étant 2, je ne peux les ordonnées… les hommes ne sont pas plus haut que les femmes à cause de ces données. Le 1 et 2 ne sont que des symboles. Aucune opération arithmétique (+, -, x, ÷) n’est permise; o Juste impossible… Aucune importance d’un résultat positif et négatif. Les statistiques possibles: fréquences et pourcentages (mode); o Ex.: sexe, couleur des yeux, lieu de naissance, etc.… L’échelle ordinale: L’ordre relatif des individus est important; la variable doit avoir un ordre inhérent. Les symboles numériques attribués aux individus sont des rangs; Pas de garantie que la différence (distance) entre 1 et 2 soit la même que 4 et 5; Elle ne permet pas de savoir s’y il a l’absence totale de l’attribut, alors elle n’admet pas le zéro absolu (absence de l’attribut ou phénomène). Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 o Le zéro absolu ne doit pas faire partie d’une échelle ordinale. o L’absence ne fait pas de sens ici. On ne peut pas encore dire combien de fois plus que… La relation entre les observations est transitive: si A>B, et B>C alors A>C ! En effet, et uniquement par convention et utilité, on pouvait calculer une moyenne d’une échelle ordinale (Likert, seulement), mais au fur et à mesure que les années passent, cette convention deviens une cible de fortes critiques; o Ex.: échelle de satisfaction au cours PSY1019 (type Likert à 5 points), poste de l’armée, postes dans une entreprise, etc. L’échelle à intervalles égaux: Si plusieurs objets ou individus sont également distant (égalité des intervalles) selon le degré lequel ils présentent l’attribut, la distance qui les sépare peut être considérée comme une unité linéaire de mesure, et l’échelle ainsi constituée est appelée échelle à intervalles égaux ou, simplement, échelle d’intervalles. o Ici, la distance entre 1 et 2 et la distance entre 5 et 6 est la même , comparément à l’échelle ordinale. L’échelle d’intervalle permet la mesure des différences entre les degrés de présence des attributs, mais elles n’indiquent pas l’amplitude absolue de ces degrés, car elles n’admettent pas le zéro absolu – le point zéro est définie de façon arbitraire. o On ne peut pas admettre que le 0 équivaut à une absence de quelque chose. L’échelle d’intervalle peut être transformée en ordinale, mais pas l’inverse ! o Ex.: Température; Localisation (latitude et longitude); l’heure de la journée… L’échelle des proportions: Sa première caractéristique réside dans la possibilité de connaître la distance entre le zéro absolu et la position 1 d’un objet ou d’un individu sur un continuum défini selon un attribut donné (les nombres représentent donc de façon réelle le degré de présence d’un attribut chez un individu). On peut aussi établir que l’individu 2 présente le double du degré de l’attribut présenté par l’individu 1, par exemple. De plus, comme pour les échelles moins complexes, la direction du continuum est connue, de même que le rang des individus en fonction Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 de l’attribut et de l’étendue des intervalles entre les scores, intervalles qui sont évidemment égaux. o Ex.: Âge; Nombre d’enfants; etc.… La classification d’une échelle serait plutôt une affaire de convention et d’utilité. Par convention (concordance entres les scientifiques / auteurs) et utilité, les techniques puissantes d’analyses statistiques sont compatibles avec les données relatives aux attributs humains (incluant les attributs psychologiques). La mesure et les statistiques Le problème d’échantillonnage: En psychométrie, on utilise un échantillon d’individus et un échantillon de contenu (items d’un test). Selon Bernier et Pietrulewicz (1997) il est virtuellement impossible de gérer ces deux échantillons, simultanément (problème de l’échantillonnage). Une façon typique de régler ce problème est de tenir compte explicitement d’un échantillon, en gardant à l’esprit que l’autre peut éventuellement influencer sur les résultats. L’approche préconisé en psychométrie (lors de l’élaboration d’un instrument de mesure): on utilise un échantillon d’individus suffisamment grand pour que l’erreur d’échantillonnage se rapportant aux individus soit peu importante. Le problème de la représentativité de l’échantillon des sujets étant ainsi réglé, la représentativité de l’échantillon du contenu du test devient alors la préoccupation centrale. Pour autant que l’échantillon des sujets soit suffisamment grand, la précision d’un test sera indépendante du nombre de sujets de l’échantillon et sera directement reliée au contenu du test, c’est-à-dire au nombre d’items. La problématique est qu’il n’y a pas de moyen de faire la gestion des deux échantillons de nature différente. Comment on va résoudre ce problème? On va augmenter le max l’échantillon de personne pour pouvoir minimiser l’erreur (variance d’erreur) associé à l’échantillon des personnes. Je vais focusser mon attention uniquement sur l’échantillon d’item. En ce faisant, je peux trouver le bon chiffre, la bonne quantité d’item, car l’un des objectifs de la psychométrie est de développer de nouveaux instruments. Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 Normes : les scores et leur distribution Considérations initiales: Les scores des tests psychologiques sont généralement interprétés en se référant à des normes qui représentent la performance au test d’un échantillon de normalisation: o On établit donc les normes de façon empirique en observant dans quelle mesure les membres d’un groupe représentatif répondent effectivement le test en question. Pourquoi en augmentant je minimise l’erreur? Parce que j’augmente la variance (variabilité des réponses), et en ce faisant, j’explique davantage le phénomène. Il suffit de situer le score brut de tout individu à l’intérieur de la distribution des scores des membres de l’échantillon de normalisation, de façon à préciser sa position relative au sein de ce groupe: o Le score coïncide-t-il avec la performance moyenne du groupe normatif? o Est-il légèrement inférieur à cette moyenne? o Se situe-t-il près de l’extrémité supérieure de la distribution? Dans le but d’établir de façon plus précise la position exacte d’une personne à l’intérieur de l’échantillon normatif, le score brut doit être transformé en une mesure relative. Ces scores (mesures relatives) dérivés remplissent deux fonctions: o Ils déterminent la position relative de l’individu à l’intérieur de l’échantillon normatif et permettent de comparer sa performance à celle d’autres personnes; o Ils permettent de comparer directement la performance d’une même personne à différents tests. Concepts statistiques L’un des principaux objectifs de la méthode statistique consiste à organiser et à systématiser des données quantitatives de façon à en faciliter l’interprétation. Une liste de 1000 scores à un test peut décourager quiconque doit les analyser. Une première étape de mise en ordre d’un tel chaos de données brutes consiste à regrouper ces scores sous forme d’une distribution de fréquences. L’information fournie par une distribution de fréquences peut être représentée graphiquement sous la forme d’une courbe. Ce Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 type de courbe possède des propriétés importantes et sert de base à plusieurs sortes d’analyses. Elle indique que la majorité des sujets se regroupent autour de la partie centrale de l’étendue et que leur nombre diminue progressivement de chaque côté. Leptokurtique et probablement asymétrique On peut également décrire un groupe de scores à l’aide des mesures de tendance centrale (moyenne, mode, médiane, etc.); de variabilité (étendue, écart-type, etc.); de distribution (normal = symétrique + d’aplatissement modéré). L’interprétation de l’écart-type est particulièrement claire lorsqu'elle s’applique à une distribution normale (ou quasi normale). Dans ce type de distribution, il existe une relation directe entre l’ÉT et le pourcentage (fréquence) de sujets, tel qu’illustré dans la figure précédente. Ces relations sont particulièrement pertinentes lors de l’interprétation des scores et de centiles, ce que nous verrons maintenant. Normes intragroupes Presque tous les tests psychométriques sont maintenant accompagnés d’une forme quelconque de normes intragroupe. Celles-ci permettent de situer la performance d’un individu en fonction de celle du groupe normatif (même âge et/ou même niveau scolaire). Centiles Un centile correspond au pourcentage des personnes de l’échantillon de normalisation dont le score est inférieur à un score brut donné. Par exemple, si 28% des personnes réussissent 15 problèmes dans un test de raisonnement arithmétique, un score brut de 15 correspondra ainsi au 28e centile (C28). Ainsi, plus le centile est bas, plus le score de l’individu est faible. Un score brut inférieur à tout autre score obtenu dans l’échantillon de normalisation recevra un centile de zéro (C0); un score brut plus élevé que tout autre score de l’échantillon de normalisation recevra un centile de 100 (C100). Mais attention : ces centiles ne représentent pas nécessairement un score brut nul ou un score brut parfait ! Les avantages : ils sont faciles à calculer; facilement compris; universellement Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 applicable (enfants ou adultes); conviennent à tous les types de tests (d’aptitudes ou personnalité). L’inconvénient : l’inégalité des distances entre les unités. Lien entre quelques normes : Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 Cours 6 Quelques mots d’introduction Analyse d’items : Introduction Dans le cadre de la psychométrie, l'analyse d'items fait référence aux analyses statistiques utilisées pour sélectionner les meilleurs items (inclure, retirer ou maintenir) d’un test psychologique/psychométrique : Modèle Alpha de Cronbach (ou autre) (Reliability Statistics) Validité des contenu / construit. Moyennes et écarts-type (Item Statistics) Analyse de corrélation inter-item (Inter-Item Correlation Matrix) Statistiques Sommaires des items (Summary Item Statistics) Statistiques item-total (Item-Total Statistics) Basé sur la corrélation Statistiques descriptive de l’échelle (Scale Statistics) Il y a des jugements en psychométrie. Le processus d'analyse des items varie en fonction du modèle psychométrique utilisé (Théorie Moderne – TM – ou Théorie Classique des Tests – TCT – font appel à des procédures différentes) : Pour la TCT, la notion de l'ensemble est importante. Lorsqu'il prépare l'évaluation, le psychologue pense à l'épreuve complète, dans laquelle la somme de chaque question donne la note aux répondant, dans le but d'analyser la maîtrise de ses connaissances (p.ex.). Ce modèle apporte tout un autre genre de statistiques que la théorie classique n’apportait pas. Théorie classique = Résultats d’ensemble Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 Théorie moderne = va étudier la difficulté des items, va étudier chaque item Le processus d'analyse des items varie en fonction du modèle psychométrique utilisé (Théorie de Réponse aux items – TRI – ou Théorie Classique des Tests – TCT – font appel à des procédures différentes) : La TRI propose aussi une méthodologie adoptée pour la correction et l'attribution des notes. Mais, elle permet d'identifier si les résultats obtenus par les répondants sont le fruit du hasard ou reflètent leurs connaissances. Théorie classique n’a pas d’outils pour expliquer chaque item, chose que la TM peut faire. Indépendamment de la théorie en question, l'objectif de l'analyse d'items est de produire une liste relativement courte d'items (c'est-à-dire de questions à inclure dans une interview ou un questionnaire) qui constitueront un test (unidimensionnel) ou une dimension à la fois. Pour effectuer cette analyse, un grand nombre d'items (candidats) est présenté à un large échantillon de participants de la population cible. Idéalement, il devrait y avoir entre cinq et dix fois plus d'items candidats que la quantité finale « souhaitée » d’items du test (ou dimension). Les chercheurs appliquent diverses procédures statistiques afin d'éliminer les items moins satisfaisants. Par exemple, selon la théorie classique des tests, les chercheurs pourraient éliminer les items si les réponses : Présentent des moyennes extrêmes (p.ex.: 1 ou 5); Montrent très peu de variation (p.ex.: 1,1, 1,2 ou 4,8, 4,9); Sont fortement corrélés (> que 0,90 ou 0,95); Sont faible corrélation avec la totalité des items restants. Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 En considérant le fait qu’il s’agit d’un coefficient très important pour la psychométrie, je vous démontre, pas à pas, le calcul d’un coefficient de corrélation (r). X(georges) – M = x (41-40=1) Y(georges) – M = y (17-21=-4) x2(georges) = 1 Mettre à la 2 pour enlever les nombres négatif. y2 (georges) = 16 Dans le contexte de construction (ou adaptation) d’instruments psychométriques, l'analyse d’items est un processus itératif et, selon la théorie classique, ne doit pas être automatisé. Le jugement du psychométriste est nécessaire pour déterminer: si l'ensemble d'items retenus est satisfaisant (sinon, on recommence). Les critères mentionnés au diapo 8 ne concordent pas toujours, et un équilibre doit être trouvé entre eux pour décider d'inclure ou non un item. Comment procéder? Pour effectuer cette analyse à l’aide du SPSS, il faut suivre les étapes suivantes: Ouvrir le SPSS et la banque de données, Cliquer: Analyze, Scale, Reliability analisis. Configurer l’analyse comme suit : Sélectionner tous les items d’une dimension et cliquez « Statistics » Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 Envoyé dans Items Comment je sais que ces items concernent une seule dimension ? Nous avons plusieurs items qui calcule l’intelligence. On veut savoir combien de dimension il existe. Analyse parallèle = comment l’interpréter si la « real-data… » est plus grand que les deux autres données… Ce tableau va nous expliquer combien de dimension sont intrinsèque au contenu disponible. Donc dès que la valeur est plus petite que les deux autres, on arrête là… donc ici, il y en a juste 1 dimension. marquer tous les items comme indiqué et cliquez « Continue » Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 Tableaux à interpréter Avec chaque item, type d’échelle de likert, la valeur de l’écart type doit être plus petite que la moitié de la valeur de la moyenne. La variance doit être plus grande que la moyenne. C’est une covariation Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 Une covariation négative veut dire que la relation entre ces deux variables est négative. En normalisant la covariation, je vais trouver la variation. Ce tableau n’est donc pas normalisé. La seule chose qui m’intéresse sur le tableau ici, c’est les signes négatifs. Interprétation: la covariance entre Dynamique et Discrète est de -0,518, ce qui indique que la relation/association entre ces deux variables est négative. Interprétation: les corrélations sont modérées-fortes (force entre -0,514 < r(124) < 0,726), positives et négatives (condition inadéquate pour l’analyse d’items) et probablement significatives (condition non testée). Ces résultats suggèrent que quelques items (les items négatifs) pourraient être (très probablement) de candidats à l’élimination du pool d’items de cette dimension. Statistiquement parlant, ça dérange les résultats ultérieurs d’avoir des corrélations négatives. Qu’est-ce que le 31.13 me dit? 3.6 est effectivement plus petit que 15, mais la variance doit être plus grande que la valeur de la moyenne (qui est 31). La variance est plus petite que la valeur de la moyenne ici… Les items, comme Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 ils sont présentement, ils sont trop restreints. Les gens ont plus ou moins répondu la même chose… ce pourquoi nous n’avons pas beaucoup de variation, ce qui est normal puisque ce sont tous des étudiants en psychologie qui ont répondu. On s’attend à 0.7 ou plus pour ce qui est le Cronbach Alpha… la mesure que ces items génère n’a pas d’homogénéité dans le cas présent. 3ème colonne et dernière colonne sont importantes. Comment est-ce que je peux améliorer mon alpha? Mon homogénéité des items? Plus de 0.7 pour être homogène. Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 Introduction La fidélité d’un test permet de déterminer dans quelle mesure les différences individuelles peuvent être attribuées à de « réelles » différences sur le plan des caractéristiques mesurées (variance réelle) et dans quelle mesure elles doivent être attribuées à des erreurs dues au hasard (variance d’erreur). Essentiellement, toute condition non pertinente à l’objectif d’un test représente « la variance d’erreur ». o Si les examinateurs s’efforcent de maintenir des conditions de testage uniformes, en contrôlant: L’environnement du testage, Les consignes, Les limites de temps, Le climat interpersonnel (avec les sujets), etc. o Ils réduisent l’erreur de mesure (moins de variance d’erreur) et rendent ainsi plus fidèles les scores aux tests. Malgré tous les efforts, aucun test n’est parfaitement (100%) fidèle! Alors, tout test doit être accompagné d’un rapport sur son degré de fidélité (indice de fidélité). o Cet indice de fidélité caractérise bien le test sous réserve qu’il soit administré dans les mêmes conditions standardisées et à des personnes similaires à celles qui composent l’échantillon normatif (les caractéristiques de l’échantillon devraient être présentées, ainsi que le type de fidélité). Étant donné que tous les types de fidélité ont pour objet un degré d’association entre deux séries de scores, ils peuvent prendre forme d’un type de coefficient de corrélation. Le coefficient de corrélation Un coefficient de corrélation (r (pearson), rho (spearman), rt (corrélation tétrachorique), rpo (corrélation polychorique), rpa (corrélation partielle), R (corrélation multiple)) exprime le degré de correspondance (ou relation, ou association) entre deux séries de scores (variant de -1 à +1). o Intercorrélation = si je prends, par exemple, 2 échantillons différents o Autocorrélation = 2 mesures dans le même échantillon Une corrélation de zéro indique l’absence de relation, ce qui reproduit le hasard. Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 Par exemple, un indice de corrélation de r(8) = 0,40 indique une corrélation positive et modérée entre les scores de mathématiques et de lecture (juste un exemple!). o R(8) le n est de 10 car le degré de liberté est égal à n-2. o Interprétation : les enfants qui réussissent en mathématiques tendent (r(8) = 0,40), dans une certaine mesure, à réussir également en lecture, et vice-versa, bien que cette relation ne soit pas très étroite. Également en lecture? Car c’est positif, ils vont dans la même direction Une autre question qu’on doit se poser est: ce résultat de corrélation (r(8) = 0,40) est-il significativement différent de zéro ? o (En effet, il est difficile d’établir une relation statistique de façon relativement certaine avec un échantillon de seulement 10 sujets). Les types de fidélité Fidélité par test-retest; Fidélité par versions parallèles; Fidélité par bissection; Fidélité par structure interne (Alpha de Cronbach); Fidélité par équivalence inter-juges. À quelle point les données sont reliées ensemble = force À quelle point les résultats s’éloignent du zéro = significativité Fidélité par test-retest; On administre et on réadministre le même test aux même sujets (deux temps, deux séances de testage); Le coefficient de fidélité (par exemple: r tr) équivaut tout simplement à l’autocorrélation entre les scores obtenus par les mêmes personnes aux deux séances de testage; La variance d’erreur correspond aux fluctuations aléatoires des performances d’une séance de testage à l’autre. L'autocorrélation représente le degré de similitude entre une série chronologique donnée et une version décalée d'elle-même sur des intervalles de temps successifs. L'autocorrélation mesure la relation entre la valeur actuelle d'une variable et ses valeurs passées. Cette fidélité indique dans quelle mesure il est possible de généraliser, à des occasions diverses, les scores d’un test; plus l’autocorrélation est élevée, moins les scores obtenus sont influencés par des changements quotidiens imprévisibles; Lorsqu’on inclut ce type de fidélité dans le manuel du test, il faut spécifier l’intervalle de temps entre les deux passations. Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 La technique du test-retest soulève quelques difficultés: o L’effet de pratique peut augmenter les scores au retest; o Si l’intervalle est très court, les sujets peuvent se rappeler de leurs réponses (effet de la mémoire); Fidélité par versions parallèles; Un moyen de minimiser les difficultés soulevées par le test-retest; Les individus peuvent passer une version lors de la première séance de testage et une autre version du même test, lors de la deuxième séance; L’autocorrélation obtenue entre les deux séries de scores deviendra le coefficient de fidélité par versions parallèles; Lors de la création/utilisation de versions parallèles, il faut prendre toutes les précautions pour assurer un véritable parallélisme: o Contenir le même nombre d’items, la même forme, et couvrir le même contenu; o Le niveau de difficulté moyen des items doit être statistiquement le même (p < 0,05); o Il faut assurer l’équivalence des consignes, de minutage, des exemples, du format de présentation, bref, de tous les aspects du cadre de passation du test. La fidélité par versions parallèles soulève au moins 1 faiblesse: o Les sujets peuvent différer quant à leur degré d’amélioration due à la pratique, ce qui implique une autre forme de variance d’erreur qui tend à réduire la corrélation entre les deux versions parallèles; Fidélité par bissection; Même avec une seule administration, d’une seule version, d’un seul test, il est possible d’obtenir une mesure de fidélité à l’aide de la méthode de bissection (« split-half ») : o Diviser le test en deux parties équivalentes (ce qui permet de calculer deux scores indépendants) – étant donné que l’unique passation n’implique qu’une seule version d’un test, le coefficient de fidélité obtenu porte le nom d’indice de cohérence interne; o Il faut décider comment diviser le test en deux (de manière à ce que les deux moitiés soient le plus semblables possible). Très rarement utilisé. La fidélité par bissection soulève, au moins une faiblesse : Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 o Considérant qu’une moitié sert à tester l’autre, le calcul sert à vérifier la fiabilité de la moitié du test, et non du test entier ! Coefficient Alpha; Il s’agit d’une seule passation, d’une seule version, d’un seul test. Cette fidélité a pour fondement l’homogénéité entre les réponses de tous les items du test (fidélité par homogénéité) ; La formule KR (Kuder-Richardson) s’applique aux items de nature dichotomique (système « tout ou rien »); La formule Alpha s’applique aux items selon une échelle Likert ou de type Likert. Dans ces jours-ci nous vivons un moment historique important, le coefficient Oméga prend de plus en plus une place importante dans les articles scientifiques en psychologie, à cause des certaines difficultés associées aux calcules Alpha (l’échantillon d’items et de personnes; la même saturation factorielle des items d’une dimension). Changement de perception : utilisation d’Oméga au lieu de Alpha. Fidélité par inter-correcteurs; Les grilles de correction de certains types de tests, spécialement les tests de personnalité de type projectif, accordent un rôle important au jugement du correcteur. Dans le cas de ces tests, il devient tout aussi nécessaire d’évaluer la fidélité inter-correcteurs (ou inter-juges); On peut évaluer la fidélité inter-correcteurs en faisant corriger un teste (le Rorschach, par exemple) par, au moins, deux examinateurs indépendants (idéalement de 3-5 examinateurs). Les deux scores obtenus seront mis en corrélation de façon usuelle (corrélation intraclasse et/ou Kappa de Cohen). La fidélité des tests de vitesse et de puissance La distinction entre la mesure de la vitesse et celle de la puissance: o Dans un test de vitesse, la rapidité de la performance explique les différences individuelles observées (mesurées). On prépare ce type de test à l’aide d’items qui sont tous faciles et qui font partie des habiletés maîtrisées par les sujets auxquels il est destiné. On fixe un limite de temps si court que la personne ne peut pas compléter tous les items. Dans de telles conditions, le score de chaque personne reflète son rythme (ou sa vitesse) de travail. o Un test de puissance offre une limite de temps suffisamment longue pour que tous puissent tenter de répondre à chacun Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 des items, sans problèmes; ceux-ci sont cependant ordonnés selon une échelle de difficulté qui augmente très rapidement jusqu’à des items à peu près insolubles; ainsi, personne ou presque ne peut obtenir un score parfait ; On remarque que les tests de vitesse et de puissance sont tous les deux conçus pour empêcher une réussite parfaite. Pareille précaution s’explique par le fait qu’un score parfait est indéterminé; en ce sens, il est impossible de savoir quel score plus élevé le sujet aurait atteint si le test avait contenu plus d’items ou des items encore plus difficiles. L’erreur type de mesure Interprétation de scores individuels: o On peut aussi exprimer la fidélité d’un test sous la forme d’une erreur type de mesure (ETM), également nommée erreur type de scores individuels (ou erreur standard de mesure – ESM); o Pour bien comprendre l’ETM: imaginons que nous ayons testé 100 fois le QI d’une personne. En raison des divers types d’erreurs aléatoires, ces QI’s ont variés (on n’a pas toujours trouvé le même résultat, évidement). Après avoir ordonné les 100 résultats, on peut interpréter la moyenne de cette distribution comme représentant le score réel du QI de cette personne, l’écart-type de cette même distribution correspond à l’ETM. o La conception de l’erreur type de mesure est semblable à l’écart type. o De même que pour tout écart-type, l’ETM s’interprète à l’aide des pourcentages associés aux divers segments de la distribution normale: ±68% des individus se regroupent entre -1 et +1 É-T. On peut donc conclure qu’environ 68% des réponses de l’individu se localiseront entre -1 et + 1 ETM. En parlant de proportion, il y a, environ, deux chances contre une (ou 68:32) que ces réponses se localiseront à l’intérieur de cet intervalle (-1 et + 1 ETM - autour de son réel QI). o Considérons que les résultats QI’s d’un test d’intelligence ont un É-T de 15 et un coefficient de fidélité de 0,89; o L’ETM d’un QI à ce test est = 15 multiplié par la racine carré de (1 – 0,89) = 15(0,33) = 5 (arrondi). Alors, si son QI réel est de 110, on s’attendra, à 68,26% (plus ou moins deux fois sur trois), à ce que le score réel obtenu fluctue entre 105 et 115. Téléchargé par Valerie Allard ([email protected]) lOMoARcPSD|14342597 Téléchargé par Valerie Allard ([email protected])