PSY1019 - Cours 07 2024 - Mesure, Évaluation et Déontologie PDF
Document Details
Uploaded by Deleted User
UQTR
2024
Marcos Balbinotti, Ph.D.
Tags
Related
Summary
Ce document présente un cours sur la mesure, l'évaluation et la déontologie en psychologie. Il décrit les concepts clés de la fidélité des tests, y compris les tests de vitesse et de puissance et l'erreur type de mesure. Le document est destiné aux étudiants de premier cycle.
Full Transcript
Mesure, Évaluation et Déontologie Marcos Balbinotti, Ph.D. Département de psychologie Les sujets à traiter aujourd’hui Quelques mots d’introduction ; Introduction; Rendant compréhensible les notions complexes : Les types de fidélité plus traditionnelles; La f...
Mesure, Évaluation et Déontologie Marcos Balbinotti, Ph.D. Département de psychologie Les sujets à traiter aujourd’hui Quelques mots d’introduction ; Introduction; Rendant compréhensible les notions complexes : Les types de fidélité plus traditionnelles; La fidélité des tests de vitesse et puissance; L’erreur-type de mesure (un autre type de fidélité); Quelques mots d’introduction Les éléments du plan de cours (y compris les exigences d’évaluation) ont-ils été bien expliqués ? Les plus récents développements dans le domaine de la psychométrie ont-ils été bien présentés jusqu’à présent ? Les notions complexes ont-elles été rendues compréhensibles (avec des exemples claires) jusqu’à présent ? La première évaluation portait-elle sur la matière du cours ? L’introduction La fidélité, ou fiabilité, d’un test psychométrique est une mesure essentielle de la qualité du test. Elle se habituellement définit comme le degré de précision (cohérence) et de constance temporelle des scores obtenus. Par exemple, un test doit produire des résultats très similaires lorsque les conditions de passation sont identiques à celles appliquées à l’échantillon normatif. Balbinotti (2005, 2023) ; Cooper (2023) ; Furr (2021) ; Kline (2023) ; Lovett (2023) ; Mari, Wilson & Maul (2023) ; van der Ark, L’introduction La fidélité est formellement définie comme le rapport entre la variance vraie et la variance totale du test. On attend des scores d’un test qu'ils présentent la plus petite marge d’erreur possible, c'est-à- dire une variance d’erreur minimale. X=t+e Malheureusem X = variable ent, ce modèle observable est considéré t = variance « non vraie/réelle identifié » e = variance (unidentified). Balbinotti (2005, 2023) ; Cooper (2023) ; Furr (2021) ; Kline (2023) ; Lovett (2023) ; Mari, Wilson & Maul (2023) ; van der Ark, L’introduction Essentiellement, toute condition non pertinente à l’objectif d’un test représente la "variance d’erreur". Si les examinateurs s’efforcent de maintenir des conditions de test uniformes en contrôlant l’environnement du test, les consignes, les limites de temps, le climat interpersonnel avec les sujets, ils réduisent ainsi l'erreur de mesure (c'est-à-dire la variance d’erreur) et rendent les scores obtenus aux tests plus fiables. L’introduction Malgré tous les efforts, aucun test n’est parfaitement fidèle (100 %). Ainsi, tout test doit être accompagné d’un rapport sur son degré de fidélité (ou indice de fidélité), qui reflète la précision avec laquelle le test mesure un construit donné. Cet indice de fidélité représente bien le test, à condition qu'il soit administré dans les mêmes conditions standardisées et à des personnes similaires à celles composant l'échantillon normatif (échantillon utilisé pour qu’on puisse calculer les normes). Les caractéristiques de cet échantillon (par exemple, l'âge, le sexe, le niveau d'instruction) devraient être clairement présentées, ainsi que les types de fidélité L’introduction Il est important de noter que la fidélité d'un test peut varier en fonction du contexte d'administration. Par exemple, des changements dans les conditions environnementales, les consignes données ou la population cible peuvent influencer la fiabilité des résultats. Par conséquent, connaître le degré de fidélité permet à l'utilisateur de mieux comprendre les limites du test et de l'interpréter correctement. Une faible fidélité peut signifier que les résultats sont affectés par des erreurs de mesure, tandis qu'une fidélité élevée indique que le test produit des résultats cohérents et reproductibles. En somme, pour garantir une interprétation valable des résultats, il est essentiel de considérer la fidélité du test dans le contexte spécifique où il est utilisé, en s'assurant que les conditions d'administration et la population cible L’introduction Un coefficient de fidélité exprime une corrélation et varie entre 0 (aucune corrélation, donc aucune fiabilité) et 1 (corrélation parfaite, donc une fiabilité parfaite). Cela mesure dans quelle mesure un test donne des résultats cohérents et stables. Les valeurs minimales recommandées pour le contexte clinique et de recherche sont bien établies. En effet, dans le contexte clinique, un coefficient de fidélité de 0,80 ou plus est souvent requis, car les décisions cliniques nécessitent des résultats fiables et précis. Dans le contexte de la recherche, un coefficient de 0,70 ou plus est souvent considéré comme acceptable, car il peut y avoir un peu plus de tolérance pour une certaine L’introduction Il est correct d'affirmer que les tests d'intelligence, comme les tests de Wechsler, tendent à avoir des coefficients de fidélité élevés (souvent entre 0,85 et 0,90). Cela est essentiel pour s'assurer que les scores mesurent de manière cohérente les aptitudes intellectuelles dans diverses populations et à travers plusieurs administrations du test. Les valeurs indiquées sont des seuils conventionnels et peuvent varier en fonction du domaine, du type de test, et des exigences spécifiques à une étude. Certaines études ou champs d'application peuvent tolérer des coefficients de fidélité plus faibles, tandis que d'autres exigent des niveaux plus élevés, surtout lorsque les Les types de fidélité Fondamentalement 5 types: Fidélité par test-retest; Fidélité par versions parallèles; Fidélité par bissection; Fidélité par homogénéité; Fidélité par équivalence inter-juges. Autres sont trouvés dans la littérature… On verra… Les types de fidélité Fidélité par test-retest; La fidélité test-retest (stabilité temporelle) est une méthode couramment utilisée pour évaluer la fiabilité d’un test. Cette approche consiste à administrer le même test à deux moments distincts aux mêmes sujets. Le coefficient de fidélité calculé (rtr) est la corrélation entre les scores obtenus par les mêmes individus lors des deux administrations du test. La fidélité test-retest reflète dans quelle mesure les scores peuvent être généralisés à travers différentes occasions de passation. Plus la fidélité test-retest est élevée, moins les scores des sujets sont susceptibles d’être affectés par des sources d'erreurs liées au temps ou aux conditions de Les types de fidélité Fidélité par test-retest; Les sources d’erreurs dans la fidélité test-retest incluent les fluctuations aléatoires de la performance d’une session à l’autre. Ces variations peuvent être dues, en partie, à des conditions de test mal contrôlées, mais également à des changements internes chez le sujet entre les deux passations. Ainsi, plus le coefficient de corrélation test-retest est élevé, plus l’instrument démontre une bonne fidélité ou stabilité temporelle. Les types de fidélité Avantages de la méthode test-retest : Évaluation directe de la stabilité temporelle : Un coefficient élevé indique que l'instrument produit des résultats stables et cohérents dans le temps. Appropriée pour les traits stables : La fiabilité test-retest est particulièrement utile pour évaluer des traits ou des caractéristiques stables dans le temps, comme les traits de personnalité, les compétences ou les habiletés intellectuelles. Si les résultats ne changent pas significativement d'une session à l'autre, cela reflète une bonne stabilité de la mesure. Facile à interpréter : Le coefficient de corrélation obtenu est facile à interpréter : une valeur proche de 1 indique une Les types de fidélité Inconvénients de la fiabilité test-retest: Effet de mémoire : Les participants peuvent se souvenir des réponses qu'ils ont données lors de la première session, ce qui peut influencer leurs réponses lors de la deuxième session. Ce biais de rappel peut entraîner une surestimation de la fiabilité, car les réponses ne reflètent pas nécessairement la constance du trait mesuré, mais plutôt la mémoire des réponses. Variations internes et externes entre les sessions : Les changements internes chez les participants (fatigue, humeur, motivation) ou les facteurs environnementaux (bruit, conditions de test) peuvent influencer les résultats entre les deux sessions, même si l'instrument est fiable. Ces fluctuations peuvent entraîner une sous-estimation de la Les types de fidélité Inconvénients de la fiabilité test-retest: Difficulté à définir l'intervalle de temps optimal entre les tests : Déterminer un intervalle de temps approprié entre les deux administrations du test est délicat. Un intervalle trop court peut augmenter l'effet de mémoire, tandis qu'un intervalle trop long peut entraîner des changements réels chez les participants, ce qui rend difficile l'évaluation de la stabilité du test. Temps et coûts supplémentaires : La méthode test-retest nécessite deux administrations du test, ce qui peut être coûteux en termes de temps et de ressources. Elle demande également que les participants soient disponibles deux Les types de fidélité Inconvénients de la fiabilité test-retest: Pas toujours appropriée pour les traits de personnalité (Confiance en soi situationnelle) ou états émotionnels variables (anxiété) : Cette méthode n'est pas adaptée pour les traits ou états changeants dans le temps. Dans ces cas, les variations dans les résultats reflètent des changements réels dans l'état du participant plutôt qu'un manque de fiabilité. Les types de fidélité Fidélité par versions parallèles; La fidélité par versions parallèles, ou méthode d’équivalence, évalue la fiabilité d’un test en administrant deux versions différentes mais équivalentes à un même groupe de sujets. Ces versions doivent mesurer le même construit de manière similaire, mais avec des items différents. Le coefficient de fidélité est calculé en corrélant les scores obtenus lors des deux passations. Une forte corrélation indique que les versions sont cohérentes et mesurent de manière fiable le même concept, malgré les différences d’items. Les types de fidélité Fidélité par versions parallèles Lors de la création ou de l'utilisation de versions parallèles, il est essentiel d'assurer un parallélisme « rigoureux » : Les versions doivent couvrir le même contenu et avoir une structure équivalente, même si le nombre d'items diffère légèrement. Le niveau de difficulté des items doit être statistiquement similaire (p < 0,05). Les consignes, le temps alloué, les exemples et le format de présentation doivent être identiques entre les versions. Il est important de vérifier que les interprétations des scores restent cohérentes et comparables entre les Les types de fidélité Fidélité par versions parallèles : Avantages Évaluation de la constance du construit : En utilisant deux versions différentes mais équivalentes d’un test, cette méthode permet de vérifier si le construit mesuré est cohérent, même avec des items différents. Cela montre la robustesse de l’instrument à travers diverses formes. Réduction de l'effet de mémoire : Contrairement à la méthode test-retest, où les sujets peuvent se souvenir de leurs réponses précédentes, les versions parallèles minimisent cet effet, car les items sont différents dans chaque version. Cela permet de mieux isoler la fiabilité réelle du test. Les types de fidélité Fidélité par versions parallèles : Avantages Utilisation dans des contextes variés : Les versions parallèles sont particulièrement utiles dans des contextes où le test est administré plusieurs fois, ou dans des études longitudinales. Elles permettent de réévaluer le même construit sans réexposer les sujets aux mêmes items. Mesure de plusieurs facettes d'un même concept : Les versions parallèles permettent d’explorer différentes facettes d’un même construit, en variant légèrement la formulation des items. Cela renforce la compréhension globale du construit et peut élargir l’utilité de l’instrument dans des contextes différents tout en conservant la cohérence des résultats. Les types de fidélité Fidélité par versions parallèles : Inconvénients Difficulté de créer des versions « vraiment équivalentes » : Il est souvent difficile de créer deux versions qui soient parfaitement parallèles en termes de contenu, de difficulté et de structure. Même de légères différences peuvent introduire des variations dans les scores qui ne sont pas liées au construit mesuré. Coût en temps et en ressources : Concevoir plusieurs versions parallèles demande beaucoup de temps et de ressources. Il faut développer, tester, puis Les types de fidélité Fidélité par versions parallèles : Inconvénients Complexité des analyses statistiques : Comparer deux versions parallèles demande des analyses statistiques pour vérifier que les items des deux versions sont bien équivalents en termes de difficulté et de structure. Cela peut être un processus complexe et nécessite souvent l'utilisation de méthodes comme l'analyse factorielle confirmatoire. Biais potentiel si les versions ne sont pas vraiment parallèles : Si les versions ne sont pas rigoureusement parallèles, les Les types de fidélité Fidélité par bissection La fidélité par bissection (split-half), consiste à diviser les items du test en deux moitiés équivalentes et à calculer la corrélation entre les scores obtenus pour chaque moitié. Cette méthode permet de mesurer la cohérence interne du test, c’est-à-dire dans quelle mesure les deux moitiés évaluent la même caractéristique psychologique. Afin d'obtenir une estimation plus précise de la fiabilité, il est courant d’utiliser la formule de Spearman-Brown, qui ajuste le coefficient de Les types de fidélité Fidélité par bissection : Avantages Facilité d'application : La méthode est simple à mettre en œuvre et ne nécessite qu'une seule administration du test, ce qui la rend rapide et efficace. Évaluation de la cohérence interne : Elle permet de vérifier si les deux moitiés sont cohérents. Réduction de l'effet de fatigue : Puisqu'il s'agit d'une seule administration, les erreurs liées à la fatigue sont minimisées comparées aux méthodes nécessitant plusieurs passations. Utilisation efficace des données : Elle permet de maximiser l'utilisation des données Les types de fidélité Fidélité par bissection : Inconvénients Problème de division : Il peut être difficile de diviser le test en deux moitiés absolument équivalentes, ce qui peut biaiser les résultats de la corrélation. Fiabilité sous-estimée : La méthode peut parfois sous-estimer la fiabilité réelle du test, surtout si la division des items n'est pas optimale ou équitable. Sensibilité à la méthode de division : Le coefficient de fiabilité peut varier selon la façon dont le test est divisé, ce qui limite la précision de la mesure si la division n’est pas aléatoire ou bien équilibrée. Les types de fidélité Fidélité par homogénéité La fidélité par homogénéité, ou cohérence interne, examine à quel point les items d’un instrument ou d'une échelle (dimension) sont étroitement liés et mesurent « un construit » (ou variable latente) de façon cohérente. Un bon niveau de cohérence indique que les items reflètent de manière cohérente le concept psychologique étudié. L’indice de fidélité est souvent mesuré par des coefficients comme l’alpha ordinal, Omega ou fidélité composite. Des résultats élevés suggèrent que les items sont internements, tandis qu’un résultat faible indique un manque de cohésion entre les items. Les types de fidélité Fidélité par homogénéité : Avantages Facilité de calcul : Les indices sont faciles à calculer à partir des données d'une seule administration. Évaluation directe de la cohésion : Permet de vérifier si tous les items sont cohérant. Adapté aux tests unidimensionnels : particulièrement utile pour des instruments évaluant une seule dimension. Économie de temps : une seule passation est nécessaire, économisant temps et ressources. Les types de fidélité Fidélité par homogénéité : Inconvenients Ne détecte pas l’hétérogénéité : Si le test mesure plusieurs dimensions, la cohérence interne peut être trompeuse car elle n'évalue que la cohésion des items sans vérifier la validité multidimensionnelle. Sensibilité à la longueur du test: Les tests plus longs ont tendance à produire des résultats plus élevés, ce qui peut donner l'impression d'une cohérence interne élevée même si les items ne sont pas tout à fait cohérents. Influencé par la redondance des items : Si les items sont trop similaires ou redondants, cela peut artificiellement augmenter la cohérence interne sans Les types de fidélité Fidélité par inter-correcteurs La fidélité inter-correcteur (inter-juges) mesure le degré d’accord entre deux ou plusieurs évaluateurs qui jugent indépendamment le même ensemble d’items. Cette méthode est particulièrement utile lorsque les évaluations sont subjectives, comme des symptômes cliniques en psychologie. Elle est souvent calculée à l’aide de mesures statistiques comme le coefficient de corrélation intra- classe (CCI), le kappa de Cohen, ou d'autres indices d’accord inter-juges comme le CVC (coefficient de validité de contenu). Un accord élevé entre les juges indique que l’évaluation est fiable et cohérente entre les correcteurs. Les types de fidélité Fidélité par inter-correcteurs : Avantages Évaluation de la subjectivité : Comme celles des performances ou des symptômes cliniques, en s'assurant qu'elles ne varient pas trop d’un évaluateur à l’autre. Identification des biais d’évaluation : Permettant « corriger » juges pour garantir des évaluations plus objectives. Application dans plusieurs domaines : Comme le travail, l'éducation et la psychologie, où les évaluations qualitatives ou subjectives sont fréquentes. Mesure de la cohérence entre les juges : Un accord élevé entre correcteurs montre que les juges Les types de fidélité Fidélité par inter-correcteurs : Inconvénients Dépendance aux compétences des évaluateurs : Résultats peuvent être influencés par les compétences des juges. Des évaluateurs moins qualifiés peuvent diminuer la fiabilité inter-juges. Coûts en temps et en ressources : Nécessite plusieurs évaluateurs et des analyses statistiques supplémentaires, ce qui peut être coûteux en temps et en ressources. Variabilité dans les critères : Même avec un bon accord, les juges peuvent avoir des critères légèrement différents d'interprétation. Complexité des analyses : La fidélité des tests de vitesse Les tests de vitesse sont des évaluations où le temps est un facteur clé. Ils consistent à mesurer la capacité d’un individu à effectuer le plus grand nombre possible d'items ou de tâches dans un laps de temps limité. La fidélité dans ce type de test est souvent évaluée en fonction de la constance des performances sous contrainte de temps. Caractéristiques : Les tests de vitesse incluent des items généralement simples, que la plupart des individus peuvent accomplir. Ce qui est mesuré, c'est la rapidité avec laquelle les tâches peuvent être terminées. Évaluation de la fidélité : La fidélité des tests de vitesse est souvent mesurée par des méthodes telles que la fidélité test- retest ou la méthode de bissection, en s'assurant que les La fidélité des tests de puissance Les tests de puissance se concentrent sur le niveau de difficulté des items. Ils mesurent la capacité d’un individu à résoudre des tâches complexes et/ou difficiles, sans limite de temps stricte, mais avec un accent mis sur la qualité et la précision des réponses. Caractéristiques : Les items dans les tests de puissance varient en difficulté et visent à évaluer le potentiel ou les capacités intellectuelles maximales d'une personne. Il ne s'agit pas de compléter un grand nombre d'items rapidement, mais plutôt de réussir les tâches les plus complexes. Évaluation de la fidélité : La fidélité des tests de puissance est généralement évaluée par des méthodes comme la cohérence interne pour s'assurer que les items du test sont liés et mesurent de façon cohérent le même construit. La fidélité des tests de vitesse et puissance Les tests de vitesse et les tests de puissance sont conçus pour éviter les scores parfaits, et cela pour plusieurs raisons liées à la discrimination psychométrique, qui est unes des qualités importantes des tests : Discrimination psychométrique : La discrimination est la capacité d’un test à différencier les individus sur la base de leurs compétences ou capacités. Un test qui permet des scores parfaits (c’est-à-dire que tous les participants atteignent le score maximal) n’a plus cette capacité de discrimination, car il ne différencie plus les participants en fonction de leurs aptitudes. Par exemple, si un test est trop facile et que tout le monde obtient le score maximal, il devient impossible de savoir qui est réellement La fidélité des tests de vitesse et puissance Problème d’un score parfait : Un score parfait empêche d'évaluer les compétences réelles d’un individu. Il devient impossible de savoir si la personne aurait pu obtenir un meilleur score avec des items plus difficiles ou un test plus long, créant ainsi une limite artificielle à l’évaluation. Tests de vitesse : Dans les tests de vitesse, la performance est limitée par le temps et non la difficulté. Si un participant termine toutes les tâches, cela pourrait indiquer qu’il aurait pu en faire plus avec plus de temps. Empêcher un score parfait permet de mieux estimer la capacité réelle.. Tests de puissance : Dans les tests de puissance, la difficulté varie. Si tous les participants réussissent 1a tous les items, il devient difficile de différencier les niveaux de compétence. Éviter un score parfait permet aux items de rester discriminants et de mieux évaluer les L’erreur type de mesure L’erreur standard de mesure (ESM) ou l’erreur type de mesure (ETM) est une mesure essentielle en psychométrie. Elle quantifie l'ampleur des erreurs aléatoires dans un test et aide à estimer dans quelle mesure un score observé peut diverger du score vrai. Un score observé (ou manifesté) est composé de : Score vrai : Représente les capacités réelles de l'individu. Erreur de mesure : Facteurs aléatoires qui influencent le score (fatigue, stress, etc.). L’erreur type de mesure L'erreur type de mesure se calcule grâce à l'écart- type des scores et à la fidélité du test. La formule est : 𝜎 = écart-type des scores observés; Où : r = coefficient de fidélité du test (généralement mesuré par des méthodes comme l’Alpha ordinal, Omega ou le méthode test-retest, entre autres). L’erreur type de mesure Interprétation de l’ETM: L'ETM permet d'évaluer la précision d'un score en tenant compte des erreurs aléatoires présentes dans un test. Voici comment interpréter les résultats : Faible ETM : Moins de 5 % du score total de la personne. Cela indique que l'incertitude liée aux erreurs aléatoires est faible, ce qui signifie que le score observé est proche du score vrai. ETM modérée : Entre 5 % et 10 %. Une ETM modérée montre une certaine incertitude. Le score observé peut s'écarter du score vrai de manière importante ou significative, mais reste dans une marge acceptable. ETM élevée : Supérieure à 10 %. Cela reflète une plus grande imprécision dans les résultats, ce qui signifie que le L’erreur type de mesure Exemple d’interprétation de l’ETM: Supposons qu’un test de QI ait un écart-type de 15 points = 15 x 0,32 = 4.8 (arrondi à 5) et une fidélité de 0,90. L’ETM serait calculé comme suit : Cela signifie que si une personne obtient un score observé de 110, son score vrai se situe probablement entre 105 et 115 (±5 points autour du score observé). En nous basant sur l'interprétation de l’ETM (ETM ÷ Score = 5 ÷ 110 ≈ 4,5%), cet exemple montre qu'une ETM d'environ 4,5 % est considérée comme une faible erreur. Cela signifie que le score observé est assez proche du score vrai, avec une faible marge d'incertitude liée aux erreurs aléatoires. L’erreur type de mesure Lien entre l’ETM et la fidélité : Plus un test est fidèle (coefficient de fidélité élevé), plus l’ETM est faible. Fidélité élevée = faible ETM, signifiant que le test est précis. Fidélité faible = ETM élevée, ce qui indique plus d’incertitude dans les résultats observés. L’ETM a des applications concrètes : Évaluer la précision des scores individuels : Calcul d’un intervalle de confiance autour d’un score. Comparer la précision des tests : Un test avec une faible ETM est plus précis. Prendre des décisions : Dans des contextes cliniques ou professionnels, l’ETM aide à estimer la marge d'erreur d'un score. L’erreur type de mesure Pour bien comprendre l’ETM: Imaginons que nous ayons testé 100 fois le QI de Marcos. En raison des divers types d’erreurs aléatoires possibles, les résultats des tests varient (nous n'obtenons pas toujours exactement le même score, évidemment). Après avoir analysé ces 100 résultats, nous pouvons interpréter la moyenne de cette distribution comme une estimation du score vrai du QI de Marcos. De même que pour tout écart-type, l’ETM (Erreur Type de Mesure) s’interprète à l’aide des pourcentages associés aux divers segments de la distribution normale. Par exemple, environ 68% des individus se situent entre -1 et +1 écart- type. On peut donc conclure qu’environ 68% des scores de Marcos se regrouperont entre -1 et +1 ETM. En termes de L’erreur type de mesure Pour bien comprendre l’ETM: Considérons que les résultats de QI à un test d’intelligence ont un écart-type de 15 et un coefficient de fidélité de 0,89. L’ETM (Erreur Type de Mesure) du QI à ce test est calculé comme suit : 15 multiplié par la racine carrée de (1 - 0,89) = 15 × 0,33 = 5 (arrondi). = 15= 15 x 0,33 = 5 Ainsi, si le QI observé vrai de Marcos est de 110, il est attendu que, dans environ 68% de ces résultats (soit environ deux fois sur trois), son QI vrai se situe entre 105 et 115 (valeurs arrondi). L’erreur type de mesure Contributions finales de l’ETM: Limites de l’ETM : L’ETM ne peut pas capturer tous les types d’erreurs. Elle ne prend en compte que les erreurs aléatoires (comme la fatigue, le stress), mais elle ne mesure pas les erreurs systématiques (erreurs dues à un biais dans le test, par exemple). L’intervalle de confiance avec l’ETM : Utilisation pratique : Un intervalle de confiance autour d’un score observé peut être calculé avec l’ETM. Par exemple, si un individu obtient un score observé de 110 dans un test, et que l’ETM est de 5, un intervalle de confiance à 68 % se situera entre 105 et 115. Relation entre ETM et l’objectif du test : Plus l’objectif du test est important (sélection professionnelle, diagnostic clinique), plus il est crucial de minimiser l’ETM. Un test à fort impact doit avoir une faible ETM pour garantir des décisions L’erreur type de mesure Conclusions de l’ETM: L’ETM est une mesure clé pour évaluer la précision d’un test, mais elle a ses limites. Bien qu’elle permette de calculer un intervalle de confiance et de comprendre l’incertitude autour d’un score observé, elle n’élimine pas les erreurs systématiques et nécessite des conditions standardisées pour rester fiable. Un faible ETM est essentiel dans les tests à fort enjeu pour garantir des résultats justes. Références American Educational Research Association, Psychological Association, & National Council on Measurement in Education. (1999). Standards for Educational and Psychological Testing. Washington, DC: American Educational Research Association. Ayala, R. J. (2022). The Theory and Practice of Item Response Theory. Guilford Publications; 2nd ed. Edition. 643 p. Andries van der Ark, L., Emons, W. H. M., Meijer, R. R. (2023). Essays on Contemporary Psychometrics. NY: Springer Nature. Anastasi, A. (1994). Introduction à la psychométrie. Traduit de l’anglais par F. Gagné. Montréal : Guérin Universitaire. Ark, L. A., Bolt, D. M., Wang, W-C., Douglas, J. D., & Wiberg, M. (2016). Quantitative Psychology Research. New York: Springer Proceedings in Mathematics & Statistics (Book 167). Balbinotti, Marcos (2005). Para avaliar o que se espera: reflexões acerca da validade dos testes psicológicos. Aletheia [en linea] (21), 43-52 [Consulta 10 de Agosto de 2022]. ISSN: 1413-0394. Disponible en: https://www.redalyc.org/articulo.oa?id=115013476005 Balbinotti, Marcos (2023). How to develop a new psychometric instrument: recente reflections about construction of a new psychological test. I Researchers Meeting in Gerontopsychometry (May 22-24, 2023). Escola de Enfermagem da USP (Universidade São Paulo, Brazil). Bonfá-Araujo, Bruno; Farias, Eliana & Chnaider, Janaina (2020). Avaliação Psicológica: Definição de aspectos psicométricos segundo alunos de graduação em psicologia. Interação em Psicologia. 24. 111-118. 10.5380/psi.v24i2.65877. Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2003). The theoretical status of latent variables. Psychological Review, 110(2), 203–219. doi : 10.1037/0033-295X.110.2.203 Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2004). The Concept of Validity. Psychological Review, 111(4), 1061–1071. doi : 10.1037/0033- 295X.111.4.1061 Cooper, C. (2023). An Introduction to Psychometrics and Psychological Assessment: Using, Interpreting and Developing Tests. NY: Routledge. Dehn, M. J.; Kaufman, N. L.; Kaufman A. S. (2022). Essentials of Processing Assessment. Wiley; 3rd edition. 384 p. DeVellis, R. F. (2016). Scale Development: Theory and Applications. Los Angeles: Sage Publications. Finch, H., French, B, & Immekus, J. (2016). Applied Psychometrics Using SPSS and Amos. Louisville: Information Age Publishing. Furr, R. M. (2021). Psychometrics: An Introduction. 4e Edition. Los Angeles: Sage Publications. 704 p. Groth-Marnat, G., & Wright, A. J. (2016). Handbook of Psychological Assessment. New York: John Wiley & Sons Publishing Company. Hogan, T. P. (2017). Introduction à la psychométrie. 2 e édition. Montréal: Chenelière Éducation. Irwing, P., Booth, T., & Hughes, D. J. (2018). The Wiley Handbook of Psychometric Testing: A Multidisciplinary Reference on Survey, Scale and Test Development. New Jersey: Wiley-Blackwell Lovett, B. J. (2023). Practical Psychometrics: A Guide for Test Users. Los Angeles: Guilford Publications. Mari, L., Wilson, M., & Maul, A. (2023). Measurement Across the Sciences: Developing a Shared Concept System for Measurement. NY: Springer Nature. Mandes, L. S.; Nakano, T. C.; Silva, I. B.; Sampaio, M. H. L. (2013). Concepts of psychological assessment: knowledge of students and professionals. Psicol. cienc. prof. 33 (2). https://doi.org/10.1590/S1414-98932013000200013. Kline, P. (2015). A Handbook of Test Construction (Psychology Revivals): Introduction to Psychometric Design. London: Routledge Publisher. Urbina, S. (2014). Essentials of Psychological Testing. New York: Wiley publications. Young, Hugh D; Freedman, Roger A. (2012). University Physics (13 ed.). Pearson Education Inc. ISBN 978-0-321-69686-1. Un gros MERCI BEAUCOUP à vous toutes et à vous tous ! Prof. Marcos Balbinotti, Ph.D.