Théories de la construction des tests PDF
Document Details
Uploaded by Deleted User
Université de Mons
Kathy Huet
Tags
Summary
Ce document présente les théories de la construction des tests, notamment la théorie classique des scores, l'évaluation de la validité et de la fiabilité, ainsi que des exemples d'application. Les concepts de score vrai et d'erreur de mesure sont expliqués en détail.
Full Transcript
Faculté de Psychologie et des Sciences de l’Educa6on AA : Théories de la construc3on des tests 1 Kathy Huet Université de Mons Principe de base : idée du trait l...
Faculté de Psychologie et des Sciences de l’Educa6on AA : Théories de la construc3on des tests 1 Kathy Huet Université de Mons Principe de base : idée du trait latent inobservable Trait de l’esprit humain Relation causale indirect observable Manifestation externe Technique de mesure mesure Université de Mons K. Huet 2 Principe de base : idée du trait latent Mesure bien ce qu’il est censé mesurer inobservable Trait de l’esprit humain Validité Relation causale observable Manifestation externe Technique Qualités métrologiques: de mesure Précision Constance Fiabilité mesure Université de Mons K. Huet 3 la notion de fiabilité La fiabilité d’une mesure se réfère à la précision avec laquelle un score (obtenu à la faveur d’un test) représente l'aptitude du sujet observé. Il s'agit donc d'une qualité technique du test. !!! Les mesures ne sont pas exemptes d’erreurs. Université de Mons K. Huet 4 la notion de validité La validité d’un test = son aptitude à mesurer ce qu’il est censé mesurer. ou encore : le test fournit-il bien l'information qui correspond à ce dont a besoin celui qui voudrait l'utiliser ? La validité réfère donc à l'ensemble des preuves qui doit conduire à nous assurer que l'interprétation des scores par les utilisateurs sera correcte. = un processus essentiel (fondamental) dans l'élaboration des tests Université de Mons K. Huet 5 Bases conceptuelles de l’appréciation de la qualité La Théorie classique des tests appelée aussi « Théorie classique des scores » (par Spearman en 1907 puis travaux de Gullisken (1950), Magnusson (1967), Lord et Novick (1968)) Université de Mons K. Huet 6 Pour pouvoir apprécier les résultats obtenus au moyen d’instruments de mesure, c’est-à-dire à quel point le score obtenu à un test reflète bien la compétence ou l’aptitude d’un individu en question, il est nécessaire de se doter d’un cadre conceptuel fourni par les théories des tests. !! Chaque théorie n’est qu’un modèle simplifié de la réalité. Chaque modèle s’ajuste plus ou moins à la réalité qu’il tente de décrire. Le modèle décrit ici = « Théorie des Scores Vrais » ou « Théorie classique des tests » ou « Théorie classiques des scores » Université de Mons Kathy Huet 7 POSTULAT DE BASE : il est impossible d'obtenir une mesure complètement exempte d'erreurs Postulat d’additivé des sources de variance X=T+E Valeur observée Score vrai Erreur score observé le score obtenu par un individu à un test (X) résulte de la somme d’une composante « vraie » (T:constante) et d’une composante d’erreur (E : erreur de mesure associée à T) = équation fondamentale de la Théorie des scores vrais Université de Mons Kathy Huet 8 On suppose donc qu’un individu possède un score « vrai » qui nous est inconnu. Il est possible de tenter de mesurer ce score vrai (cette mesure = X), mais il y a toujours Postulat d’additivé des une certaine erreur de mesure plus ou sources de variance moins importante et qui ne pourra jamais être évitée complètement. X n’est que le reflet variable de T. observable X=T+E inobservables Valeur observée, Score vrai Erreur score observé Correspond à un Éléments non contrôlés couple individu/tâche et non systématiques = valeur caractéristique = erreur réalisée lors de d’une personne à l’effectuation de la tâche une épreuve Variable systématique Aléatoire Université de Mons Kathy Huet 9 T : le score vrai = le score qu’un individu aurait obtenu dans des condi2ons idéales avec un instrument parfait. = la moyenne des scores (observés) obtenus par un sujet au départ d'un nombre infini d'administra2ons indépendantes du même instrument. CeAe défini2on suppose cependant que les erreurs qui entachent les performances à chaque essai soient non corrélées, c'est-à-dire qu'elles résultent de biais non systéma2ques (et donc aléatoires). = une en2té non observable, inconnue, fixe d’une répé22on à l’autre du test X : le score observé = le score observé, le score total à un test = en2té réelle, connue, variable d’une répé22on à l’autre du test E : le terme d’erreur = en2té non observable, inconnue, variable d’une répé22on à l’autre du test Université de Mons K. Huet 10 Le score observé (X) est aussi une variable aléatoire La probabilité d’obtenir un score (X) très supérieur ou très inférieur au score vrai diminue au fur et à mesure que l’on s’éloigne de ce score vrai (T) : exemple : en fait, l’erreur de mesure est distribuée normalement (puisque aléatoire) à le score observé (X) est lui-même distribué normalement autour du score vrai (T) 73 89 T = 85 X Distribution théorique des scores observés autour du score vrai Université de Mons Kathy Huet 11 Des postulats … E (X) = T rET=0 rE E 1 2=0 rE T 1 2=0 r = corrélation Université de Mons K. Huet 12 Postulat 1 : « La valeur attendue du score observé est le score vrai » E(X) = T « T est l'espérance mathématique de X » c’est-à-dire : une infinité de tentatives de mesures appliquées à une personne définie produirait des valeurs en moyenne égales à T, le score vrai. à la précision d’un score observé s’accroît avec le nombre d’observations sur un même individu. Théoriquement, ces mesures sont supposées être indépendantes. Dans la pratique, il est totalement impossible de mettre en place un tel schéma d'investigations; – il semble difficile de réaliser un très grand nombre (une infinité) de mesures sur un individu humain déterminé; – un phénomène de contamination risque fort d'apparaître, qui aurait pour effet de rendre les résultats d'une mesure dépendants soit de l'existence même, soit du résultat des mesures précédentes. Ne pas confondre : - notes vraies (individu/tâche) d'une part et - notes représentatives (score valide) d'un trait, d'autre part !!!!!!! Université de Mons Kathy Huet 13 Score vrai ≠ score représentatif d’un trait Exemple 1: effet « plafond » Supposons que l'on u2lise une épreuve des2née à mesurer l'intelligence de deux sujets ; ceAe épreuve est trop facile. Une boule de cristal nous a révélé que le sujet A est "vraiment" plus intelligent que le sujet B. L'épreuve u2lisée est cependant trop facile: les deux sujets "plafonnent" et chacun ob2ent la note maximale au test. A supposer qu'il soit possible de mener une infinité de mesures au moyen de l'épreuve sur chacun des 2 sujets, il est clair que ceAe entreprise produirait pour le sujet A, comme pour le sujet B, une valeur moyenne égale au maximum pouvant être obtenu à ce test. Autrement dit, le score vrai des 2 individus est similaire (égal en fait au maximum pouvant être obtenu) mais cela ne signifie cependant en rien que ceAe valeur maximum reflète le trait (intelligence) que l'on tentait de mesurer dans le chef de ces sujets. Université de Mons Kathy Huet 14 Score vrai ≠ score représentatif d’un trait Exemple 2 : effet « plancher » Supposons qu’un sujet analphabète passe un test d'intelligence La présentation des items recourt à des lettres, des mots voire des phrases. à Son score vrai (relation individu/tâche) est bas. Si au contraire, on lui fait passer un test d'intelligence recourant à des items essentiellement non verbaux, il présentera sans aucun doute un score vrai plus élevé. Dans les deux cas, on peut en toute rigueur parler de scores vrais même si le bon sens indique que le second test est plus proche de la « vérité » (et donc plus représentatif du trait). Dans les 2 cas il existe un score vrai Dans le cas 1, le score vrai n’est pas bien lié au trait mesuré; Université de Mons Kathy Huet 15 Score vrai ≠ Score valide Ces exemples montrent la différence entre la notion de score vrai, et de mesure valide La question de validité des mesures sera abordée ultérieurement; elle se rapporte à l'aptitude du test à mesurer ce qu'il est censé mesurer. Quelle que soit la validité de la procédure utilisée, on peut cependant toujours parler - dès qu'une mesure est réellement recueillie – de scores vrais, de scores observés, d'erreurs de mesures. Université de Mons Kathy Huet 16 avant de continuer : une CONVENTION SYMBOLE de la corrélation quelque soit son mode de calcul r (Lettre grecque « Rho ») !! Ne pas confondre avec un coefficient spécifique qui s’appelle « le Rho de Spearman » Université de Mons Kathy Huet 17 Postulat 2 : Indépendance de l’erreur de mesure et du score vrai rET=0 l'erreur doit être indépendante du score vrai: son amplitude ne doit pas dépendre de celle du score : à l’erreur de mesure ne sera pas plus grande si un individu a un score vrai élevé ou plus faible si il a un score vrai faible Université de Mons Kathy Huet 18 Exemple 1 Un enseignant est obligé de faire passer une épreuve dans un local dont l'acoustique est particulièrement désastreuse. Il sait que les élèves installés au fond de la salle ne percevront que très approximativement ses paroles. Les consignes de son épreuve sont cependant données oralement. Dans le but louable de ne pas défavoriser les élèves faibles, il demande à ces derniers de s'installer au 1er rang. Cette situation est typiquement en infraction avec le postulat d'indépendance de l'erreur et du score vrai, en effet : -Résultats : - amoindrissement de l’erreur de mesure dans le chef d'élèves à scores vrais bas - accroissement de l’erreur de mesure dans le chef d’élèves à scores vrais élevés. à les conditions acoustiques provoqueront des erreurs de mesure d'autant plus grandes que le score vrai de l'élève sera important. Voilà donc ici une erreur positivement corrélée avec le score vrai. Université de Mons Kathy Huet 19 Exemple 2 A l'occasion d'une épreuve académique, des étudiants faibles copient sur des étudiants forts. Cette situation est également en infraction avec le postulat d'indépendance. En effet, les étudiants forts ne seront pas affectés, dans leurs performances, par le dispositif. Néanmoins, l'erreur de mesures opérée sur le score des étudiants faibles sera importante : leurs résultats seront systématiquement surévalués. Dans le cas présent, on observe donc une corrélation négative entre erreur et scores vrais: l'erreur est d'autant plus importante que le score vrai est faible. Université de Mons Kathy Huet 20 Postulat 3 : Indépendance des erreurs de test à test rE 1E2=0 les erreurs relatives à deux tests différents (E1 et E2) ne doivent présenter aucune corrélation les erreurs d'une personne à un test ne doivent pas permettre de prédire les erreurs de cette même personne à un autre test. Infractions à ce postulat : Procédure 1 X1 = T1 + E1 Sources de variation communes : effets de fatigue, d’humeur, d’ambiance, d’entraînement, conditions environnementales Procédure 2 X2 = T2 + E2 Importance de l’homogénéisation des conditions de mesure / testing Université de Mons Kathy Huet 21 Exemple 1 Si un sujet reçoit une longue liste de tests à effectuer, les derniers tests risquent fort d'être également influencés par la fatigue voire des attitudes négatives du testé. Les conditions d'administration dans ce cas entraînent donc une chute artificielle des performances du sujet. Les erreurs sont importantes (et négatives). Comme elles sont occasionnées par un même ensemble de facteurs, elles sont en fait corrélées. Université de Mons Kathy Huet 22 Exemple 2 Un effet d'apprentissage ou de familiarisation au testing (dans une série de plusieurs tests) peut entraîner un processus du même ordre. Dans ce cas cependant, l'erreur est positive : il y a en fait surévaluation des scores. Et donc une corrélation positive entre les erreurs de mesure aux tests. Université de Mons Kathy Huet 23 Postulat 4 : Indépendance de l’erreur de mesure à un test et le score vrai à un autre test rE 1T2=0 l'erreur sur un test (E1) ne peut être liée au score vrai d'un autre test (T2) l'erreur rela2ve à un test ne doit pas dépendre d'un autre trait non mesuré par l'épreuve. Une viola2on de ce prescrit peut être rencontrée dans le cas où une habileté spécifique exercerait une influence directe sur la mesure effectuée. Des consignes formulées dans un vocabulaire tel qu'une par2e seulement du public-cible les comprendra risquent de frapper les scores observés d'une erreur dépendant des ap2tudes des sujets à comprendre les consignes. Dans ce cas, l'erreur est donc bien corrélée à un trait spécifique que l'épreuve ne cherche pas à mesurer. Autre exemple dans un test d’aptitudes math : Université de Mons Kathy Huet 24 Exemple 1 Une personne déprimée risque fort de voir ses résultats à des tests d'aptitude décroître. Université de Mons Kathy Huet 25 Le TEST "Un test est une épreuve définie, impliquant une tâche à remplir, identique "Le test est une épreuve strictement pour tous les sujets examinés, avec une définie, dans ses conditions technique précise pour l'application du d'application et dans son mode de succès ou de l'échec, ou pour la notation notation, qui permet de situer un numérique de la réussite. La tâche peut sujet par rapport à une population comporter la mise en oeuvre, soit de elle-même bien définie connaissances acquises (tests (biologiquement et socialement)" pédagogiques), soit de fonctions sensori- motrices ou mentales (tests psychologiques) ». (René Zazzo, 1960). (Association Internationale de Psychotechnique, 1933). Université de Mons K. Huet 26 !!! FAKE !!!! Université de Mons K. Huet 27 Critères de qualifica0on d’un test Critères techniques Critères méthodologiques Critères épistémologiques Distinguer test et non-test Université de Mons Critères de qualification d’un test Critères techniques Université de Mons L’épreuve doit solliciter, de la part du sujet, l’effectuation d’une tâche : les dispositifs ne recourant pas à une mise à l’épreuve du sujet ne peuvent être appelées « test ». Université de Mons K. Huet 30 Le produit de la tâche doit être observable : les tâches ne conduisant à aucune manifestation comportementale ne peuvent supporter un « test ». Université de Mons K. Huet 31 La manifestation comportementale doit faire l’objet d’une numérisation : les épreuves produisant des comportements observables non descriptibles en termes quantitatifs ne devraient pas être appelés « test ». Université de Mons K. Huet 32 Les nombres représentant les comportements doivent pouvoir être comparés aux nombres caractérisant le sujet ordinaire : les épreuves dont les résultats ne peuvent être comparés aux normes d’une population de référence ne sont pas des « tests ». Université de Mons K. Huet 33 Les résultats obtenus par le sujet doivent pouvoir être exprimés en termes intelligibles, grâce au recours à une procédure de normalisation, qui autorise notamment les comparaisons entre épreuves différentes. Norme performance optimale Norme performance de personnes typiques Méthode : administration de l’épreuve à un grand groupe représentatif des individus visés (= échantillon de normalisation) qui sert à établir la performance moyenne et la variation des résultats. Université de Mons K. Huet 34 Critères de qualification d’un test Critères techniques Critères méthodologiques Université de Mons La mise à l’épreuve que constitue le test est issue de la même dynamique de pensée que celle qui fonde la notion d’expérimentation : l’affirmation de Claude Bernard consistant à présenter l’expérience comme une "observation provoquée" s’applique aussi à la notion de test. Plusieurs auteurs définissent d’ailleurs le test en recourant au mot expérience. Tous les prescrits s’appliquant à l’acte expérimental s’appliquent donc aussi au test. La rigueur dans l’application des consignes, l’évitement des sources de biais et, de manière plus générale, l’effort tendant à ne centrer le travail effectué que sur les seuls objectifs qui lui avaient été assignés sont autant de qualités requises pour le test. Université de Mons K. Huet 36 Critères de qualifica0on d’un test Critères techniques Critères méthodologiques Critères épistémologiques Université de Mons Le test doit être situé par rapport au cadre de savoir dans lequel il est inscrit. Il est, à cet effet, indispensable que soit défini : - sur quoi porte le test, c’est-à-dire l’objet de la mesure effectuée au moyen du test : il s’agit de déterminer quel est le trait visé par l’épreuve ; - à qui s’adresse le test, c’est-à-dire le sujet auquel le test s’applique : toute élaboration d’un test passe par l’établissement d’une définition précise de la population à laquelle il s’adresse. Université de Mons K. Huet 38 Mesure Test Université de Mons K. Huet 39 = chacune des questions d'un test, d'un questionnaire, L’ITEM ou chacune des propositions auxquelles il est demandé de réagir dans les échelles d'attitude, par ex. = un disposi*f visant à recueillir de l’informa*on en vue d’une exploita*on La consigne L’item L’information à traiter Le produit Le sujet : une « boîte noire » Université de Mons K. Huet 40 L’ITEM « Parmi les 8 dominos du bas, trouvez celui qui complète le mieux l’ensemble des 9 dominos du haut » Université de Mons K. Huet 41 Construire un schéma directeur Préciser le sujet du test Equilibrer le contenu du test Prototype Déterminer les nombres d’items Rédiger les items Concevoir la présentation matérielle du test Analyser les items Analyser la fiabilité globalement Rétroagir sur le test Analyser la validité globalement Standardiser le test TEST FINALISE Rendre les résultats intelligibles Université de Mons K. Huet 42 Etapes de la construction d’un test : théories de la fonction Préciser le sujet du test Théories psychologiques liées au trait (cognition, personnalité, etc.) Construire un schéma directeur Modèles pédagogiques de la définition des attentes scolaires (taxonomies, etc.) Equilibrer le contenu du test Théorie de la validité de contenu Déterminer les nombres d’items Rédiger les items Théorie de la rédaction d’item Concevoir la présentation matérielle du test Règles de bonne pratique Essayer le prototype Théorie de l’analyse d’item Analyser les items Analyser la fiabilité globalement Coefficients de fiabilité Analyser la validité globalement Mesure de la validité Rétroagir sur le test Standardiser le test Principes de standardisation Rendre les résultats intelligibles Principes de Codage des résultats Université de Mons K. Huet 43