Théories de la construction des tests PDF
Document Details
Uploaded by UnmatchedSerpentine5742
Université de Mons
Kathy Huet
Tags
Summary
Ce document présente les bases conceptuelles de la qualité des tests. Il détaille la théorie classique des tests, les concepts de fiabilité, de validité et des scores vrais. Cet article est une ressource pour la compréhension des principes de base des mesures en psychologie.
Full Transcript
Faculté de Psychologie et des Sciences de l’Educa6on AA : Théories de la construc3on des tests 1 Kathy Huet Université de Mons Principe de base : idée du trait latent inobser...
Faculté de Psychologie et des Sciences de l’Educa6on AA : Théories de la construc3on des tests 1 Kathy Huet Université de Mons Principe de base : idée du trait latent inobservable Trait de l’esprit humain Relation causale indirect observable Manifestation externe Technique de mesure mesure Université de Mons K. Huet 2 Principe de base : idée du trait latent Mesure bien ce qu’il est censé mesurer inobservable Trait de l’esprit humain Validité Relation causale observable Manifestation externe Technique Qualités métrologiques: de mesure Précision Constance Fiabilité mesure Université de Mons K. Huet 3 la notion de fiabilité La fiabilité d’une mesure se réfère à la précision avec laquelle un score (obtenu à la faveur d’un test) représente l'aptitude du sujet observé. Il s'agit donc d'une qualité technique du test. !!! Les mesures ne sont pas exemptes d’erreurs. Université de Mons K. Huet 4 la notion de validité La validité d’un test = son aptitude à mesurer ce qu’il est censé mesurer. ou encore : le test fournit-il bien l'information qui correspond à ce dont a besoin celui qui voudrait l'utiliser ? La validité réfère donc à l'ensemble des preuves qui doit conduire à nous assurer que l'interprétation des scores par les utilisateurs sera correcte. = un processus essentiel (fondamental) dans l'élaboration des tests Université de Mons K. Huet 5 Bases conceptuelles de l’appréciation de la qualité La Théorie classique des tests appelée aussi « Théorie classique des scores » (par Spearman en 1907 puis travaux de Gullisken (1950), Magnusson (1967), Lord et Novick (1968)) Université de Mons K. Huet 6 Pour pouvoir apprécier les résultats obtenus au moyen d’instruments de mesure, c’est-à-dire à quel point le score obtenu à un test reflète bien la compétence ou l’aptitude d’un individu en question, il est nécessaire de se doter d’un cadre conceptuel fourni par les théories des tests. !! Chaque théorie n’est qu’un modèle simplifié de la réalité. Chaque modèle s’ajuste plus ou moins à la réalité qu’il tente de décrire. Le modèle décrit ici = « Théorie des Scores Vrais » ou « Théorie classique des tests » ou « Théorie classiques des scores » Université de Mons Kathy Huet 7 POSTULAT DE BASE : il est impossible d'obtenir une mesure complètement exempte d'erreurs Postulat d’additivé des sources de variance X=T+E Valeur observée Score vrai Erreur score observé le score obtenu par un individu à un test (X) résulte de la somme d’une composante « vraie » (T:constante) et d’une composante d’erreur (E : erreur de mesure associée à T) = équation fondamentale de la Théorie des scores vrais Université de Mons Kathy Huet 8 On suppose donc qu’un individu possède un score « vrai » qui nous est inconnu. Il est possible de tenter de mesurer ce score vrai (cette mesure = X), mais il y a toujours Postulat d’additivé des une certaine erreur de mesure plus ou sources de variance moins importante et qui ne pourra jamais être évitée complètement. X n’est que le reflet variable de T. observable X=T+E inobservables Valeur observée, Score vrai Erreur score observé Correspond à un Éléments non contrôlés couple individu/tâche et non systématiques = valeur caractéristique = erreur réalisée lors de d’une personne à l’effectuation de la tâche une épreuve Variable systématique Aléatoire Université de Mons Kathy Huet 9 T : le score vrai = le score qu’un individu aurait obtenu dans des condi2ons idéales avec un instrument parfait. = la moyenne des scores (observés) obtenus par un sujet au départ d'un nombre infini d'administra2ons indépendantes du même instrument. CeAe défini2on suppose cependant que les erreurs qui entachent les performances à chaque essai soient non corrélées, c'est-à-dire qu'elles résultent de biais non systéma2ques (et donc aléatoires). = une en2té non observable, inconnue, fixe d’une répé22on à l’autre du test X : le score observé = le score observé, le score total à un test = en2té réelle, connue, variable d’une répé22on à l’autre du test E : le terme d’erreur = en2té non observable, inconnue, variable d’une répé22on à l’autre du test Université de Mons K. Huet 10 Le score observé (X) est aussi une variable aléatoire La probabilité d’obtenir un score (X) très supérieur ou très inférieur au score vrai diminue au fur et à mesure que l’on s’éloigne de ce score vrai (T) : exemple : en fait, l’erreur de mesure est distribuée normalement (puisque aléatoire) à le score observé (X) est lui-même distribué normalement autour du score vrai (T) 73 89 T = 85 X Distribution théorique des scores observés autour du score vrai Université de Mons Kathy Huet 11 Des postulats … E (X) = T rET=0 rE E 1 2=0 rE T 1 2=0 r = corrélation Université de Mons K. Huet 12 Postulat 1 : « La valeur attendue du score observé est le score vrai » E(X) = T « T est l'espérance mathématique de X » c’est-à-dire : une infinité de tentatives de mesures appliquées à une personne définie produirait des valeurs en moyenne égales à T, le score vrai. à la précision d’un score observé s’accroît avec le nombre d’observations sur un même individu. Théoriquement, ces mesures sont supposées être indépendantes. Dans la pratique, il est totalement impossible de mettre en place un tel schéma d'investigations; – il semble difficile de réaliser un très grand nombre (une infinité) de mesures sur un individu humain déterminé; – un phénomène de contamination risque fort d'apparaître, qui aurait pour effet de rendre les résultats d'une mesure dépendants soit de l'existence même, soit du résultat des mesures précédentes. Ne pas confondre : - notes vraies (individu/tâche) d'une part et - notes représentatives (score valide) d'un trait, d'autre part !!!!!!! Université de Mons Kathy Huet 13 Score vrai ≠ score représentatif d’un trait Exemple 1: effet « plafond » Supposons que l'on u2lise une épreuve des2née à mesurer l'intelligence de deux sujets ; ceAe épreuve est trop facile. Une boule de cristal nous a révélé que le sujet A est "vraiment" plus intelligent que le sujet B. L'épreuve u2lisée est cependant trop facile: les deux sujets "plafonnent" et chacun ob2ent la note maximale au test. A supposer qu'il soit possible de mener une infinité de mesures au moyen de l'épreuve sur chacun des 2 sujets, il est clair que ceAe entreprise produirait pour le sujet A, comme pour le sujet B, une valeur moyenne égale au maximum pouvant être obtenu à ce test. Autrement dit, le score vrai des 2 individus est similaire (égal en fait au maximum pouvant être obtenu) mais cela ne signifie cependant en rien que ceAe valeur maximum reflète le trait (intelligence) que l'on tentait de mesurer dans le chef de ces sujets. Université de Mons Kathy Huet 14 Score vrai ≠ score représentatif d’un trait Exemple 2 : effet « plancher » Supposons qu’un sujet analphabète passe un test d'intelligence La présentation des items recourt à des lettres, des mots voire des phrases. à Son score vrai (relation individu/tâche) est bas. Si au contraire, on lui fait passer un test d'intelligence recourant à des items essentiellement non verbaux, il présentera sans aucun doute un score vrai plus élevé. Dans les deux cas, on peut en toute rigueur parler de scores vrais même si le bon sens indique que le second test est plus proche de la « vérité » (et donc plus représentatif du trait). Dans les 2 cas il existe un score vrai Dans le cas 1, le score vrai n’est pas bien lié au trait mesuré; Université de Mons Kathy Huet 15 Score vrai ≠ Score valide Ces exemples montrent la différence entre la notion de score vrai, et de mesure valide La question de validité des mesures sera abordée ultérieurement; elle se rapporte à l'aptitude du test à mesurer ce qu'il est censé mesurer. Quelle que soit la validité de la procédure utilisée, on peut cependant toujours parler - dès qu'une mesure est réellement recueillie – de scores vrais, de scores observés, d'erreurs de mesures. Université de Mons Kathy Huet 16 avant de continuer : une CONVENTION SYMBOLE de la corrélation quelque soit son mode de calcul r (Lettre grecque « Rho ») !! Ne pas confondre avec un coefficient spécifique qui s’appelle « le Rho de Spearman » Université de Mons Kathy Huet 17 Postulat 2 : Indépendance de l’erreur de mesure et du score vrai rET=0 l'erreur doit être indépendante du score vrai: son amplitude ne doit pas dépendre de celle du score : à l’erreur de mesure ne sera pas plus grande si un individu a un score vrai élevé ou plus faible si il a un score vrai faible Université de Mons Kathy Huet 18 Exemple 1 Un enseignant est obligé de faire passer une épreuve dans un local dont l'acoustique est particulièrement désastreuse. Il sait que les élèves installés au fond de la salle ne percevront que très approximativement ses paroles. Les consignes de son épreuve sont cependant données oralement. Dans le but louable de ne pas défavoriser les élèves faibles, il demande à ces derniers de s'installer au 1er rang. Cette situation est typiquement en infraction avec le postulat d'indépendance de l'erreur et du score vrai, en effet : -Résultats : - amoindrissement de l’erreur de mesure dans le chef d'élèves à scores vrais bas - accroissement de l’erreur de mesure dans le chef d’élèves à scores vrais élevés. à les conditions acoustiques provoqueront des erreurs de mesure d'autant plus grandes que le score vrai de l'élève sera important. Voilà donc ici une erreur positivement corrélée avec le score vrai. Université de Mons Kathy Huet 19 Exemple 2 A l'occasion d'une épreuve académique, des étudiants faibles copient sur des étudiants forts. Cette situation est également en infraction avec le postulat d'indépendance. En effet, les étudiants forts ne seront pas affectés, dans leurs performances, par le dispositif. Néanmoins, l'erreur de mesures opérée sur le score des étudiants faibles sera importante : leurs résultats seront systématiquement surévalués. Dans le cas présent, on observe donc une corrélation négative entre erreur et scores vrais: l'erreur est d'autant plus importante que le score vrai est faible. Université de Mons Kathy Huet 20 Postulat 3 : Indépendance des erreurs de test à test rE 1E2=0 les erreurs relatives à deux tests différents (E1 et E2) ne doivent présenter aucune corrélation les erreurs d'une personne à un test ne doivent pas permettre de prédire les erreurs de cette même personne à un autre test. Infractions à ce postulat : Procédure 1 X1 = T1 + E1 Sources de variation communes : effets de fatigue, d’humeur, d’ambiance, d’entraînement, conditions environnementales Procédure 2 X2 = T2 + E2 Importance de l’homogénéisation des conditions de mesure / testing Université de Mons Kathy Huet 21 Exemple 1 Si un sujet reçoit une longue liste de tests à effectuer, les derniers tests risquent fort d'être également influencés par la fatigue voire des attitudes négatives du testé. Les conditions d'administration dans ce cas entraînent donc une chute artificielle des performances du sujet. Les erreurs sont importantes (et négatives). Comme elles sont occasionnées par un même ensemble de facteurs, elles sont en fait corrélées. Université de Mons Kathy Huet 22 Exemple 2 Un effet d'apprentissage ou de familiarisation au testing (dans une série de plusieurs tests) peut entraîner un processus du même ordre. Dans ce cas cependant, l'erreur est positive : il y a en fait surévaluation des scores. Et donc une corrélation positive entre les erreurs de mesure aux tests. Université de Mons Kathy Huet 23 Postulat 4 : Indépendance de l’erreur de mesure à un test et le score vrai à un autre test rE 1T2=0 l'erreur sur un test (E1) ne peut être liée au score vrai d'un autre test (T2) l'erreur rela2ve à un test ne doit pas dépendre d'un autre trait non mesuré par l'épreuve. Une viola2on de ce prescrit peut être rencontrée dans le cas où une habileté spécifique exercerait une influence directe sur la mesure effectuée. Des consignes formulées dans un vocabulaire tel qu'une par2e seulement du public-cible les comprendra risquent de frapper les scores observés d'une erreur dépendant des ap2tudes des sujets à comprendre les consignes. Dans ce cas, l'erreur est donc bien corrélée à un trait spécifique que l'épreuve ne cherche pas à mesurer. Autre exemple dans un test d’aptitudes math : Université de Mons Kathy Huet 24 Exemple 1 Une personne déprimée risque fort de voir ses résultats à des tests d'aptitude décroître. Université de Mons Kathy Huet 25 Le TEST "Un test est une épreuve définie, impliquant une tâche à remplir, identique "Le test est une épreuve strictement pour tous les sujets examinés, avec une définie, dans ses conditions technique précise pour l'application du d'application et dans son mode de succès ou de l'échec, ou pour la notation notation, qui permet de situer un numérique de la réussite. La tâche peut sujet par rapport à une population comporter la mise en oeuvre, soit de elle-même bien définie connaissances acquises (tests (biologiquement et socialement)" pédagogiques), soit de fonctions sensori- motrices ou mentales (tests psychologiques) ». (René Zazzo, 1960). (Association Internationale de Psychotechnique, 1933). Université de Mons K. Huet 26 !!! FAKE !!!! Université de Mons K. Huet 27 Critères de qualifica0on d’un test Critères techniques Critères méthodologiques Critères épistémologiques Distinguer test et non-test Université de Mons Critères de qualification d’un test Critères techniques Université de Mons L’épreuve doit solliciter, de la part du sujet, l’effectuation d’une tâche : les dispositifs ne recourant pas à une mise à l’épreuve du sujet ne peuvent être appelées « test ». Université de Mons K. Huet 30 Le produit de la tâche doit être observable : les tâches ne conduisant à aucune manifestation comportementale ne peuvent supporter un « test ». Université de Mons K. Huet 31 La manifestation comportementale doit faire l’objet d’une numérisation : les épreuves produisant des comportements observables non descriptibles en termes quantitatifs ne devraient pas être appelés « test ». Université de Mons K. Huet 32 Les nombres représentant les comportements doivent pouvoir être comparés aux nombres caractérisant le sujet ordinaire : les épreuves dont les résultats ne peuvent être comparés aux normes d’une population de référence ne sont pas des « tests ». Université de Mons K. Huet 33 Les résultats obtenus par le sujet doivent pouvoir être exprimés en termes intelligibles, grâce au recours à une procédure de normalisation, qui autorise notamment les comparaisons entre épreuves différentes. Norme performance optimale Norme performance de personnes typiques Méthode : administration de l’épreuve à un grand groupe représentatif des individus visés (= échantillon de normalisation) qui sert à établir la performance moyenne et la variation des résultats. Université de Mons K. Huet 34 Critères de qualification d’un test Critères techniques Critères méthodologiques Université de Mons La mise à l’épreuve que constitue le test est issue de la même dynamique de pensée que celle qui fonde la notion d’expérimentation : l’affirmation de Claude Bernard consistant à présenter l’expérience comme une "observation provoquée" s’applique aussi à la notion de test. Plusieurs auteurs définissent d’ailleurs le test en recourant au mot expérience. Tous les prescrits s’appliquant à l’acte expérimental s’appliquent donc aussi au test. La rigueur dans l’application des consignes, l’évitement des sources de biais et, de manière plus générale, l’effort tendant à ne centrer le travail effectué que sur les seuls objectifs qui lui avaient été assignés sont autant de qualités requises pour le test. Université de Mons K. Huet 36 Critères de qualifica0on d’un test Critères techniques Critères méthodologiques Critères épistémologiques Université de Mons Le test doit être situé par rapport au cadre de savoir dans lequel il est inscrit. Il est, à cet effet, indispensable que soit défini : - sur quoi porte le test, c’est-à-dire l’objet de la mesure effectuée au moyen du test : il s’agit de déterminer quel est le trait visé par l’épreuve ; - à qui s’adresse le test, c’est-à-dire le sujet auquel le test s’applique : toute élaboration d’un test passe par l’établissement d’une définition précise de la population à laquelle il s’adresse. Université de Mons K. Huet 38 Mesure Test Université de Mons K. Huet 39 = chacune des questions d'un test, d'un questionnaire, L’ITEM ou chacune des propositions auxquelles il est demandé de réagir dans les échelles d'attitude, par ex. = un disposi*f visant à recueillir de l’informa*on en vue d’une exploita*on La consigne L’item L’information à traiter Le produit Le sujet : une « boîte noire » Université de Mons K. Huet 40 L’ITEM « Parmi les 8 dominos du bas, trouvez celui qui complète le mieux l’ensemble des 9 dominos du haut » Université de Mons K. Huet 41 Construire un schéma directeur Préciser le sujet du test Equilibrer le contenu du test Prototype Déterminer les nombres d’items Rédiger les items Concevoir la présentation matérielle du test Analyser les items Analyser la fiabilité globalement Rétroagir sur le test Analyser la validité globalement Standardiser le test TEST FINALISE Rendre les résultats intelligibles Université de Mons K. Huet 42 Etapes de la construction d’un test : théories de la fonction Préciser le sujet du test Théories psychologiques liées au trait (cognition, personnalité, etc.) Construire un schéma directeur Modèles pédagogiques de la définition des attentes scolaires (taxonomies, etc.) Equilibrer le contenu du test Théorie de la validité de contenu Déterminer les nombres d’items Rédiger les items Théorie de la rédaction d’item Concevoir la présentation matérielle du test Règles de bonne pratique Essayer le prototype Théorie de l’analyse d’item Analyser les items Analyser la fiabilité globalement Coefficients de fiabilité Analyser la validité globalement Mesure de la validité Rétroagir sur le test Standardiser le test Principes de standardisation Rendre les résultats intelligibles Principes de Codage des résultats Université de Mons K. Huet 43 Faculté de Psychologie et des Sciences de l’Education AA : Théories de la construction des tests 2 Kathy Huet Université de Mons POSTULAT DE BASE : il est impossible d'obtenir une mesure complètement exempte d'erreurs Postulat d’additivé des sources de variance T X=T+E 0 E Valeur observée Score vrai Erreur score observé le score obtenu par un individu à un test (X) résulte de la somme d’une composante « vraie » (T:constante) et d’une composante d’erreur (E : erreur de mesure associée à T) = équation fondamentale de la Théorie des scores vrais Université de Mons Kathy Huet 2 Construire un schéma directeur Préciser le sujet du test Equilibrer le contenu du test Prototype Déterminer les nombres d’items Rédiger les items Concevoir la présentation matérielle du test Analyser les items Analyser la fiabilité globalement Rétroagir sur le test Analyser la validité globalement Standardiser le test TEST FINALISE Rendre les résultats intelligibles Université de Mons K. Huet 3 Etapes de la construction d’un test : théories de la fonction Préciser le sujet du test Théories psychologiques liées au trait (cognition, personnalité, etc.) Construire un schéma directeur Modèles pédagogiques de la définition des attentes scolaires (taxonomies, etc.) Equilibrer le contenu du test Théorie de la validité de contenu Déterminer les nombres d’items Rédiger les items Théorie de la rédaction d’item Concevoir la présentation matérielle du test Règles de bonne pratique Essayer le prototype Théorie de l’analyse d’item Analyser les items Analyser la fiabilité globalement Coefficients de fiabilité Analyser la validité globalement Mesure de la validité Rétroagir sur le test Standardiser le test Principes de standardisation Rendre les résultats intelligibles Principes de Codage des résultats Université de Mons K. Huet 4 1. Préciser le sujet Il faut d’abord se demander pourquoi est construit le test, ce qu’il cherche à investiguer. Que mesure-t-on? Trait visé Auprès de qui mesure-t-on? Population visée-univers de généralisation En vue de quoi mesure-t-on? Objectif poursuivi par l’utilisateur du test Où mesure-t-on? Contexte d’utilisation du test Dans quelles circonstances mesure-t-on? Contraintes Par exemple : le test GRIMS (Rust et Golombok 1988) investigue la qualité des relations dans des couples hétérosexuels qui sont mariés ou vivent ensemble ; il est conçu pour une utilisation par des conseillers conjugaux dans le cadre institutionnel de la sécurité sociale britannique ; il doit être passé rapidement. Université de Mons K. Huet 5 2. Construire un schéma directeur C’est une charpente qui va aider à la construction de l’outil (pour assurer la validité de contenu (validité logique) = tableau à double entrée : en colonne les contenus et en ligne les manifestations. couvrent tout ce qui se rapporte au thème du test Contenus Item(s) Item(s) Item(s) Item(s) Item(s) Item(s) Item(s) Item(s) Manifestations Item(s) Item(s) Item(s) Item(s) les manières selon Item(s) Item(s) Item(s) Item(s) lesquelles les aires de contenu peuvent se manifester Université de Mons K. Huet 6 Exemple Tests « GRIMS » de Rust et al; (1988) Golombok Rust Inventory of Marital State But : mesurer la qualité de la relation dans les couples hétérosexuels qui sont mariés ou vivent ensemble Appel à des experts et des thérapeutes pour définir les Aires de contenu (8) : Université de Mons K. Huet 7 Exemple Tests « GRIMS » de Rust et al; (1988) Golombok Rust Inventory of Marital State But : mesurer la qualité de la relation dans les couples hétérosexuels qui sont mariés ou vivent ensemble Appel à des experts et des thérapeutes pour définir les manifestations (5) : Université de Mons K. Huet 8 Exemple Test « GRIMS » de Rust et al; (1988) Golombok Rust Inventory of Marital State Manifestations Aires de contenu Une cellule contient entre 3 et 6 items à tester Total = 183 items pour la version pilote GRIMS = Test à 28 items Université de Mons K. Huet 9 Exemple : échelle de fatigue MFIS Modified fatigue impact scale Contenus Fatigue Fatigue Fatigue sociale physique cognitive Soutenir un effort Mauvaise mémoire Manifs. Vigilance Pensées claires Université de Mons K. Huet 10 Exemple : échelle de fatigue MFIS Les items Modified fatigue impact scale Jms Rarement Pfs Svt Presque tjs 1 J’ai été moins vigilant 0 1 2 3 4 J’ai eu des difficultés à prêter attention 2 0 1 2 3 4 pendant de longues périodes 3 J’ai été incapable de penser clairement 0 1 2 3 4 4 J’ai été maladroit et incoordonné 0 1 2 3 4 5 J’ai eu très mauvaise mémoire 0 1 2 3 4 J’ai du trouver mon rythme dans mes 6 0 1 2 3 4 activités physiques J’ai été moins motivé pour faire ce qui 7 0 1 2 3 4 nécessite un effort physique J’ai été moins motivé pour participer à 8 0 1 2 3 4 des activités sociales J’ai été moins capable de faire des choses 9 0 1 2 3 4 hors de la maison J’ai des difficultés pour soutenir un effort 10 0 1 2 3 4 pendant de longues périodes Université de Mons K. Huet 11 3. Equilibrer le contenu du test Tableau à double entrée (schéma directeur) : àImportance d’un contenu ou d’une manifestation est en lien avec le nombre d’items à Pondération des lignes ou des colonnes c’est-à-dire décider pour quelles cases on construit plus d’items que pour d’autres. Cela dépend si l’on considère certaines cases de contenu ou de manifestation plus importantes que d’autres. A B C D 40 % 40 % 10 % 10 % W 25 % X 25% Y 25 % Z 25 % Université de Mons K. Huet 12 3. Equilibrer le contenu du test table de spécification : exemple « Manifestations » « Contenus » Points de matière Catégorie de performances Modalités de questionnement à évaluer Université de Mons K. Huet 13 4. Déterminer les nombres d’items L’étape suivante est de décider du nombre total d’items à inclure. Pour cela, il faut considérer : La taille du tableau (schéma directeur) Le temps dont on dispose pour la passation Les caractéristiques des répondants (maladie, fatigue…) On considère généralement qu’il faut un minimum de 20 items pour assurer la fiabilité. S’il est nécessaire de construire une version pilote, on inclut dans celle-ci au moins deux fois plus d’items que le nombre attendu dans la version finale du test. Université de Mons K. Huet 14 Exemple pour un test de 40 items à schéma directeur de la version pilote : Nombre A B C D total 40 % 40 % 10 % 10 % d’items W 25 % 8 8 2 2 20 X 25% 8 8 2 2 20 Y 25 % 8 8 2 2 20 Z 25 % 8 8 2 2 20 Nombre total 32 32 8 8 80 d’items Université de Mons K. Huet 15 5. Rédiger les items « Parmi les 8 dominos du bas, trouvez celui qui complète le mieux l’ensemble des 9 dominos du haut » Université de Mons K. Huet 16 5. Rédiger les items Quel produit doit-il provoquer? – Une déclaration (orale/écrite) (longue/brève) – Des marques graphiques – La modification d’un objet – … Quelle activité doit-il susciter? – Mémoire, analyse, comparaison, description, spéculation, éducation de relations,... Quelle consigne doit-il comporter? – Explicites / implicites – Orales / écrites – … Quelle information doit-il mettre à la disposition du sujet? – Objets – Images – Sons – Souvenirs – … Université de Mons K. Huet 17 Exploitation par observation du produit Université de Mons Kathy Huet 18 Exemple : Test du village Origines: Arthus (1949,), Mabille (1950), Muchielli (1960) Université de Mons Kathy Huet 19 Exploitation par chronométrie t0 Δt t1 Université de Mons Kathy Huet 20 Exemple : Test des disques de Bonnardel Zurfluh, J., 1976 Université de Mons Kathy Huet 21 Exploitation par auto-évaluation Le sujet est amené à prendre position par rapport à un fait qu’il doit se remémorer ou imaginer Université de Mons Kathy Huet 22 Exemple Exemples : Ex. BDI: « Quand je pense à mon passé, je constate un grand nombre d’échecs » Ex. Self Esteem Test « Au travail j’aime quand on vient me trouver pour me demander quelque chose » Exemple Université de Mons Kathy Huet 23 5. Rédiger les items Questions ouvertes vs. questions fermées Questions ouvertes: – Le répondant est libre du contenu, de la forme et de de l’ampleur de la réponse. Aucune réponse n’est suggérée: c’est au répondant de formuler le produit attendu. avantages et inconvénients Questions fermées: – Le répondant doit choisir sa réponse parmi un éventail de réponses proposées. Les contenus sont prévus, la forme et l’ampleur sont fixées. avantages et inconvénients Université de Mons K. Huet 24 5. Rédiger les items Le cas des questions fermées : Plusieurs types d'items peuvent être utilisés : § Choix alternatif : vrai/faux, oui/non Exemple : § Questions à choix multiples (QCM) Exemple : Université de Mons K. Huet 25 5. Rédiger les items - Règles de rédaction des items. - Plusieurs types d’échelles de mesure peuvent être utilisées : §Echelles de type Likert Exemples : Université de Mons K. Huet 26 5. Rédiger les items Le type d'option doit être choisi afin d'adapter le matériel à présenter dans le test. Il n'y a pas d'option qui soit meilleure qu'une autre. Le nombre d'options dans un QCM dépend de la nature du test. Il est important de fournir un nombre suffisant pour que les répondants puissent s'exprimer au mieux. Il est parfois nécessaire d'utiliser différents types d'items. Il faut s'assurer que les items s'accordent avec le schéma directeur. Il convient d'écrire chaque item clairement, de manière simple. Chaque item doit poser une seule question. Pour les choix alternatifs, il faut s'assurer qu'ils puissent être classés sans hésitation comme vrais ou faux. Université de Mons K. Huet 27 6. Concevoir la présentation matérielle du test Un bon design est crucial pour produire un test fiable et valide. Les répondants prennent leur tâche plus au sérieux si on leur présente un matériel agencé de façon claire et s'il est facile à comprendre. Informations à propos du sujet : laisser assez de place pour que le répondant puisse indiquer son âge, son sexe, ou toute autre information que vous désirez. Consignes : les consignes doivent être claires et non ambiguës. Elles doivent indiquer au sujet comment répondre et comment indiquer sa réponse. Agencement des questions et des réponses : doit être clair et simple. Mode d’emploi Université de Mons K. Huet 28 7. Essayer le prototype L'étape suivante est l'étude pilote c'est-à-dire essayer l’outil auprès de personnes qui ont des caractéristiques semblables au public cible. Les analyses de ces données vont aider à sélectionner les meilleurs items pour la version finale. La version pilote doit être administrée au maximum de sujets possible. Le nombre minimal de répondants doit être supérieur au nombre d'items. Université de Mons K. Huet 29 8. Analyser les items L'analyse d'items des données collectées sur une population de référence dans l'étude pilote a pour but de sélectionner les meilleurs items pour la version finale du test. Cela implique l’examen de différents indices tels que : - l’indice de difficulté de chaque item - l’indice de discrimination de chaque item. (voir plus loin) La plupart des tests sont construits afin de différencier les répondants selon la caractéristique mesurée. Un bon item, donc, est un item pour lequel différents répondants donnent différentes réponses (psychométrie). Université de Mons K. Huet 30 9. Analyser la fiabilité globalement Test-retest : implique d'administrer le même test aux mêmes répondants dans les mêmes circonstances à deux occasions et de corréler les scores. Un biais peut intervenir : les répondants peuvent se souvenir des réponses qu'ils ont fournies lors de la première passation. Formes parallèles : dans ce cas, il est nécessaire de construire deux formes équivalentes du test et d'administrer les deux aux mêmes répondants afin de corréler les scores. La principale difficulté est de sélectionner deux ensembles équivalents d'items. Split-half : le test est divisé en deux parties et la corrélation entre les parties est utilisée pour produire une estimation de la fiabilité du test entier. Etc. Université de Mons K. Huet 31 Epreuves parallèles Deux épreuves sont réputées parallèles si elles satisfont aux conditions suivantes: respecter l'ensemble des postulats précédemment envisagés égalité des scores vrais: T = T' égalité des variances d'erreurs: σ2 = σ2 E E‘ Université de Mons K. Huet 32 Epreuves parallèles l'égalité des variances d'erreur supposent que toutes les conditions provoquant des erreurs de mesures doivent influer de la même manière sur les deux épreuves parallèles. Deux épreuves par ailleurs fort similaires ne pourraient être considérées comme parallèles si l'une d'entre elles était plus sensible que l'autre à des facteurs environnementaux ou à des effets de fatigue par exemple. les relations de chacun des deux tests avec d'autres tests doivent être similaires. deux tests parallèles ne doivent pas nécessairement présenter des mesures parfaitement corrélées. Si tous deux en effet présentent les mêmes scores vrais, il n'est pas prévu que les erreurs soient similaires aussi. Le seul cas où une corrélation parfaite pourrait être constatée entre les scores observés de deux tests parallèles serait celui où les variances d'erreurs des tests seraient nulles. Université de Mons K. Huet 33 10. Analyser la validité globalement La validité d'un test est sa capacité à mesurer ce qu'il est censé mesurer. Elle doit donc être déterminée en relation avec le sujet du test. Il y a plusieurs types de validité dont : Validité de contenu : c'est la relation entre le contenu et le sujet du test c'est-à-dire s'il y a ou non un bon accord entre la spécificité du test et la spécificité de la tâche. à Validité d’apparence : décrit l'apparence du test aux répondants c'est-à-dire si le test semble ou non mesurer ce qu'il prétend mesurer. Si non, les répondants peuvent ne pas prendre le test au sérieux. à Validité logique : voir schéma directeur (plus haut) Université de Mons K. Huet 34 10. Analyser la validité globalement Validité critérielle : c'est la relation entre les scores au test et la mesure du critère (comportement que l’on veut prédire par les scores au test). Par exemple, dans un test sur la vie maritale, il faut s'attendre à ce que des couples en séparation obtiennent un score indicatif d'un problème marital. Validité prédictive : elle met en relation les scores obtenus à une mesure future. Par exemple, la validité prédictive d'un test sur les problèmes maritaux peut être calculée en corrélant les scores au test avec un divorce futur. Etc. Université de Mons K. Huet 35 Construire un schéma directeur Préciser le sujet du test Equilibrer le contenu du test Prototype Déterminer les nombres d’items Rédiger les items Concevoir la présentation matérielle du test Analyser les items Analyser la fiabilité globalement Rétroagir sur le test Analyser la validité globalement Standardiser le test TEST FINALISE Rendre les résultats intelligibles Université de Mons K. Huet 36 11. Rétroagir sur le test Modifier Supprimer des items Modifier des items Ajouter des items nouveaux Modifier les consignes Modifier la présentation, Etc. Essayer Analyser Etc. Université de Mons K. Huet 37 Construire un schéma directeur Préciser le sujet du test Equilibrer le contenu du test Prototype Déterminer les nombres d’items Rédiger les items Concevoir la présentation matérielle du test Analyser les items Analyser la fiabilité globalement Rétroagir sur le test Analyser la validité globalement Standardiser le test TEST FINALISE Rendre les résultats intelligibles Université de Mons K. Huet 38 12. Standardiser le test Cette étape implique l'obtention de scores à la version finale du test pour des groupes adéquats de répondants. Ces scores sont appelés des normes. Un grand nombre de répondants doit être soigneusement sélectionné selon des critères clairement spécifiés afin d'établir des normes significatives. Avec de bonnes normes, il est possible d'interpréter le score d'un répondant afin de savoir si son score est typique ou non d'une population déterminée. Université de Mons K. Huet 39 La signifiance: donner un sens au nombre (1) La population (2) On dresse la de référence subit distribution des l’épreuve résultats (3) l’individu lambda subit l’épreuve et peut être localisé dans la distribution de référence Université de Mons 13. Rendre les résultats intelligibles Des scores des items au score du test : Procédures de transformation des scores : Stanines Notes T Notes normales centrées réduites Notes au format QI Etc. Le but: – faire en sorte que quiconque connaisse le format de notation puisse se faire une idée de ce que signifie la note au test, même sans connaître le contenu de celui-ci Le principe: – Ramener la note observée à un format se caractérisant par Son centre Sa dispersion Université de Mons K. Huet 41 Notes normales centrées réduites 1 0 Université de Mons K. Huet 42 Notes au format QI 15 100 Université de Mons K. Huet 43 Notes T 10 50 Université de Mons K. Huet 44 Stanines (pour Standard Nine) 2 1 2 3 4 5 6 7 8 9 Université de Mons K. Huet 45 Exercice : Cinq sujets issus d’une même classe ont chacun passé un test d’intelligence. Il s’agit de 5 tests différents : l’élève « a » passe le test A, l’élève « b » passe le test B, l’élève « c » passe le test C, etc. Les résultats sont les suivants : -« a » est au Stanine 5 au test A ; -« b » a une note normale centrée réduite de 0.5 au test B ; -« c » a une note de 70 au format QI au test C ; -« d » a un T score de 70 au test D ; -« e » a une note normale centrée réduité de -1.25 au test E Classez les sujets par ordre de niveau d’intelligence tel que révélé par les tests : c e a b d Université de Mons K. Huet 46 Faculté de Psychologie et des Sciences de l’Education AA : Théories de la construc3on des tests 3 Les items : Rédaction et analyse Kathy Huet Université de Mons La rédaction des items Questions ouvertes et questions fermées Université de Mons K. Huet 2 Rédaction des items « Ques&ons » ouvertes vs. « ques&ons » fermées « Questions » ouvertes: – Le répondant est libre du contenu, de la forme et de l’ampleur de la réponse. Aucune réponse n’est suggérée: c’est au répondant de formuler le produit attendu. « Questions » fermées: – Le répondant doit choisir sa réponse parmi un éventail de réponses proposées. Les contenus sont prévus, la forme et l’ampleur sont fixées. Université de Mons Ques0ons ouvertes Intérêts Inconvénients La réponse révèle les catégories Risque d’introduction mentales du sujet lui-même, sa d’informations non « manière de voir le monde » standardisées si le sujet Le sujet se perçoit plus libre de demande des compléments ou répondre, l’activité est moins veut s’assurer qu’il a bien perçu aliénante, la communication est l’attente moins artificielle Flou des réponses dû à des Il est possible de recueillir des problèmes d’expression et/ou de réponses qui n’auraient pas été maîtrise du langage par le anticipées répondant Facilité (apparente) de rédaction Difficultés conceptuelle et / conception ergonomique de codage / notation Sensibilité à l’infiabilité inter- correcteurs Temps nécessaire au traitement Université de Mons Kathy Huet 4 Questions fermées Intérêts Inconvénients Égalité des sujets devant la Le sujet est moins libre dans sa question réponse; il doit se plier à ce qui Opérationnalité lui est proposé Facilité de codage des réponses Il est impossible de recueillir des Haute résistance à l’infiabilité réponses qui n’auraient pas été inter-correcteurs anticipées Rapidité de traitement Difficulté de rédaction / Possibilité d’automatisation : conception Saisie optique: capturer l’information Traitement informatique des réponses: analyser l’information Université de Mons Kathy Huet 5 Quelques considérations … « Le choix entre des questions ouvertes ou des questions fermées est souvent déterminé par les a priori plus que par une réelle connaissance de leurs propriétés respectives. De nombreux praticiens rejettent viscéralement les questions fermées, accusées de réduire l'apprentissage à une simple accumulation de connaissances, de négliger les compétences cognitives les plus élevées, d'encourager le «bachotage »... Certaines de ces critiques sont certes fondées, mais la plupart ne témoignent que du manque d'information de leurs auteurs. En fait, il n'y a pas lieu de décider dans l'absolu de choisir des questions ouvertes ou des questions fermées. Aucun format n'est le meilleur « en général ». Le problème doit être posé en d'autres termes. La véritable question est en effet: «quand faut-il utiliser tel ou tel format d'item? ». C'est en fonction des objectifs du test et de ses conditions d'application qu'un format peut être considéré comme le plus adéquat. » Grégoire et Laveault, 1997 Université de Mons Kathy Huet 6 Quelques considérations … Les questions fermées ont la réputation de ne permettre d'évaluer que les niveaux les plus bas de la taxonomie des objectifs cognitifs de Bloom (…). En particulier, de nombreux praticiens croient que les questions fermées n'évaluent que les connaissances et non les capacités cognitives. Ils confondent en fait l'usage qui est généralement fait de ce type de questions et les possibilités effectives offertes par celles-ci. En réalité, tous les niveaux de capacité cognitive peuvent être évalués avec des questions fermées. De ce point de vue, les questions à choix multiple et les questions d'appariement offrent un potentiel rarement exploité. Les deux exemples suivants illustrent cette possibilité d'évaluer des capacités de haut niveau au moyen de questions fermées (d'après Wiersma & Jurs, 1990, p.53): Ex. de ques*on fermée nécessitant un traitement cogni*f complexe Grégoire et Laveault, 1997 Université de Mons Kathy Huet 7 Quelques considérations … « Comme on peut le voir, les possibilités offertes par les questions fermées sont plus larges qu'on ne le pense habituellement. Leurs limites sont celles de l'imagination de leur créateur. En fait, ce que mesurent les questions fermées est déterminé plus par leur contenu que par leur format. » Grégoire et Laveault, 1997 Ex. de ques*on fermée nécessitant un traitement cogni*f complexe Université de Mons Kathy Huet 8 Quelques considérations … « Toutefois, il faut reconnaître que, par leur nature, certaines capacités ne peuvent pas être mesurées par des questions fermées. Il est évident que les capacités dactylographiques d'une secrétaire ne peuvent être évaluées qu'au travers d'un travail de dactylographie. De même, pour apprécier les capacités de rédaction d'un étudiant, il conviendra de lui demander de produire un texte écrit. D'une manière générale, lorsque l'évaluation veut prendre en compte la structuration et l'expression de la pensée, l'usage de questions ouvertes est nécessaire. » Grégoire et Laveault, 1997 Université de Mons Kathy Huet 9 Construire et u+liser des ques+ons ouvertes - à réponse contrainte - à réponse développée - à réponse brève Université de Mons Les questions ouvertes à réponse contrainte Le comportement du sujet est (parWellement) structuré par des direcWves contenues dans la quesWon Exemples : Université de Mons Kathy Huet 11 Les questions ouvertes à réponse développée Le comportement du sujet est totalement libre, tant en ce qui concerne la structuration que la longueur Exemple : Université de Mons Kathy Huet 12 Les questions ouvertes à réponse brève Questions ouvertes qui cherchent à se rapprocher des questions fermées, d’où la brièveté de la réponse attendue Exemple : !!! Cependant, leur contenu influe beaucoup sur les risques de subjectivité de la correction : Exemple : Stopper ? Donnez un synonyme de « arrêter » Appréhender ? Université de Mons Kathy Huet 13 !!! Clarifier la question U7liser des verbes faisant référence aux capacités que l’on souhaite évaluer: – Ex. expliquer, comparer, évaluer, décrire, interpréter, criJquer, … Exemples : Université de Mons Kathy Huet 14 Construire et utiliser des questions fermées ou QCM (Questions à Choix Multiple) Université de Mons Ques=ons à choix mul=ple (items polytomiques) « Une question à laquelle l’étudiant répond en opérant une sélection (au moins) parmi plusieurs solutions proposées (au moins deux), chacune étant jugée (par le constructeur de l’épreuve) correcte ou incorrecte en soi et indépendamment de l’étudiant interrogé" Dieudonné LECLERC (Bruxelles – 1986) Exemple : amorce solution distracteurs ou leurres alterna*ves Université de Mons Kathy Huet 16 Les ques1ons à choix mul1ples peuvent se présenter sous différentes formes : Réponses binaires (ou dichotomiques) Réponse unique Réponses multiples Réponse à énumération classée (+ variante) Réponse par association (appariement) Réponse par exclusion (chassez l’intrus) Université de Mons Kathy Huet 17 QCM à Réponses dichotomiques Réponses Vrai-Faux : Exemple : Difficulté: risque élevé de bonne réponse par hasard (50% de chances) Université de Mons Kathy Huet 18 QCM à Réponses dichotomiques Le caractère dichotomique peut être exprimé autrement que par « vrai » - « faux » meilleur choix : Eviter interférences sémanTques entre l’affirmaTon et l’expression de la réponse proposée; ici, si le sujet est d’accord, il peut répondre soit OUI: « je suis d’accord avec l’idée que je n’ai pas de projet », soit NON: « non, je n’ai pas de projet » Université de Mons Kathy Huet 19 QCM à Réponse unique une affirmation est énoncée, plusieurs réponses sont Exemples : proposées, une seule est valide Avantage : Plus le nombre d’alterna7ves est élevé, plus la probabilité de tomber sur la bonne réponse en répondant au hasard est faible Université de Mons Kathy Huet 20 QCM à Réponses multiples Plusieurs réponses sont proposées, la bonne réponse Exemple : exige de cocher plusieurs cases Université de Mons Kathy Huet 21 QCM à énuméra=on classée (+ variante) Exemple : Lorsque la réponse exacte comporte plusieurs éléments : variante : Cette variante de l’énumération classée, demande plus d’attention que la question précédente Université de Mons Kathy Huet 22 Réponses par associa1on (à appariement) prémisses réponses Université de Mons Kathy Huet 23 La question à appariement est un « compactage » de plusieurs questions à choix multiple …avec la contrainte supplémentaire de la liaison des réponses fournies (degrés de liberté) Université de Mons Kathy Huet 24 La limita=on des réponses possibles par épuisement du nombre de degrés de liberté Solution: rendre asymétrique la liste des prémisses et celle des réponses 25 Université de Mons Kathy Huet Réponses par exclusion (chassez l’intrus) Ce type de questions demande plus d’attention pour le répondant surtout si au milieu d’un ensemble de questions « positives » Université de Mons Kathy Huet 26 Réponses par exclusion (chasser l’intrus) Attention : la solution doit être univoque Université de Mons Kathy Huet 27 Échelles de Likert / ra=ng scales (items catégoriels bipolaires) Répondent au besoin de nuancer une posi7on entre deux extrêmes (= ouvrir un item dichotomique); les réponses se situent sur un con7nuum Les catégories peuvent être nommées (alors en fonc7on du type de tâche): Évaluer un accord Évaluer une fréquence Université de Mons Kathy Huet 28 Échelles de Likert / rating scales (items catégoriels bipolaires) Les catégories peuvent n’être qu’incomplètement nommées Avantage: échapper à la difficulté d’iden*fier des termes intermédiaires évoquant des états équidistants du concept Université de Mons Kathy Huet 29 Les échelles visuelles analogiques Le sujet marque sur une ligne con7nue le lieu lui paraissant correspondre à sa percep7on, son degré d’accord, … – Ex.: échelles subjecWves de douleur La pire des douleurs Pas de douleur imaginables On quan7fie en u7lisant une mesure en cm et/ou mm Il y a donc une catégorisa7on (100 catégories de 1 mm, e.g.) mais le sujet ne doit pas opérer de choix catégoriel Université de Mons Kathy Huet 30 Construire et utiliser des questions fermées ou QCM (Questions à Choix Multiple) Difficultés à surmonter Université de Mons Variation de la tâche en fonction du contenu des distracteurs La période du règne La période du règne personnel de personnel de Louis XIV s’étend de : Louis XIV s’étend de : A. 1661 à 1705 A.1814 à 1830 B. 1661 à 1715 B. 1661 à 1715 C. 1638 à 1681 C. 1515 à 1545 D. 1653 à 1715 D. 1789 à 1804 La bonne réponse peut être Il faut vraiment connaître la bonne trouvée moyennant une réponse pour la donner connaissance superficielle de faits historiques non liés à la ques*on posée Université de Mons Kathy Huet 32 Varia=on de la profondeur de l’évalua=on des connaissances Ex.: ques7ons autour du principe d’Archimède Simple restitution d’une connaissance livresque Capacité de reformuler une connaissance Capacité d’appliquer une connaissance acquise Université de Mons Kathy Huet 33 « guessing » Découverte de la bonne réponse par hasard (« devineXe ») – D’autant moins probable que les distracteurs sont nombreux – D’autant moins probable que les distracteurs apparaissent également plausibles Solu7on: aver7r les sujets que les mauvaises réponses sont pénalisantes, mais pas les omissions – Problème: faible validité d’apparence Université de Mons Kathy Huet 34 Tendance à l’acquiescement Propension du sujet, en cas de doute devant une alterna*ve, à accepter celle proposée par l’enquêteur Dès lors, dans un ques*onnaire vrai-faux, on augmente la discrimina*vité si on insère plus d’affirma*ons fausses que d’affirma*ons vraies Université de Mons Kathy Huet 35 Rédac=on de la ques=on: synthé=que et lisible Exemple : Problème : Dans chaque alternative figure, de manière redondante, mais exprimée de manière variable, l’idée de but à atteindre Université de Mons Kathy Huet 36 Rédaction de la question: synthétique et lisible Il faut que la difficulté soit dans la ques*on elle- même, pas dans sa formula*on. Meilleur formula*on : Université de Mons Kathy Huet 37 Présenta=on physique de la ques=on Importance d’une sépara*on claire entre – InformaWon à traiter – Amorce – AlternaWves Ex: Université de Mons Kathy Huet 38 Choix des distracteurs Parfois guidé par l’existence de catégories « naturelles » – Ex.: le mot espagnol « consumismo » comporte 4 syllabes; laquelle est accentuée? A. con B. su C. mis D. mo Quel est le genre du mot néerlandais « tafel »? A. masculin B. féminin C. neutre Université de Mons Kathy Huet 39 Choix des distracteurs Ils peuvent provenir d’une analyse des erreurs les plus probables Ex: Erreur de sélec*on d’opéra*on: mul*plica*on au lieu de division – (1/4) / (2/3) vaut (1/4)*(3*2) A. 1/6 Inversion du mauvais nombre B. 8/3 (4/1)*(2:3) C. 3/8 D. 11/12 Erreur de sélection d’opération: additions au lieu de division: (1+4+2+3/12) Université de Mons Kathy Huet 40 Les réponses médianes Lever l’ambiguïté : Forcer le choix (Nbre occurences pair) : Différencier réponse neutre et non-réponse : Université de Mons Kathy Huet 41 L’hétérogénéité de la ques1on A proscrire !! Si la question n’est pas homogène, le sujet peut trouver la réponse sans la connaître Contenu hétérogène: les réponses peuvent être trouvées sans connaissance aucune Contenu homogène: les réponses ne peuvent être trouvées sans connaissance Université de Mons Kathy Huet 42 Susciter la « test wiseness » Aptitude du sujet à détecter la bonne réponse sur base de critère liés à la conception de l’item Similarité formelle entre un élément de l’amorce / et l’alterna*ve Indica*on gramma*cale Sophistication différente d’une alternative Université de Mons Kathy Huet 43 Les doubles néga1ons A proscrire !! « Ne pensez-vous pas qu’il aurait mieux valu que la France ne participe pas à la guerre du Golfe » Université de Mons Kathy Huet 44 L’usage de déterminants malencontreux A proscrire !! Il est rare que des termes tels que « toujours », « tous », « aucun » soient alliés à une réponse vraie autre que « faux »; le point de vue du testé et celui du testeur peuvent diverger L’enseignant pense que les sioux guerriers courageux étaient un peuple courageux. L’élève sait que les sioux étaient un peuple courageux, mais il répond « faux » car il pense que même au sein d’un peuple courageux, il est inévitable qu’il existe au moins un individu qui ne l’est pas. Université de Mons Kathy Huet 45 Les informa1ons mul1ples qui induisent plusieurs ques1ons dans une même ques1on A proscrire !! « Êtes-vous pour ou contre l’obliga@on du port de la ceinture de sécurité à l’arrière » « Êtes-vous pour l’interdic@on de fumer sous le préau? » Université de Mons Kathy Huet 46 Analyser et Evaluer les items mesurer la valeur des items Université de Mons K. Huet 47 Faculté de Psychologie et des Sciences de l’Education AA : Théories de la construction des tests 4 L’ analyse des items Kathy Huet Université de Mons Prototype essai sur des sujets résultats L’analyse des items analyse des items Université de Mons Après la phase de rédaction – conception des items, et de la conception matérielle du test, le test « prototype » et donc les items peuvent être essayés sur des sujets dont les scores serviront à l’analyse des items. Les résultats de cette analyse doivent permettre d’améliorer l’instrument (le test) On s’interroge sur le comportement des items en vue d’avoir, a posteriori, une éventuelle action sur eux Université de Mons Le but poursuivi : faire du test / de l’outil d’évaluation un ensemble cohérent Métaphore de l’orchestre « L'analyse des items ressemble à une répétition d'orchestre. Dans un orchestre, les instruments doivent jouer de façon harmonieuse. Selon la partition, certains interviendront à un moment bien précis. D'autres devront jouer en harmonie. Le tout doit produire une sensation musicale particulière correspondant aux intentions du compositeur et du chef d'orchestre. Une situation similaire prévaut lors de l'analyse d'items. Celle-ci doit nous permettre d'identifier les items qui ne jouent pas en harmonie avec les autres ou qui ne jouent pas « au même rythme ». Certains jouent trop fort, d'autres pas assez. Certains se trompent carrément de partition. Le but du constructeur de test est de s'assurer que le message fourni par les items soit clair, harmonieux et précis. » (Laveault et Grégoire, 1997) Université de Mons Psychométrie: – Le test est construit en vue d’une passation par un grand nombre de sujets à de multiples occasions. – La cible est une population: on peut donc essayer le test sur un échantillon qui ne fera pas l’objet d’une mesure avec l’instrument, mais qui est extrait de la même population que celle dont seront extraits les sujets qui, dans le futur, seront testés. – L’analyse des items précède l’utilisation du test finalisé L'analyse des items correspond à un processus de sélection Université de Mons Édumétrie: – L’instrument d’évaluation est destiné à un usage unique auprès d’un groupe spécifique. – La cible est le groupe qui a subi un traitement pédagogique donné. Aucun groupe autre ne lui est comparable et l’instrument n’est donc pas prétestable sur un échantillon équivalent. La seule solution serait de le prétester sur le groupe-cible lui-même, mais ce dispositif serait générateur de contaminations et invaliderait l’instrument avant même qu’on ait pu en terminer la réalisation. – L’analyse des items suit l’utilisation du test finalisé C’est la fonction de l'évaluation qui décide de l'analyse d'items. Université de Mons L'analyse d'items peut prendre plusieurs formes. Celles-ci dépendront des objectifs du constructeur de test et aussi de la méthode de préparation du test. En psychométrie, il est généralement prévu au départ de construire plus d'items que nécessaire, afin de ne retenir que ceux qui sont les plus valides. L'analyse des items correspond davantage à un processus de sélection: seuls les meilleurs seront retenus. En édumétrie, c'est la fonction de l'évaluation qui décide de l'analyse d'items. L'analyse d'items d'un examen final, administré en vue d'une évaluation sommative, sera fort différente de celle d'un instrument de mesure critériée, administré en vue d'une évaluation diagnostique ou d'une évaluation formative. Il se peut qu'un item convenant parfaitement dans le cadre d'une évaluation formative ne possède pas les caractéristiques désirées pour une bonne évaluation sommative. (Laveault et Grégoire, 1997) Université de Mons Analyses d’items dans un contexte scolaire : Questions auxquelles on peut apporter une réponse : Mon QCM est-il bien conçu ? Dois-je augmenter le nombre d’items ? Puis-je me permettre de les réduire ? L’examen est-il trop simple ou trop difficile ? Les scores des étudiants sont-ils fiables ? Les leurres sont-ils efficaces ? Quels items pourrais-je conserver pour un autre examen ? Quels sont les items à éliminer ? Université de Mons K. Huet 8 A la suite de l’analyse des items et en fonction des résultats de celle-ci : Actions possibles: – Éliminer des items – Reformuler les items – Pondérer des items Moyens nécessaires pour l’analyse: des indices (coefficients) permettant d’apprécier la valeur de l’item Université de Mons 4 indices comme aide à la sélection des « bons » items : La difficulté de l’item Indice de difficulté ou de puissance (p-index) La discrimination de l’item Indice de discrimination (d-index) Corrélation item/test l’indice de fiabilité l’indice de validité Université de Mons K. Huet 10 La difficulté de l’item L’indice de difficulté appelé aussi Indice de puissance (p-index) Université de Mons K. Huet 11 « Difficulté » de l’item = Proportion de sujets qui « réussissent » l’item (varie entre 0 et 1) Deux remarques : – On qualifie de « réussite » une réponse correspondant à un comportement associé à une haute valeur sur le trait Si on demande au sujet de faire un calcul et qu’il choisit la réponse correspondant à la solution mathématique exacte, on qualifiera la réponse de « réussite » non pas parce qu’elle est bonne en soi, mais parce qu’elle montre que le sujet a été capable de produire un traitement mathématique correct Aux questions de tests de personnalité, il n’y a pas de bonnes réponses en soi; on qualifie de « réussite » la réponse indiquant un comportement associé à une haute valeur sur le trait mesuré – Ce que l’on appelle « indice de difficulté » mesure en fait la facilité de l’item si celui-ci met à l’épreuve une connaissance, un savoir-faire, une capacité Université de Mons K. Huet 12 Exemples : – Ex.: Questionnaire scolaire de connaissance du milieu La terre tourne autour du soleil Vrai faux – Ex.: Test d’estime de soi On s’amuse bien en ma compagnie réponse qui Me ressemble va dans le Ne me ressemble pas sens du trait Je trouve très pénible d’avoir à prendre la parole dans un groupe Me ressemble Ne me ressemble pas On code la « réussite » 1 Université de Mons K. Huet 13 Items dichotomiques : calcul de l’indice de Difficulté Indice de difficulté = proportion de sujets réussissant l’item score Sujets Items (i) tot n=6 1 2 3 4 5 Σ 1 1 xj 1 0 1 1 4 2 0 1 0 0 1 2 3 1 0 0 1 1 3 4 1 0 0 0 1 2 5 0 0 0 1 1 2 6 1 1 0 1 1 4 Σjx j 4 3 0 4 6 17 Difficulté: 4/6 3/6 0/6 4/6 6/6 Pi.67.50 0.67 1 n Pi = indice de difficulté pour l’item « i » Pi = Σj=1 xj / n n = nombre de sujets qui ont répondu, j=1àn Université de Mons K. Huet 14 Items dichotomiques : calcul de l’indice de Difficulté Indice de difficulté = proportion de sujets réussissant l’item score Sujets Items (i) tot ! n=6 a c i le !! 1 2 3 4 5m est f Σ u e l’ite 1 1 xj 1 0 ra1nd q 1 4 p lu sg 2 0 1 u t 0 a nt 0 1 2 st d ’a 3 1 ficult 0 é » e 0 1 1 3 d i f 4 dice de «1 0 0 0 1 2 l’ :5 i n t i o n 0 0 0 1 1 2 A t t en 6 1 1 0 1 1 4 Σjx j 4 3 0 4 6 17 Difficulté: 4/6 3/6 0/6 4/6 6/6 Pi.67.50 0.67 1 n Très difficile Très facile Pi = Σj=1 xj / n Pi = indice de difficulté pour l’item « i » n = nombre de sujets qui ont répondu Université de Mons K. Huet 15 Items quelconques similaires : calcul de l’indice de Difficulté Indice de difficulté = moyenne des notes accordées à l’item pour tous les sujets Item Item Item Item n Total 1 2 3 4 Pi = Σj=1 xj / n 5 4 5 5 19 3 2 3 3 11 avec ici, n = 10 La question 4 4 5 4 17 la plus !! Tous les items ont été notés difficile 4 3 3 3 13 sur 5. 1 1 2 1 5 2 1 2 2 7 Le plus petit indice La question 0 0 1 0 1 la plus facile 3 2 2 2 9 Le plus grand indice 3 3 4 3 13 4 3 4 4 15 !! ok si tous les items ont été Pi : 2,9 2,3 3,1 2,7 notés avec la même échelle Université de Mons K. Huet 16 Etendues Ei Items de formes variées : calcul de l’indice de Difficulté n Σj=1 xj / n Pi = ------------- Ei Item à appariements avec n = 11 Ei = étendue de l’item i dichotomique Les moyennes ne sont pas Question ouverte comparables (Σjxj) (Σj xj)/n Idée: pondérer par l’étendue E Université de Mons K. Huet 17 Items de formes variées : calcul de l’indice de Difficulté n Σj=1 xj / n Pi = ------------- avec n = nbre de sujets Ei Ei = étendue de l’item i n On divise la moyenne (Σj=1 xj / n) par l’étendue (Ei) de l’échelle de l’item i pour assurer la comparaison des résultats notés sur des échelles différentes Université de Mons K. Huet 18 Correction pour l’effet du hasard 2 distracteurs 1 distracteur appariés 4 distracteurs Université de Mons K. Huet 19 Correction pour l’effet du hasard Lorsque l’indice de Difficulté est calculé sur un item à choix de réponse, il faut tenir compte de la probabilité de réussir l’item au hasard, c’est-à-dire sans vraiment connaître la réponse. àon peut corriger l’indice de Difficulté pour l’effet de hasard chaque fois que l’on peut admettre que les distracteurs ont une chance égale (ou à peu près) d’être choisis. 1- Pi P’i =Pi - ---------------- Ai - 1 avec Ai = le nombre de choix de réponses pour l’item i (nombre d’alternatives) Université de Mons K. Huet 20 Exemple : N° Item 1 2 3 sujet 1 0 1 0 sujet 2 1 1 1 sujet 3 0 0 1 sujet 4 0 1 0 sujet 5 1 1 1 sujet 6 1 1 0 sujet 7 1 1 1 sujet 8 1 1 0 sujet 9 1 1 1 sujet 10 1 0 1 TOTAL 7 8 6 Université de Mons K. Huet 21 Exemple : N° Item 1 2 3 sujet 1 0 1 0 sujet 2 1 1 1 sujet 3 0 0 1 sujet 4 0 1 0 sujet 5 1 1 1 sujet 6 1 1 0 sujet 7 1 1 1 sujet 8 1 1 0 sujet 9 1 1 1 sujet 10 1 0 1 TOTAL 7 8 6 Pi 0,70 0,80 0,60 Université de Mons K. Huet 22 Exemple : N° Item 1 2 3 Ai 3 2 5 sujet 1 0 1 0 Nombre sujet 2 1 1 1 d’alternatives sujet 3 0 0 1 Probabilité de sujet 4 0 1 0 réponse correcte sujet 5 1 1 1 aléatoire:.33 sujet 6 1 1 0 Probabilité de sujet 7 1 1 1 réponse correcte aléatoire:.50 sujet 8 1 1 0 sujet 9 1 1 1 Probabilité de réponse correcte sujet 10 1 0 1 aléatoire:.20 TOTAL 7 8 6 Pi 0,70 0,80 0,60 Université de Mons K. Huet 23 Exemple : N° Item 1 2 3 Ai 3 2 5 sujet 1 0 1 0 Nombre sujet 2 1 1 1 d’alternatives sujet 3 0 0 1 Probabilité de sujet 4 0 1 0 réponse correcte sujet 5 1 1 1 aléatoire:.33 sujet 6 1 1 0 Probabilité de sujet 7 1 1 1 réponse correcte aléatoire:.50 sujet 8 1 1 0 sujet 9 1 1 1 Probabilité de réponse correcte sujet 10 1 0 1 aléatoire:.20 TOTAL 7 8 6 1- Pi Pi 0,70 0,80 0,60 P’i =Pi - ---------------- P’i 0,55 0,60 0,50 Ai- 1 Université de Mons K. Huet 24 Exemple : N° Item 1 2 3 Ai 3 2 5 sujet 1 0 1 0 sujet 2 Les1 items sont 1 1 sujet 3 0 0 1 sujet 4 0 Moins faciles 1 0 sujet 5 1 qu’il n’y paraissait 1 (P1i’