Fiabilité des tests psychologiques (PDF)
Document Details

Uploaded by ZippyHeliotrope9386
Háskóli Íslands
Tags
Summary
Ce chapitre examine la théorie de la fiabilité des tests du point de vue de la CTT. La CTT est la base de nombreuses évaluations psychométriques. La fiabilité est la mesure dans laquelle les différences des scores aux tests des répondants sont fonction de leurs véritables différences psychologiques, par opposition à l'erreur de mesure. Le chapitre discute aussi l'erreur type de mesure et les modèles de mesure.
Full Transcript
# Fiabilité: Base Conceptuelle Les infirmières tentent de mesurer la longueur des bébés à la naissance et à intervalles réguliers par la suite. Même si vous n'avez jamais vu quelqu'un essayer de mesurer la longueur d'un bébé, vous pouvez imaginer que c'est une tâche difficile. Les bébés se tortille...
# Fiabilité: Base Conceptuelle Les infirmières tentent de mesurer la longueur des bébés à la naissance et à intervalles réguliers par la suite. Même si vous n'avez jamais vu quelqu'un essayer de mesurer la longueur d'un bébé, vous pouvez imaginer que c'est une tâche difficile. Les bébés se tortillent de façon erratique et résistent aux tentatives de les étirer sur toute leur longueur. Tout cela rend difficile l'obtention de mesures précises de la longueur des bébés. De plus, certains bébés sont plus dociles que d'autres, ce qui signifie que certains sont moins susceptibles de se tortiller que d'autres. Encore une fois, cela complique les choses, car certains bébés peuvent être plus susceptibles d'être mesurés avec précision que d'autres. Ce genre de problèmes a amené des chercheurs (par exemple, Johnson et al., 1997, 1999) à poser des questions sur la fiabilité de ces mesures. Imaginez qu'on demande à une infirmière de mesurer la longueur de 10 bébés différents, et imaginez qu'il y a un moyen de connaître à l'avance (mais inconnu de l'infirmière) la longueur réelle de chaque bébé. En théorie, vous pourriez comparer la longueur mesurée de chaque bébé avec sa longueur réelle. De plus, vous pourriez examiner les différences entre les longueurs mesurées des bébés et les comparer avec les différences entre leurs longueurs réelles. Idéalement, vous trouveriez une bonne cohérence entre ces deux ensembles de différences. C'est-à-dire que vous espéreriez constater que les différences entre les longueurs mesurées des bébés correspondent aux différences de leurs longueurs réelles-que les bébés qui ont été mesurés (par l'infirmière) comme étant relativement longs étaient vraiment relativement longs. Si tel était le cas, vous concluriez que la procédure de mesure a produit des « scores » de longueur qui étaient fiables. Ce livre a souligné à maintes reprises l'importance de comprendre la variabilité psychologique - les tests psychologiques ne sont utiles que dans la mesure où ils reflètent avec précision les vraies différences psychologiques. Encore une fois, dans un contexte de recherche, la science du comportement s'efforce de quantifier le degré auquel les différences d'une variable (par exemple, l'intelligence) sont associées aux différences d'autres variables (par exemple, les styles parentaux, l'expérience préscolaire, l'âge, le rendement scolaire, l'agression, le sexe, etc.). Les tests et autres types de mesures sont utilisés pour évaluer et représenter ces différences comportementales. Dans un contexte appliqué, les praticiens s'efforcent de prendre des décisions concernant les personnes, et ils utilisent des tests comportementaux et des procédures de diagnostic pour éclairer ces décisions. De telles décisions reposent sur l'hypothèse que des différences comportementales existent entre les personnes, que les différences ont d'importantes implications et qu'elles peuvent être mesurées avec une certaine précision. Ainsi, la mesure psychologique dépend toujours de la capacité de refléter avec précision les vraies différences psychologiques. Cette capacité est au cœur de la fiabilité. Ce chapitre présente la théorie classique des tests (CTT), qui est une théorie de la mesure qui définit la base conceptuelle de la fiabilité et décrit les procédures d'estimation de la fiabilité des scores aux tests psychologiques (Gulliksen, 1950 ; Lord & Novick, 1968). Supposons, par exemple, que nous passions un questionnaire sur l'épuisement professionnel à un groupe de personnes, et que nous constations que les gens diffèrent dans leurs scores au questionnaire. Nous espérons que les différences dans leurs scores au questionnaire reflètent avec précision les différences dans leurs véritables niveaux d'épuisement professionnel. C'est-à-dire que nous espérons que les personnes qui ont des scores relativement élevés au questionnaire sont, en fait, les personnes qui ont véritablement des niveaux relativement élevés d'épuisement professionnel. Et nous espérons que les personnes qui ont des scores relativement bas au questionnaire sont, en fait, les personnes qui ont véritablement des niveaux relativement bas d'épuisement professionnel. Selon la CTT, la fiabilité est la mesure dans laquelle les différences dans les scores aux tests des répondants sont fonction de leurs véritables différences psychologiques, par opposition à l'erreur de mesure. Que vous utilisiez une mesure à des fins de recherche ou à des fins appliquées, nous espérons que nos scores aux tests sont très fiables. Bien qu'il soit quelque peu imprécis de parler de cette façon, les scientifiques du comportement parlent parfois comme si la fiabilité était une question du tout ou rien. Par exemple, quelqu'un pourrait demander à un psychométricien si un ensemble de scores de test est fiable, et ce psychométricien pourrait répondre « oui » ou « non ». Une telle réponse semble traiter la fiabilité comme s'il s'agissait d'un problème binaire, un test étant soit fiable, soit non fiable. Malgré cette façon courante de parler et de penser à la fiabilité, la fiabilité est, en fait, sur une base que les scores produits par une procédure de mesure seront plus ou moins fiables. Pour comprendre la fiabilité, une idée utile est que la fiabilité est elle-même une notion théorique. La fiabilité est une caractéristique, théoriquement, des scores des procédures de mesure des caractéristiques des objets ou des caractéristiques psychologiques des personnes. Tout comme un attribut psychologique tel que l'intelligence est une caractéristique non observée d'une personne, la fiabilité est une caractéristique non observée des scores des tests. De plus, tout comme nous devons estimer le niveau d'intelligence d'une personne, nous devons estimer la fiabilité d'un ensemble de scores. En effet, la fiabilité est plus précisément considérée comme une propriété des scores aux tests, et non d'un test lui-même. Bien que nous puissions parler de la fiabilité « d'un test », nous devrions réellement parler de la fiabilité « d'un ensemble de scores aux tests ». Comme décrit plus en détail plus tard (voir les chapitres 6 et 11), un test pourrait avoir différentes propriétés psychométriques pour différents types de répondants. Un test pourrait bien fonctionner pour les adultes, mais pas pour les enfants, il pourrait bien fonctionner pour les personnes d'une certaine culture, mais pas d'une autre, ou il pourrait bien fonctionner lorsqu'il est passé en personne, mais pas en ligne. Ainsi, un test n'a pas de fiabilité unique, mais plutôt chaque ensemble de scores (obtenu de chaque ensemble de répondants) a un certain niveau de fiabilité. Idéalement, un test produit des scores très fiables pour de nombreux types de répondants différents. Heureusement, de nombreux tests semblent généralement produire des scores très fiables dans de nombreuses circonstances. Le point ici est que la fiabilité est, plus précisément, une qualité d'un ensemble de scores aux tests. Ce chapitre décrit les fondements théoriques de la fiabilité du point de vue de la CTT. Le chapitre suivant (Chapitre 6) décrira les procédures d'estimation de la fiabilité. Il montrera qu'il est possible, étant donné certaines hypothèses de la CTT, d'estimer le degré auquel les scores d'une mesure sont ou ne sont pas fiables. Après cela, le chapitre 7 traitera de l'importance de la fiabilité - pourquoi elle est importante et quelles sont ses implications pour les tests psychologiques, la pratique et la recherche. Comme détaillé dans ce chapitre, la fiabilité est une question cruciale qui peut avoir de fortes implications pour la recherche et la pratique en psychologie. ## Aperçu de la fiabilité et de la théorie classique des tests Selon la CTT, la fiabilité découle des scores observés, des vrais scores et de l'erreur de mesure. Les scores observés sont les valeurs obtenues en mesurant une caractéristique dans un échantillon d'individus (par exemple, les scores à un test). En revanche, les vrais scores sont les quantités réelles de cette caractéristique dans cet échantillon d'individus. Dans l'exemple précédent de la « longueur du bébé », la longueur d'un bébé telle qu'enregistrée par l'infirmière serait un score observé, et la longueur réelle d'un bébé serait un vrai score. Les utilisateurs du test espèrent que les scores observés des individus sont de bonnes estimations de leurs vrais scores, car la plupart de la recherche comportementale et de la prise de décision sont destinées à refléter les véritables caractéristiques psychologiques des répondants. Il est intéressant de noter que certains experts s'opposeraient à cette définition relativement simple du vrai score, préférant plutôt définir les vrais scores plus techniquement comme le score moyen qu'un participant obtiendrait s'il remplissait l'échelle un nombre infini de fois. Alternativement, les vrais scores peuvent être considérés comme les scores qui seraient obtenus si le test ou la mesure était parfaitement précis - c'est-à-dire s'il n'était pas affecté par l'erreur de mesure. Sur le plan pratique, toutes ces définitions sont essentiellement identiques. Ainsi, aux fins actuelles, pensez aux vrais scores comme indiqué en premier - comme le niveau réel ou réel de l'attribut psychologique mesuré par un test. Compte tenu des concepts de scores observés et de vrais scores, la fiabilité est la mesure dans laquelle les différences dans les scores observés des répondants sont compatibles avec les différences dans leurs vrais scores. Plus précisément, la fiabilité d'un ensemble de scores dépend de la mesure dans laquelle les différences dans les scores observés des répondants peuvent être attribuées aux différences dans leurs vrais scores, par opposition à d'autres facteurs aléatoires. La mesure dans laquelle ces « autres » caractéristiques contribuent au bruit aléatoire des différences dans les scores observés est appelée erreur de mesure, ou simplement erreur, car elles créent une incohérence entre les scores observés et les vrais scores. Lors de la mesure de la quantité de quoi que ce soit, y compris les caractéristiques d'objets physiques ou les caractéristiques psychologiques des gens, les résultats de la mesure seront toujours peu fiables dans une certaine mesure. Il n'y a pas de mesure parfaitement fiable. Il est généralement impossible de connaître toutes les sources d'erreur de mesure affectant les scores aux tests. Dans le cas de la mesure de la longueur des bébés, nous pouvons imaginer qu'une partie de l'erreur pourrait être liée à la quantité de chaque bébé de se tortiller pendant qu'il est mesuré. C'est-à-dire qu'il est probable que certains bébés se tortillent plus que d'autres. Si cela est vrai, alors la précision des « scores » de longueur sera affectée par la quantité que chaque bébé se tortille. Les tortillements de certains bébés peuvent amener leurs infirmières à sous-estimer leur vraie longueur, mais les tortillements d'autres bébés peuvent amener leurs infirmières à surestimer leur vraie longueur. Les effets des tortillements sont considérés comme une erreur de mesure parce qu'ils créent de l'imprécision dans la mesure de la vraie longueur des bébés. D'autres sources d'erreur dans la mesure des bébés pourraient inclure le fait que différentes infirmières pourraient enregistrer les mesures. Si chaque bébé est mesuré par une infirmière différente et si certaines infirmières prennent leurs mesures avec plus de soin, alors certains bébés seront mesurés avec plus de précision que d'autres. Les différences dans le « soin de la mesure » des infirmières obscurciront les différences entre la vraie longueur des bébés. Il y a de nombreuses sources d'erreur possibles qui pourraient affecter les mesures observées, obscurcissant ainsi les vraies différences entre les bébés. Certaines de ces sources d'erreur pourraient être subtiles (par exemple, la prudence des infirmières), et certaines pourraient être plus évidentes (par exemple, les tortILLEMENTS). Il n'y a aucun moyen de rendre compte de tous les facteurs possiblement subtils qui pourraient affecter les scores observés. Bien sûr, de telles erreurs influencent également la mesure des attributs psychologiques. Considérez ce qui pourrait arriver si une classe d'écoliers passe un test de mathématiques. Nous espérons que le score d'un enfant au test reflète avec précision ses vraies connaissances en mathématiques ; cependant, d'autres facteurs que les « connaissances en mathématiques » sont susceptibles d'influencer le rendement des enfants au test. Certains enfants pourraient avoir un rhume lorsqu'ils passent le test. Le rhume pourrait les rendre groggy, ce qui à son tour les amènerait à moins bien performer au test qu'ils ne pourraient « véritablement » performer, étant donné leur vraie capacité en mathématiques. Certains enfants pourraient avoir mangé un déjeuner nutritif, ce qui les aiderait à se sentir alertes et énergiques, les amenant ainsi à bien performer au test. Certains enfants pourraient arriver à faire de nombreuses « devinettes chanceuses » au test, ce qui rendrait leurs scores au test plus élevés qu'ils ne devraient vraiment l'être, étant donné leur vraie capacité en mathématiques. Certains enfants pourraient calculer correctement les réponses aux mathématiques, mais par erreur, encercler le mauvais choix sur une feuille de réponses, produisant des scores au test qui sous-estiment artificiellement leur capacité « vraie » en mathématiques. De tels facteurs temporaires et transitoires - la quantité de sommeil, l'état émotionnel, le bien-être physique, les devinettes, l'enregistrement incorrect des réponses, et ainsi de suite - pourraient artificiellement gonfler ou dégonfler les scores au test des enfants par rapport à leurs vrais scores. Chacun de ces facteurs pourrait produire une erreur de mesure, compromettant la qualité des scores aux tests. Pour évaluer la fiabilité des scores d'une mesure quelconque, nous devons estimer la mesure dans laquelle les différences individuelles dans les scores observés sont fonction de l'erreur de mesure par rapport aux différences psychologiques vraies ou réelles entre les répondants. Une façon utile de penser à la fiabilité est en termes de signal et de bruit – c'est-à-dire, en termes de notre capacité à détecter un signal en présence de bruit. Dans ce cadre, les vraies différences psychologiques sont le signal que nous aimerions détecter, et l'erreur de mesure est le bruit qui obscurcit le signal et qui le rend difficile à détecter. La fiabilité peut alors être considérée comme un rapport du signal au bruit: Fiabilité = Signal/(Signal + Bruit)=Différences réelles/(Différences réelles + Erreur de mesure) De ce point de vue, la fiabilité est la plus forte lorsqu'il y a un signal fort ou peu de bruit. Nous reviendrons sur ce cadre conceptuel plus loin dans ce chapitre. ## Scores observés, vrais scores et erreur de mesure La fiabilité dépend de deux choses : (1) la mesure dans laquelle les différences de notes aux tests peuvent être attribuées à de véritables différences inter- ou intra-individuelles et (2) la mesure dans laquelle les différences de notes aux tests sont fonction d'erreurs de mesure. En CTT, la notion de fiabilité commence par deux hypothèses fondamentales, résumées dans la Figure 5.1. Premièrement, CTT commence par la simple hypothèse que la note observée d'une personne à un test est fonction de sa vraie note, plus l'erreur. Si Xo représente la note observée d'un individu à un test, si Xt est la vraie note de l'individu sur la caractéristique psychologique pertinente, et si Xe est la quantité d'erreur affectant les réponses de l'individu, alors on peut écrire la formule suivante pour représenter cette première hypothèse : **$X_o=X_t+X_e$ (5.1)** Pour illustrer ce point, le tableau 5.1a présente un ensemble de données artificielles représentant les réponses de six personnes à un questionnaire sur l'estime de soi. Pour les besoins de cet exemple, feignons de connaître le véritable niveau d'estime de soi de chaque personne (c'est-à-dire la vraie note, Xt, de chaque personne). Bien sûr, nous ne connaîtrions jamais réellement la vraie note d'un individu - cet exemple est destiné uniquement à expliquer le fondement théorique de la fiabilité. De ce point de vue « omniscient », nous voyons qu'Ashley a véritablement le niveau d'estime de soi le plus élevé de cet échantillon (Xt = 130), que Bob a le deuxième niveau le plus élevé (Xt = 120), et ainsi de suite. De plus, feignons de connaître également le degré auquel le score de chaque individu au questionnaire est affecté par une erreur de mesure. Par exemple, il est arrivé à Ashley de répondre au questionnaire sur l'estime de soi seulement une heure après avoir appris qu'elle avait obtenu un D à un test de biologie. En raison de cette note décevante, elle s'est sentie exceptionnellement mal dans sa peau lorsqu'elle a répondu au questionnaire sur l'estime de soi. Il est à noter que le score d'erreur d'Ashley (Xe) est de -10, reflétant le fait que sa déception a temporairement abaissé son score apparent d'estime de soi. En revanche, il était arrivé à Bob de répondre au test une heure après avoir appris qu'il avait été accepté dans une école de droit. Bien que Bob ait généralement un niveau relativement élevé d'estime de soi (c'est-à-dire que son vrai score d'estime de soi est relativement élevé par rapport au reste de l'échantillon), la bonne nouvelle de l'école de droit le fait se sentir encore mieux dans sa peau qu'habituellement. Il est à noter que le score d'erreur de Bob (Xe) est de 25, reflétant le fait que cette bonne nouvelle augmente temporairement son score apparent d'estime de soi. Comme le montre le tableau 5.1a, les scores observés des répondants au questionnaire sur l'estime de soi sont déterminés par leurs véritables niveaux d'estime de soi et par l'effet « d'erreur » d'événements ou d'états aléatoires. Par exemple, le score observé d'Ashley est : **$X_o=X_t+X_e$** = 130 + (-10) = 120. Encore une fois, cet exemple « omniscient » illustre la première hypothèse théorique simple mais fondamentale de la CTT : les scores observés sur une mesure psychologique sont déterminés par les vraies notes des répondants et par l'erreur de mesure. Comme le montre la figure 5.1, la seconde hypothèse clé sous-jacente à la CTT est une hypothèse sur l'erreur de mesure. Plus précisément, elle suppose que l'erreur se produit comme si elle était aléatoire. En partie, cela signifie que l'erreur de mesure est tout aussi susceptible de gonfler une note particulière qu'elle ne l'est de diminuer une note particulière. Nous supposons que les réponses des gens à un test psychologique sont affectées de manière imprévisible qui pourraient rendre leurs notes observées artificiellement élevées ou artificiellement basses. Considérez de nouveau Ashley et Bob. Ce n'était que le hasard qu'Ashley ait répondu au questionnaire sur l'estime de soi seulement une heure après avoir entendu de mauvaises nouvelles, abaissant ainsi son score observé par rapport à son niveau stable et vrai d'estime de soi. De même, ce n'était que le hasard que Bob ait répondu au questionnaire après avoir entendu de bonnes nouvelles, augmentant ainsi son score observé par rapport à son niveau stable et vrai d'estime de soi. Dans l'ensemble de l'échantillon des répondants, une erreur de mesure aléatoire gonfle artificiellement les scores de certaines personnes et dégonfle artificiellement les scores d'autres personnes. Étant donné que l'erreur affecte les notes comme si elle était aléatoire, le gonflage et le dégonflage causés par l'erreur sont indépendants des vrais niveaux d'estime de soi des individus. C'est-à-dire que l'erreur de mesure peut affecter quelqu'un ayant un niveau vrai élevé d'estime de soi de la même manière (et dans la même mesure) qu'elle affecte quelqu'un ayant un niveau vrai bas d'estime de soi dans le Tableau 5.1a. Notez que la taille et direction (positive ou négative) des effets d'erreur sont répartis également pour les répondants sur l'ensemble de la fourchette des scores vrais. Pour chaque personne « ayant une forte estime d'elle-même » dont la note observée est artificiellement dégonflée par une erreur de mesure, il y a une personne ayant une forte estime d'elle-même dont la note observée est artificiellement gonflée. Il en va de même pour les personnes ayant de faibles niveaux vrais d'estime de soi. Il existe plusieurs conséquences importantes de cette hypothèse concernant l'erreur. Premièrement, l'erreur a tendance à s'annuler elle-même chez les répondants. C'est-à-dire que l'erreur gonfle les scores de certains répondants et dégonfle les scores d'autres répondants de telle manière que l'effet moyen de l'erreur chez les répondants est nul. En effet, le tableau 5.1a montre que la moyenne des six scores d'erreur est exactement 0 (c'est-à-dire, Xe = 0). La seconde conséquence du caractère aléatoire de l'erreur est que les scores d'erreur ne sont pas corrélés avec les scores vrais. Comme décrit plus haut, l'erreur affecte les scores observés de manières indépendantes des niveaux vrais d'estime de soi des répondants. Par conséquent, si nous calculons la corrélation entre les scores vrais des individus et leurs scores d'erreur dans le tableau 5.1a, nous constatons que la corrélation est exactement 0 (c'est-à-dire, rte = 0). Ces deux conséquences ont des implications importantes pour la fiabilité, comme nous le verrons bientôt. ## Variances dans les scores observés, les vrais scores et les scores d'erreur Comme nous l'avons mentionné plus tôt, la fiabilité reflète le degré auquel les différences dans les notes observées sont compatibles avec les différences dans les notes vraies. Autrement dit, la fiabilité dépend des liens entre la variabilité des notes observées, la variabilité des notes vraies et la variabilité des notes d'erreur. Compte tenu de l'importance de la variabilité pour interpréter et évaluer la mesure psychologique, nous devons comprendre comment la première hypothèse de la CTT (c.-à-d. que pour chaque individu, Xo = Xt + Xe) s'étend aux différences entre les personnes. Cette extension pourrait être plus logique si nous commencions par voir comment les vraies différences entre les gens peuvent être obscurcies par les différences dans l'erreur de mesure. Prenez un moment pour examiner les notes vraies des individus dans le tableau 5.1a et concentrez-vous sur la différence entre Ashley et Bob. Notez que la vraie note d'Ashley (Xt = 130) est 10 points plus élevée que celle de Bob (Xt = 120). C'est-à-dire que son estime d'elle-même est, en réalité, 10 points plus élevée que celle de Bob. Cependant, notez que la note observée au questionnaire d'Ashley (Xo = 120) est 25 points moins élevée que la note observée de Bob (Xo = 145). Évidemment, la différence entre les vraies notes d'Ashley et de Bob est incompatible avec la différence entre leurs notes observées - la vraie note d'Ashley est plus élevée que la note vraie de Bob, mais sa note observée est moins élevée que sa note observée : Ashley Xt- Bob Xt= 130-120 = +10. Ashley X - Bob X = 120-145 = -25. Cette incohérence est créée par une erreur de mesure. L'erreur de mesure a artificiellement dégonflé la note observée d'Ashley et a artificiellement gonflé la note observée de Bob. Bien sûr this inconsistency means that the apparent 25-point difference between Ashley and Bob (on the self-esteem questionnaire) is a very poor refection of the real difference between Ashley and Bob (in their truc, stable levels of self-esteem). Measurement error can create such inconsistencies across all respondents, as shown in Figure 5.2. This figure plots the true and observed scores for cach of the six respondents in Table 5.la, with cach person's pair of scores connected by a line. The left side of the plot presents the true psychological differences among the respondents, showing for example that Ashley has the highest level of self-esteem, Bob has the next highest, and so on. The right side of the plot presents the observed scores, and thus illustrates the effect of random measurement error. Seme participants' observed scores are higher than their true scores, whercas seme participants' observed scores are lower than their true scores. These various patterns of “shift® due to measurement error cssentially reorders the apparent differences among participants rahher dramatically. Acerding to the obsered scores, far example, Bob scems to have the highest level of self-cestcem, by far, In addition, aceording to the observed scores. Ashley (who truly has the highest selffesteen apparently has only slightly higher self-estcem than Eric the truly has the second- lowest level of wel-estecm, Due to meuremem error, the differences aanons |repondents oherved score do noe accurately reflect the true differences anong heir levels ot selvesteen The Erfect of Measurement Frror Figure 5.2 The Eflect of Measurement Error on the Difference Between True and Observed Scores Because measurement error affects the apparent differences among all the (Chapter 3's Equation 2). For example, variance among the error scores (s*) is based on using crror scorcs (X) in the computations: (52) This value represents the degree to which crror affected different people in different Ways Again. the fact that error affects prople ditferemly-artilicially intlating some propic scores and artificially delbting other propic scores is what obscures the True differences among pcople. Thus a high degree of error variance indicates he potential for poor measurcmem \Vc can also compute a ariance for ihe observed As shown in Figurc $.1. the two core assumptions underlying ( TT hate implications for the variability of wbserved test scores. Assuming that an individual's wbserved score is the sum of the individual's true score and error score fi.c. X X. - X-) and — that meixunent error i random. t folows that the total vancce of the obecrved scores from a group ot individuals equals the sum of their true score and error score arances (53) If you examine the observed score variance (sin Table 5.12. you will se that it i ndeed the sum ot the true score aariame and error score vanance tith any apparent dscrepare due onk to rounding) According to ( TT, ihis finding reflects the fact that variability among observed score will be larger han variabilin annong true ses, In this sample, true score rariante was only29, while observed score variance was much larger. at os 84 Measuring error cssentially akes true core vanance and idds *roise" ro produce an innated variance among observed scores. This can be cen visually in Figure 52 and Si in Fiie 52, we xcemore spread among she observed xeores On ihe a side, These wan. and son- illustrares ihs same effect ihrough disrbutons of true and observed scores ee Chaprer 3). This hgure ts based on the general trends m Table i (m terms of means anance and refects much arser ntbers of respondent Im this Figure. the dtibumon of observed scores wider iban the disrbuson of True scores differme is due to dhe noise uneduced by mcasurerem error Figure S3 Distributions ol True Scores and Observed Scores Showing That Measurement Error Induces Noise That Infates V ariability Among Obscrved Scores You may have noted that Equatum seems mocnsistent ahc formula tor die variane ol a compusre varmbie rhat 7. This oripinally dxcnbed a compoxlte score is a score rhat the sum ol tuo or me lems. Mure generally a compusile varmbie is a variable ic ae ol xeores riat de he sum of tuo or more components Thus. observed sceores can be seen as composite scores that asmply the um oi two componeas core ind Chaprer saded thar die variane lor a compusire score & equal we he sum ol variances ol he ems or comppnems rar the items or cumponents se corclaed h ah ober Bascdon hat descripen wight expect thar the variance oi obrvd scores should he lo other words, vou might expees e observed rcore xhouta be equal to rucore wane phes error vance pus he covariance ol ccores and error deependen ol rue scores, which umplies thar dee correlaun hetween error score and true scores is O . Therefore. the righimost term ol Equaton 4. the quaton. leaving Equanon is a cnually unporaan rorme he classcal theory ol reliability. As discussion on what hferen between mechods for test-w FouR Wavs To THINK ol Reliabury Dans CTI, there are least lour wave o thisk about reliably. On one way ur anothr rach onc atacs lrom he asocialons among oberved acre variance une score level, hey represcem ditteremt w of on chanctenzing the concm As shown m Tables our approcches reflect wo dustinctons an die a distimchon 1 wheher in approach onceptuaizcs elability an reams proporuon oi vanance or reams ol correations . A econd as opposed lo rue scores br o error Table B-2 A for Conceptahung Relabuhty Conceptua! Basis of Reliabiluy: Obsrved Proporrions aelabiliry he lack of or wane rue acre to error vance Conclations elabiiry the lacks or erween obrnd corrdonberween re scorzs er and cror scorrs There are ar eas rhre asms o her with the ditterem w of thinkng abourreliabiliy the wa ot conceptahzngreliabh may scem larer and mure ou chan wa For example. ou You md that correauens tar waer ceacn more wwe co ur -d definuons of -deeper undersanding of than *deeper insighrs mto important aspect ot mpies in or about and Rehability as th Rauu ol True Score Varuance or Obsered Earlier. we alcusxd reliability in terms ot wgnal and nose Relaby = Wew Deen + Mensen Eror The fust and mom on exsson of iy hs wcely ah this vow Becaase the defferencsi among the mhe that wwnt w efect the heghing come scores and th W, W can hen frame rehabiliny K hat is reliability the proportion ol eoberded score aariance thar is auruburable to rue score vanance tor example lar die seponses in Table Sla. This alue reals that about 18% al the differencs among responder observed scores can be alirbuicd de he differenes among the true trail leels size of che rehbalny cocificsem andexes dhe relablny al a cet of eeres Im heory, rehalaty range hee and I. and larger value indicate grater reater rhet the fact h the charactensic being ed by atest he ess reliabihty is for those reipondems In cumrarsr. f true score variance is equal te obereed xeore vance then R 1. Ths would mdicate thar there is aboolutely no measuremem errors affectng chereed scores In reality, measuremem eror alays wecurs one degree the liability d. or for the dar in Tabe & is 4 wil noe ceur in real sethng. hur would hm much more safised ab a indced S or fen theated he an -acercable evel of reliability ier research purpos Thueh to imprne ine Sut thas m. n and making sur that propic " queshons ther t that mhe asked he ame respondms t d in Table Dd her reron prudec corcs berer relihiliy‘ Take monen wo contrast the data in Tabie 5.13 scores from the original quemonare and 3 cores om There accm her the they were me of seleate Second. obrre the deternces among the resondents again les locus an Anhicy mronsitener herween Ashien and thue note -dhered corer s poinr lower than the obrsnd cor the red quemanares wem be much were onsistent wir their true ror . Ashley chm red cor 1 ponts higher nan receses. It this -porne dillerem -merse y of de dillerenes in berwcen hat de reed e at Aher ily Based me the recs e he hrer r original est Th xense is confirned nen m from the rrvsed test de the oberted score varianes cabe atibuted 10 ance m true reas The relahety al the cores Irem the ed ucsnonare hac she rem A second wy of cmmelzsg rehblhxy is e lack ol mensurererm error. We * the egree to which crror e Therefore rely be used he degree whch ceror vansce * mal m comarren th de ranance ol oberred scores The oton sated at relabity can be acenas die proporion eoberbed. ware varance ha atrih a7753* 53 w have also statod that obrred scor varance dhe sum ol true score var