Lehrbrief Diagnostik I – Methoden der Testkonstruktion PDF
Document Details
Uploaded by RosySage
PFH Private Hochschule Göttingen
2023
Dr. Safir Yousfi
Tags
Summary
This is a lecture brief in German about test construction methods in psychological diagnostics. It covers messtheoretical foundations, test construction strategies, item generation, aggregation, and item selection. The brief is part of the course Diagnostik I and focuses on practical applications.
Full Transcript
Lehrbrief Diagnostik I – Methoden der Testkonstruktion M10265 Lehrbrief Diagnostik I – Methoden der Testkonstruktion M10265 Autor: Dr. Safir Yousfi Modulverantwortung: Prof. Dr. Yvonne Görlich Herausgeber: PFH Private Hochschule Gött...
Lehrbrief Diagnostik I – Methoden der Testkonstruktion M10265 Lehrbrief Diagnostik I – Methoden der Testkonstruktion M10265 Autor: Dr. Safir Yousfi Modulverantwortung: Prof. Dr. Yvonne Görlich Herausgeber: PFH Private Hochschule Göttingen Weender Landstraße 3-7 37073 Göttingen Tel.: +49 (0)551 54700-0 Impressum: www.pfh.de/impressum Datenschutz: www.pfh.de/datenschutz Verlag: © 2023 Hogrefe Verlag GmbH & Co. KG Göttingen Bern Wien Oxford Boston Paris Amsterdam Prag Florenz Kopenhagen Stockholm Helsinki São Paulo Merkelstraße 3, 37085 Göttingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Coverbild: https://stock.adobe.com Sonderausgabe: Der Lehrbrief basiert auf Kapitel 3 (Methoden der Item- und Skalenkonstruktion) des Buches „Methoden der psychologischen Diagnostik (Enzyklopädie der Psychologie, Serie Psychologische Diagnostik, Band 2)“, herausgegeben von Lutz F. Hornke, Manfred Amelang und Martin Kersting (2011). ISBN 978-3-8017-1524-3. 2. Auflage, Göttingen 2023 | PFH.FLB.760.2308 5 Inhaltsverzeichnis Abbildungsverzeichnis 7 Einleitung 9 Einordnung des Lehrbriefes im Rahmen des Studiums 9 Aufbau und Konzeption dieses Lehrbriefes 10 Lernziele dieses Lehrbriefes 10 Kapitel 1 Messtheoretische Grundlagen der Testkonstruktion 11 1 Messtheoretische Grundlagen der Testkonstruktion 12 1.1 Grundriss der psychometrischen Testtheorie 13 1.1.1 Klassische und Probabilistische Messmodelle 15 1.1.2 Messmodelle der psychometrischen Testtheorie 16 1.2 Validität 19 Reflexionsaufgaben 25 Kapitel 2 Strategien der Testkonstruktion 27 2 Strategien der Testkonstruktion 28 2.1 Deduktive Methode 28 2.2 Induktive Methode 30 2.3 Externale Methode 33 2.4 Vergleich der Testkonstruktionsstrategien 34 2.5 Unterscheidungsmerkmale von psychologischen Testverfahren 35 Reflexionsaufgaben 38 Kapitel 3 Generierung von Items 39 3 Generierung von Items 40 3.1 Verhaltensstichproben, Simulationen und situative Fragen 40 3.2 Prototypenansatz 42 3.3 Lexikalischer Ansatz 43 3.4 Facettentheortische Ansätze 44 3.5 Rationale Itemkonstruktion 45 3.6 Empfehlungen für die Itemkonstruktion bei Selbstberichtdaten 48 Reflexionsaufgaben 50 6 Kapitel 4 Aggregation 51 4 Aggregation 52 4.1 Messung anhand von einzelnen Items 53 4.2 Aggregation durch Addition oder Mittelwertsberechnung 53 4.3 Aggregation durch Linearkombination 55 4.4 Weitere statistische Methoden 55 Reflexionsaufgaben 56 Kapitel 5 Selektion von Items 57 5 Selektion von Items 58 5.1 Wissenschaftliche Aspekte der Itemselektion 58 5.2 Auswahl nach Itemkennwerten 59 5.2.1 Externe Validität 60 5.2.2 Faktorielle Validität 61 5.2.3 Interne Validität (Itemfit) 61 5.2.4 Klassische Trennschärfe- und Itemschwierigkeitskoeffizienten 63 5.2.5 Probabilistische Itemparameter 64 5.2.5.1 Trennschärfekonzepte der probabilistischen Testtheorie 64 5.2.5.2 Trennschärfe und Gütekriterien in der probabilistischen Testtheorie 66 5.2.5.3 Adaptives Testen 68 5.2.6 Inhaltliche Kriterien 69 5.3 Auswahl nach Skalenkennwerten 70 5.3.1 Algorithmen 70 5.3.2 Zielvariablen 71 5.3.3 Empirie 73 5.4 Optimal Test Design 74 Reflexionsaufgaben 75 Kapitel 6 Fazit 77 6 Fazit 78 7 Anhang 81 Literatur 85 Abbildungsverzeichnis Abbildung 1: Schematische Darstellung des Zusammenhangs zwischen Antwortwahrscheinlichkeit, Information und asymptotischer Messfehlervarianz mit der Merkmals- ausprägung und der Trennschärfe bei dichotomen Items. 67 9 Einleitung Psychologische Diagnostik gilt als ein Kernelement psychologischer Me- thodik. Das Ziel diagnostischer Methoden ist die Erhebung und Aufberei- tung von Informationen, um begründete Entscheidungen zu treffen. Das Spektrum der Psychologischen Diagnostik reicht dabei von systemati- schen Ansätzen zur Befragung und Beobachtung bis hin zum Einsatz psychometrischer Tests und physiologischer Methoden. Einordnung des Lehrbriefes im Rahmen des Studiums Der Lehrbrief wirft einen Blick auf die Methoden der Testkonstruktion. Psychologische Tests zählen generell zu den am häufigsten eingesetzten Werkzeugen in der psychologischen Forschung und Praxis. Ziel ist es, nicht direkt beobachtbare Merkmale zu erfassen und Vorhersagen über künftiges Verhalten zu machen. Gleichzeitig haben psychologische Tests auch eine Modellfunktion. So dienen sie zum einen der Operationalisierung von abstrakten psychologischen Konstrukten (deduktiver Ansatz) – zum anderen helfen sie, theoretische Merkmalsbegriffe begrifflich festzulegen (induktiver Ansatz). Aber auch bei der Entwicklung von Modellen über Zusammenhänge zwischen verschiedenen Merkmalen spielen psycho- logische Tests und deren empirische Zusammenhänge eine wichtige Rolle. Der vorliegende Lehrbrief stellt zunächst die messtheoretischen Grundlagen der Testkonstruktion dar. Es folgen verschiedene Ansätze der Testkonstruktion sowie die Methoden der Itemgenerierung, Aggregation und Itemselektion. 10 Aufbau und Konzeption dieses Lehrbriefes Das erste Kapitel gibt eine Einführung in die messtheoretischen Grund- lagen der Testkonstruktion. Neben klassischen und probabilistischen Messmodellen werden Messmodelle der psychometrischen Testtheorie vorgestellt. Das zweite Kapitel geht auf Strategien der Testkonstruktion ein. Hier wird zwischen deduktiver, induktiver und externaler Methode verglichen. Die Generierung von Items wird im dritten Kapitel behandelt. Dabei spielen besonders die verschiedenen Ansätze eine wichtige Rolle. Das vierte Kapitel wirft anschließend einen Blick auf die Aggregation von Items. Hier werden unterschiedliche statistische Methoden wie die Aggre- gation durch Addition oder Mittelwertsberechnung vorgestellt. Im fünften Kapitel wird die Selektion von Items erläutert. Hierbei spielt besonders die Auswahl nach Itemkennwerten eine wichtige Rolle. Der Lehrbrief schließt mit einem Fazit im sechsten Kapitel ab. Lernziele dieses Lehrbriefes Klassische und probabilistische Messmodelle Messmodelle der psychometrischen Testtheorie Strategien der Testkonstruktion Unterscheidungsmerkmale von psychologischen Testverfahren Itemgenerierung – Prototypenansatz, Lexikalischer Ansatz und Facet- tentheoretische Ansätze Rationale Itemkonstruktion Aggregation durch Addition oder Mittelwertsberechnung Aggregation durch Linearkombination Itemselektion nach Itemkennwerten Itemselektion nach Skalenkennwerten Optimal Test Design Kapitel 1 Messtheoretische Grundlagen der Testkonstruktion Inhaltsübersicht 1 Messtheoretische Grundlagen der Test- konstruktion 12 1.1 Grundriss der psychometrischen Testtheorie 13 1.1.1 Klassische und Probabilistische Messmodelle 15 1.1.2 Messmodelle der psychometrischen Testtheorie 16 1.2 Validität 19 Reflexionsaufgaben 25 12 Kapitel 1 1 Messtheoretische Grundlagen der Testkonstruktion Wissenschaftlich begründete Diagnostik beruht auf wissenschaftlichen Theorien. In solchen Theorien werden Aussagen über theoretische Kon- strukte (wie Intelligenz, Wahrnehmung, Gedächtnis etc.) und deren Zu- sammenhänge formuliert. Mit theoretischen Konstrukten sind Attribute gemeint, die Merkmalsträgern zugeschrieben werden. Dies ist deshalb von Nutzen, da sich dann anhand der wissenschaftlichen Theorien das Verhalten der Merkmalsträger beschreiben, erklären und vorhersagen lässt (Amelang & Schmidt-Atzert, 2006). Eine der Aufgaben der Diagnostik ist es festzustellen, ob oder in welchem Ausprägungsgrad diese Attribute bei einem Merkmalsträger vorliegen. Dazu müssen die theoretischen Konst- rukte freilich zu beobachtbarem Verhalten in Beziehung gesetzt werden. Schließlich ist aufgrund von konkreten Beobachtungen einzuschätzen, ob und ggf. in welchem Ausmaß ein bestimmtes, theoretisches Attribut bei einem Merkmalsträger vorhanden ist oder nicht. Wissenschaftlich fundierte Messprozeduren unterscheiden sich von Ad- hoc-Zuschreibungen dadurch, dass explizit festgelegt wird, welche em- pirischen Sachverhalte vorliegen müssen, damit ein bestimmtes theore- tisches Attribut zugewiesen wird. Nach Möglichkeit sollten sich derartige Messvorschriften wissenschaftlich begründen lassen. Wenn man etwa in der Physik das Gewicht (physikalisch: Masse) eines Gegenstandes bestimmt, indem man ihn auf eine Seite einer Balkenwaage legt und dann die andere Seite solange mit Gegenständen von bekannter Masse be- schwert, bis die Waage im Gleichgewicht ist, so macht man sich eine Reihe von theoretischen, physikalischen Gesetzen zunutze (Gravitationsgesetz, Kräfteaddition, Kräftegleichgewicht, Hebelgesetz). Der Nutzen dieser Messung liegt darin, dass man präzise Aussagen über das Verhalten des Gegenstandes in anderen Kontexten machen kann. So lässt sich anhand des Gewichts verschiedener Steine exakt vorhersagen, wie hoch diese mit einer Steinschleuder geworfen werden können. Bei solchen Vorhersagen rekurriert man nicht nur auf die erhobenen Messwerte, sondern auch auf weitere theoretische, physikalische Gesetze (Hooksches Federgesetz, Newtonsches Bewegungsgesetz, Gravitationsgesetz). In der Psychologie sind Messvorschriften häufig nicht vollständig theo- retisch begründet. Sie leiten sich eher aus nicht formalisierten Theorien über den zu messenden Gegenstand ab (Borsboom, 2006). Daher erlau- ben psychologische Theorien meist nur recht grobe Aussagen darüber, wie sich ein theoretisches Attribut eines Merkmalsträgers in der Empirie manifestiert. Dies liegt nicht nur daran, dass nur wenige psychologische Theorien präzise, quantitative Gesetzesaussagen enthalten, sondern auch daran, dass die Gesetzesmäßigkeiten menschlichen Verhaltens im Allge- meinen nicht deterministisch, sondern probabilistisch sind. Probabilisti- sche Theorien erlauben allenfalls Aussagen über die Wahrscheinlichkeit Messtheoretische Grundlagen der Testkonstruktion 13 von Beobachtungen bei gegebenen Randbedingungen. Die Messwerte haben daher in der Regel nur eine eingeschränkte Aussagekraft hinsicht- lich der zu messenden Größen. Bei der zuverlässigen Erfassung der offensichtlich bestehenden interin- dividuellen Unterschiede in den Verhaltensdispositionen von Personen, stellt die außerordentliche intraindividuelle Variabilität von Verhaltenswei- sen ein beträchtliches Hindernis dar. Aufgabe der Diagnostik ist es, den- noch Merkmale zur Beschreibung von Personen zu identifizieren, die nicht nur das aktuelle Verhalten charakterisieren, sondern mehr oder weniger überdauernde Eigenschaften und Verhaltenstendenzen. Ein wesentliches Hilfsmittel stellt dabei die Verwendung psychologischer Tests dar. Dazu werden die Personen mehr oder weniger standardisierten Testsituationen ausgesetzt, um diagnostisch relevantes Verhalten zu evozieren. Das Er- gebnis einer solchen Testprozedur ist meist entweder die Zuordnung zu einer diagnostischen Kategorie (z.B. Depression) oder die Vergabe eines numerischen Werts (z.B. IQ-Wert). Es ist jedoch davon auszugehen, dass die latenten psychischen Merkmale das Verhalten in der Testsituation nicht vollständig determinieren, sondern allenfalls die Wahrscheinlichkeit der verschiedenen möglichen Verhaltens- weisen. Daher ist ein probabilistisches Messmodell vonnöten, welches die Wahrscheinlichkeit des Verhaltens zu den latenten Merkmalen in Beziehung setzt. Solche Modelle werden im Rahmen der psychometri- schen Testtheorie entwickelt. Im folgenden Abschnitt werden die für die Item- und Skalenkonstruktion wichtigsten Aspekte der psychometrischen Testtheorie skizziert, bevor dann im zweiten Unterabschnitt die Validität als zentrales Gütemerkmal für psychologische Tests diskutiert wird. 1.1 Grundriss der psychometrischen Testtheorie Grundidee der psychometrischen Testtheorie ist es, die Durchführung von psychologischen Tests als Zufallsexperiment zu betrachten. Durch Messvorschriften resultieren dann reellwertige Testwertvariablen 1 Y1, …, Yk, welche den Ausgang des Zufallsexperiments charakterisieren. Die Testwertvariablen könnten beispielsweise die einzelnen Antworten einer Person auf die Items eines Persönlichkeitsfragebogens oder eines Leis- tungstests wiedergeben. Aber auch das Testresultat, dass sich meist durch Addition, Mittelwertsbildung, Linearkombination oder statistische 1 In der Praxis werden die Testwertvariablen häufig als Tests oder Testwerte bezeichnet. Im Sinne einer kla- ren Taxonomie empfiehlt es sich jedoch zwischen der Durchführung eines Tests (Zufallsexperiment), den Testwertvariablen (Zufallsvariablen) und Testwerten (beobachtete Realisierungen der Zufallsvariablen) zu unterscheiden. 14 Kapitel 1 Methoden der Parametermeterschätzung aus den Itemantworten ergibt, ist seinerseits wieder eine Testwertvariable. Die Messmodelle der psychometrischen Testtheorie basieren in der Re- gel darauf, dass eine Annahme über die Äquivalenz von verschiedenen Testwertvariablen formuliert wird (Steyer & Eid, 2001). Nimmt man etwa an, dass die (bedingten) Erwartungswerte verschiedener Testwertvariablen bei jeder beliebigen Person jeweils identisch sind, so spricht man von -äquivalenten Messungen. Die Bezeichnung rührt daher, dass man den Erwartungswert einer Person auf einer Testwertvariablen im Rahmen der psychometrischen Testtheorie als wahren Wert bezeichnet, der üblicher- weise durch „ “ symbolisiert wird (Lord & Novick, 1968). Die essenzielle -Äquivalenz ist eine weniger restriktive Annahme als die -Äquivalenz, da sich die wahren Werte der verschiedenen Testwertvariablen hier unter- scheiden dürfen. Die Differenzen zwischen den wahren Werten müssen bei essenziell -äquivalenten Variablen jedoch bei allen Personen jeweils dieselben sein. Die Rasch-Homogenität ist eine weitere gebräuchliche Äquivalenzhypothese, die insbesondere bei dichotomem oder ordinalem Antwortformat eher angemessen ist. Dichotome Testwertvariablen sind dann Rasch-homogen, wenn sich die logit-transformierten Antwortwahr- scheinlichkeiten jeweils nur um eine personenunabhängige Konstante unterscheiden. Bei ordinalen Rasch-Modellen wird diese Bedingung für die Schwellenwahrscheinlichkeiten formuliert. Das ist die bedingte Wahr- scheinlichkeit dafür, dass die höhere von zwei benachbarten Antwortka- tegorien gewählt wird. Die Äquivalenzhypothesen der verschiedenen psychometrischen Mess- modelle implizieren jeweils die Existenz einer gemeinsamen latenten Varia- blen. Diese Variable lässt sich als operational definiertes psychologisches Konstrukt auffassen, das dasjenige Attribut der Personen wiedergibt, dass die äquivalenten Testwertvariablen erfassen (Steyer & Eid, 2001; Kane, 2006). Für eine gegebene Person nimmt diese Zufallsvariable einen festen Wert an, der Personenparameter (bei mehrdimensionalen Messmodellen auch Faktorwert) genannt wird und die Ausprägung der Personen auf den latenten Eigenschaftsdimensionen wiedergibt. Die wahren Werte (bzw. die Antwortwahrscheinlichkeiten im Rasch-Modell) sind Funktionen der Personenparameter. Der Funktionstyp hängt dabei von der gelten- den Äquivalenzrelation zwischen den Testwertvariablen (meist: Items) ab.2 Die Parameter dieser Funktionen werden Itemparameter genannt. Die Itemparameter determinieren die Antwortwahrscheinlichkeiten (oder zumindest Parameter der Wahrscheinlichkeitsverteilung) der einzelnen Testwertvariablen bei einem gegebenen Personenparameter. 2 Bei essenzieller -Äquivalenz sind die wahren Werte beispielsweise eine lineare Funktion der latenten Merkmals- dimension, während die Beziehung zwischen den wahren Werten und dem latenten Merkmal im dichotomen Rasch-Modell durch logistische Funktionen beschrieben wird. Messtheoretische Grundlagen der Testkonstruktion 15 Anhand von statistischen Modellgeltungstests lässt sich überprüfen, ob für die Items eines Testverfahrens ein bestimmtes psychometrisches Messmo- dell gilt. Ist dies der Fall, so gilt dieses Testverfahren als intern valide (Rost, 2004). Die Geltung eines Testmodells kann deshalb als Hinweis auf die Validität des Testverfahrens gewertet werden, da den verschiedenen Items dann eine gemeinsame latente Variable zugrunde liegt. Die verschiedenen Items erfassen eine gemeinsame Personeneigenschaft, die den Antwort- dispositionen hinsichtlich aller Items des Testverfahrens zugrunde liegt. Messmodelle stellen jedoch nicht nur eine Brücke zwischen latenten Per- sonenmerkmalen und beobachtbarem Verhalten dar; sie sind auch eine unverzichtbare Voraussetzung für die Bestimmung der Messgenauigkeit (Reliabilität). Die Reliabilität einer Messung ist im Rahmen der psychome- trischen Messtheorie zwar auch ohne Geltung eines Messmodells als der Anteil der Varianz der Testwertvariablen definiert, der auf Unterschiede in den wahren Werten der Personen zurückgeführt werden kann. Empirische Schätzungen der Reliabilität beruhen jedoch darauf, dass ein bestimmtes Messmodell gilt. So lässt sich die Reliabilität einer Testwertvariablen nur dann über die Korrelation mit einer wiederholten Messung bestimmen, wenn Test und Retest zumindest essenziell -äquivalent sind und wenn zudem die Messfehler von Test und Retest unkorreliert sind und wenn sie identische Varianzen haben (Steyer & Eid, 2001). Die meisten Methoden zur Optimierung der Messgenauigkeit eines Tests beruhen darauf, dass zumindest für einen Teil der Testwertvariablen ein Messmodell gilt. Die üblichen Methoden der Reliabilitätsschätzung aufgrund der statistischen Zusammenhänge von Testteilen (Cronbachs , Split-half-Korrelationen, Retestkorrelationen, …) sind keine angemessenen Reliabilitätsschätzun- gen, wenn die entsprechenden Testwertvariablen nicht zumindest essen- ziell -äquivalent sind.3 Ohne die Etablierung eines psychometrischen Messmodells lassen sich kaum begründete Aussagen über die Güte eines Testverfahrens machen. Die Anpassung von solchen Messmodellen bildet daher die Grundlage für wissenschaftlich fundierte Messungen.4 1.1.1 Klassische und Probabilistische Messmodelle Innerhalb der psychometrischen Testtheorie wird häufig zwischen einem klassischen und einem probabilistischen Ansatz unterschieden. Im pro- 3 Außerdem muss auch die Unkorreliertheit der Fehler und (außer bei Cronbachs α) auch die Homogenität der Fehlervarianzen gelten. 4 In den Naturwissenschaften werden selten explizit Messmodelle formuliert, da die entsprechenden Äquivalenz- hypothesen meist trivial sind. Wenn man etwa die Genauigkeit einer Waage durch Streuung der Messwerte bei wiederholten Messungen abschätzt, so wird man sich (in der Regel) wenig Sorgen machen müssen, dass sich das Gewicht des Messobjekts oder die Eigenschaften der Waage verändern. In der Psychologie ist es aufgrund von Erinnerungs- und Lerneffekten und mangelnder Konstanz von Verhaltensdispositionen sehr viel schwieriger äquivalente Messungen vorzunehmen. 16 Kapitel 1 babilistischen Ansatz, der auch Item-Response-Theorie (IRT) genannt wird, sind durch die Modellparameter nicht nur einzelne Verteilungspa- rameter (die wahren Werte) der Testwertvariablen, sondern die gesamte Verteilung der Testwertvariablen festgelegt. Vertreter des probabilistischen Ansatzes werfen dem klassischen Ansatz vor, dass er über gar kein Messmodell verfüge und daher nicht als Testtheorie, sondern allenfalls als Messfehlertheorie zu bezeichnen sei (Rost, 1999, 2004). Tatsächlich gibt es in der klassischen Testtheorie (KTT) Theoreme (wie beispiels weise die Verdünnungsformeln), die nicht auf einem Messmodell beru- hen. Viele Theoreme, die der KTT zugerechnet werden, gelten jedoch nur dann, wenn ein bestimmtes Messmodell erfüllt ist. So basieren etwa alle klassischen Techniken der Reliabilitätsbestimmung oder auch die Spearman-Brown-Formel über den Zusammenhang der Testlänge mit der Reliabilität darauf, dass die entsprechenden Testvariablen essenziell -äquivalent sind. Allerdings wird in der Tradition der KTT häufig nicht explizit zwischen solchen Theoremen unterschieden, die allgemeingültig sind und solchen Theoremen, die nur unter der Voraussetzung eines be- stimmten Messmodells oder anderer Modellannahmen (z.B. lokale Unkor- reliertheit der Fehler) gelten. Demzufolge wird in der klassisch orientierten Praxis der Testkonstruktion die Überprüfung dieser Modellannahmen oft unterlassen, obwohl entsprechende Methoden durchaus verfügbar sind (vgl. z.B. Steyer & Eid, 2001). Die Messmodelle der KTT sind jedoch ebenso wie die Messmodelle der IRT Latente-Variablen-Modelle, die sich lediglich in der Art der Beziehung („Linkfunktion“) zwischen den Testwertvariablen Yi und den zu messenden latenten Variablen unterscheiden: Lineare Messmodelle werden in der Re- gel der KTT zugerechnet, während in der Tradition der IRT Messmodelle untersucht werden, die einen nicht linearen Zusammenhang der laten- ten Variablen mit der Testwertvariablen postulieren. Moderne statistische Verfahren erlauben nicht nur die Analyse der Messmodelle aus beiden Traditionen, sondern auch die Überprüfung von Strukturmodellen über Zusammenhänge zwischen mehreren latenten (und/oder manifesten) Vari- ablen (vgl. z.B. Muthen & Muthen, 2004; Skrondal & Rabe‑Hesketh, 2004; DeBoeck & Wilson, 2004). Umgekehrt lassen sich Begriffe und Konzepte, die aus der KTT stammen, wie etwa die Reliabilität, ebenso bei probabi- listischen Messmodellen anwenden (Rost, 2004). Die Unterscheidung zwischen klassischer und probabilistischer Testtheorie beruht also nicht auf grundlegenden konzeptuellen Unterschieden, sondern ist eher ein Ergebnis von unterschiedlichen Traditionen bei der Analyse von Testdaten. 1.1.2 Messmodelle der psychometrischen Testtheorie Die bisher vorgestellten Messmodelle (Rasch-Homogenität, essenzielle -Äquivalenz) postulieren sehr restriktive Äquivalenzhypothesen über die Messtheoretische Grundlagen der Testkonstruktion 17 Zusammenhänge zwischen den Messwertvariablen. Daher sind verschie- dene Erweiterungen und Generalisierungen dieser Messmodelle vorge- schlagen worden, um der Komplexität der am Messvorgang beteiligten Faktoren gerecht zu werden. Beim Modell -kongenerischer Tests (Steyer & Eid, 2001) wird zwischen den latenten Variablen und der Testwertvariablen lediglich ein linearer Zusammenhang postuliert. Die wahren Werte verschiedener Testwertva- riablen können sich also nicht nur um additive, sondern auch um multipli- kative Konstanten unterscheiden. Das probabilistische Pendant zu diesem Modell ist das Birnbaum-Modell (Birnbaum, 1968), bei dem zwischen der latenten Variablen und den Logits der Antwortwahrscheinlichkeiten (der dichotomen Testwertvariablen) eine lineare Beziehung besteht. Beide Modelle lassen sich zu faktorenanalytischen Modellen erweitern, welche die Antworttendenzen der Testpersonen als Funktion mehrerer latenter Variablen beschreiben (Bartholomew & Knott, 1999). Bei hierarchischen faktorenanalytischen Modellen werden die Faktoren selbst wieder als Linearkombinationen von Faktoren höherer Ordnung (und entsprechenden Residualtermen höherer Ordnung) dargestellt. In der Regel laden Faktoren höherer Ordnung auf mehr Testwertvariablen, wobei allerdings geringere Ladungen zu beobachten sind (bandwidth-fidelity trade-off). In solchen hierarchischen Messmodellen wird zwischen endo- genen und exogenen latenten Variablen unterschieden. Exogene latente Variablen sind solche latenten Variablen, die nicht Linearkombination von anderen latenten Variablen des Messmodells sind. Neben den Faktoren höchster Ordnung sind dies sämtliche Residualterme des Messmodells. Alle Faktoren niederer Ordnung werden endogene Variable genannt. Die endogenen Variablen sind, formal betrachtet, keine notwendigen Bestand- teile des Messmodells, da sich die manifesten Testwertvariablen auch direkt als Linearkombination der exogenen Variablen darstellen lassen. Die Einführung von endogenen Variablen ermöglicht jedoch häufig eine bessere Übersetzung der theoretischen Hypothesen in psychometrisch- statistische Modellannahmen. Bei der latenten Klassenanalyse ist die latente Variable nominalskaliert, d.h. es wird lediglich die Existenz von verschiedenen (Äquivalenz-)Klas- sen von Personen unterstellt, die jeweils identische Antworttendenzen aufweisen (z.B. internaler vs. externaler Attributionsstil). Bei Mischvertei- lungsmodellen wird dagegen die schwächere Annahme gemacht, dass innerhalb der Klassen lediglich dasselbe klassenspezifische Messmodell für die (oft nur klassenspezifisch interpretierbaren) latenten Variablen gilt (Rost, 2004). Bei Anwendung der bisher vorgestellten Messmodelle wird meist nicht nur eine Äquivalenzhypothese postuliert, die die Existenz von gemeinsa- 18 Kapitel 1 men latenten Variablen impliziert, sondern es wird auch die zusätzliche Annahme gemacht, dass die statistischen Zusammenhänge zwischen den Testwertvariablen nur durch die Ausprägung der Testpersonen auf den latenten Variablen verursacht werden (lokale stochastische Unab- hängigkeit). Bei einer gegebenen Ausprägung auf den latenten Variablen dürfte es demnach keine Korrelationen zwischen den Merkmalsausprä- gungen geben. Insbesondere dürften die Werte einer Testperson auf einer Testwertvariablen nicht davon abhängen, welche Werte sie auf anderen Testwertvariablen hat. Es darf also weder Lerneffekte noch situationsspe- zifische Einflüsse wie das Wetter, die Stimmung o.Ä. geben, die sich auf mehrere Variablen auswirken. Auch die Neigung der Probanden, möglichst konsistent zu antworten, führt zu stochastischen Abhängigkeiten zwischen den Testwertvariablen. Unkritisch sind allenfalls Kontexteffekte. Das sind solche situationsbedingten Einflüsse und Lerneffekte, die keinerlei zufäl- ligen Einflüssen unterliegen, sondern eine feste Eigenschaft der Person oder der Testsituation sind. Da sich die Abwesenheit von lokalen stochastischen Abhängigkeiten (auf- grund der Vielzahl von möglichen Abhängigkeitsbeziehungen) empirisch kaum demonstrieren lässt (Hinweise zur Überprüfung findet man z.B. bei Glas & Falcón, 2003, van der Linden & Glos, in Druck), ist (bei Anwendung der bisher besprochenen Messmodelle) unbedingt darauf zu achten, dass die Testitems so konstruiert werden, dass die Annahme der stochastischen Unabhängigkeit der Testwertvariablen für alle Testpersonen plausibel ist (Krauth, 1995). Redundante Fragen in Persönlichkeitsfragebögen und Aufgaben, bei denen Lerneffekte während der Testbearbeitung zu erwarten sind, sollten daher ebenso vermieden werden wie Items, die anfällig für situative Einflüsse sind. Wird die lokale stochastische oder lokale korrelative Unabhängigkeit verletzt, führt dies meist zu einer Überschätzung der Messgenauigkeit, was in der diagnostischen Praxis zu ungerechtfertigten Aussagen über die Merkmalsausprägung führt. Wenn sich Itemformate, bei denen lokale stochastische Abhängigkeiten zu erwarten sind, nicht vermeiden lassen, kann man versuchen, die entsprechenden Testwertvariablen vor der sta- tistischen Analyse soweit zu aggregieren, bis zwischen den resultierenden Testwertvariablen keine lokalen stochastischen Abhängigkeiten mehr zu erwarten sind. Nach Möglichkeit sollte man jedoch auf Messmodelle zurückgreifen, die solche Abhängigkeiten explizit modellieren und bei Parameterschätzungen berücksichtigen. Diese Modelle liefern nicht nur angemessene Reliabilitätsschätzungen, sondern bieten meist noch wei- tere diagnostisch verwertbare Informationen. Wenn die Abhängigkeiten zwischen den Testwertvariablen etwa auf Lerneffekte zurückzuführen sind, dann bieten sich Modelle für reaktionskontingentes Lernen an, die neben Personenparametern für die Merkmalsausprägung auch Parameter über den Lernerfolg während der Testbearbeitung enthalten (Rost, 2004; Jan- Messtheoretische Grundlagen der Testkonstruktion 19 narone, 1997). Wenn die Abhängigkeiten zwischen den Testwertvariablen auf situative Einflüsse zurückzuführen sind, bieten sich die Messmodelle der Latent-State-Theorie an (Steyer, Schmitt & Eid, 1999). Die Anwendung dieser Modelle ermöglicht es sowohl über Eigenschaften der Person (Traits) als auch über situationsbedingte Verhaltenstendenzen (States) diagnostische Aussagen zu treffen. Die hier angesprochenen Messmodelle sollen lediglich einen Eindruck über die Flexibilität und Bandbreite der psychometrischen Testtheorie bei der angemessenen Modellierung und Evaluation von Testdaten verschaf- fen. Alle Modelle beschreiben jeweils die Zusammenhänge zwischen den Testwertvariablen und den erhobenen latenten Merkmalen der Testperson. Für die praktische Anwendung der Modelle wird vorausgesetzt, dass zwi- schen den Werten einer Person auf verschiedenen Testwertvariablen keine Zusammenhänge bestehen oder dass zumindest die Art der stochasti- schen Zusammenhänge bekannt ist und in das Messmodell integriert wird. Dann lassen sich aus den Messmodellen empirisch überprüfbare Aussagen ableiten. Nur wenn die vorliegenden empirischen Daten im Einklang mit diesen Aussagen stehen, haben die mit den entsprechenden Testverfahren durchgeführten Messungen eine hinreichende testtheoreti- sche Begründung. Die meisten Messmodelle sind Spezialfälle von umfas- senden statistischen Modellen wie dem generalisierten latenten linearen additiven gemischten Modell (GLLAMM; Skrondal & Rabe-Hesketh, 2004) oder dem latenten Variablenmodell von MPLUS (Muthen & Muthen, 2004). Eine aktuelle deutschsprachige Einführung einer Vielzahl von verschiede- nen Messmodellen gibt Rost (2004). 1.2 Validität Das übergeordnete Ziel der Testkonstruktion ist die Sicherung der Vali- dität des resultierenden Testverfahrens. Validität wird häufig als Überein- stimmung zwischen dem, was der Test messen soll, und dem, was er tatsächlich misst, definiert (Cattell, 1946; Lienert & Raatz, 1998; Amelang & Schmidt-Atzert, 2006). Implizit setzt dieser Validitätsbegriff also voraus, dass es ein latentes Merkmal gibt, das es zu messen gilt. Die Ausprägun- gen der Merkmalsträger auf diesem latenten Merkmal werden innerhalb dieses theoretischen Rahmens platonische wahre Werte genannt (Lord & Novick, 1968). Die Korrelation der Testwertvariablen oder der durch ein Testverfahren erfassten latenten Variablen mit den platonischen True- Score-Variablen ist ein quantitatives Maß für die Validität der entspre- chenden Variablen. Je höher diese Korrelation ist, desto besser lassen sich in der betreffenden Personenpopulation die Werte der platonischen True-Score-Variablen durch Werte dieser Variablen vorhersagen. Empirisch lässt sich die Validität allerdings nur bestimmen, wenn eine Kriteriumsva- riable existiert, die die platonischen Werte fehlerfrei abbildet oder wenn 20 Kapitel 1 zumindest die Beziehung dieser Kriteriumsvariablen zur platonischen True-Score-Variablen bekannt ist. Der eben skizzierte Validitätsbegriff basiert implizit auf einer realistischen erkenntnistheoretischen Position, da er voraussetzt, dass das zu erhebende Merkmal auch unabhängig von Messungen tatsächlich existiert. Diese auf den ersten Blick triviale Annahme ist wissenschaftstheore- tisch gesehen durchaus problematisch, da die zu erfassenden Merkmale meist theoretische Konstrukte sind. Cronbach und Meehl (1959) vertreten die Auffassung, dass sich die Bedeutung theoretischer Konstrukte nicht daraus ergebe, dass sie sich auf reale Phänomene beziehen, sondern ausschließlich daraus, wie sie in das nomologische Netzwerk anderer theoretischer Konstrukte eingebettet sind. Konstruktvalidität liegt dann vor, wenn die empirischen Relationen zwischen den Testscores den the- oretischen Beziehungen zwischen den Konstrukten entsprechen. Die Validierung der Theorie über die Beziehungen zwischen den theoretischen Konstrukten und die Validierung der Testwerte als Indikatoren für diese Konstrukte sind in diesem Ansatz untrennbar ineinander verwoben (zur Kritik vgl. Embretson, 2002). Aus einer erfolgreichen Konstruktvalidierung lässt sich aber keineswegs der Schluss ziehen, dass die theoretischen Konstrukte tatsächlich eine Entsprechung in der Realität haben, sondern es wird lediglich die strukturelle Verträglichkeit des nomologischen Netz- werks mit den empirisch vorgefunden Relationen konstatiert. Da in der Psychologie die meisten Theorien nicht so genau ausgearbeitet werden, dass sie die Formulierung von Modellen mit präzisen quantitati- ven Gesetzesaussagen über die Zusammenhänge von psychologischen Konstrukten erlauben, wird die Konstruktvalidität in der Praxis anhand von Korrelationen der Testvariablen mit Kriteriumsvariablen untersucht (externe Validität oder Kriteriumsvalidität). Konstruktvalidität wird dann konstatiert, wenn die Testwertvariablen oder die durch das Testverfah- ren erfasste latente Merkmalsdimension mit solchen Kriteriumsvariablen hoch korrelieren, die entsprechend den theoretischen Vorstellungen einen hohen Zusammenhang zeigen sollten (konvergente Validität) und gleich- zeitig geringe Korrelationen mit Variablen zu beobachten sind, für die die Theorie keinen engen Zusammenhang postuliert (diskriminante Validität). Je nachdem, ob die Kriteriumsvariable gemeinsam mit der Testwertvari- ablen oder zu einem späteren Zeitpunkt erhoben wird, spricht man von konkurrenter oder prädiktiver Validität. Messick (1995) definiert die Validität eines Tests als Urteil über die An- gemessenheit der Schlussfolgerungen und Handlungen, die aus den Testwerten abgeleitet werden („consequetial validity“). Dieses Urteil soll nicht nur auf wissenschaftlichen Erwägungen beruhen, sondern auch soziale und ethische Konsequenzen der Testanwendung mit einbezie- hen. Diese (dezidiert rationalistische) Auffassung von Validität hat sich Messtheoretische Grundlagen der Testkonstruktion 21 auch in den Standards for Educational and Psychological Testing niedergeschlagen, die 1999 gemeinsam von der American Educational Research Association, der American Psychological Association und dem National Council on Measurement in Education herausgegeben werden und auch im internationalen Rahmen als Referenz des State-of-the-Art angesehen werden. Borsboom, Mellenbergh und van Heerden (2004, S. 1061) kritisieren diese Entwicklung, da „validity theory has gradually come to treat every important test-related issue as relevant to the validity concept and aims to integrate all these issues under a single header“. Ein solchermaßen überfrachteter Validitätsbegriff sei weder für den theoretisch orientierten noch für den praktisch arbeiteten Psychologen handhabbar. Ein solches Validitätskonzept ist so breit, dass praktisch alle wissenschaftlichen Akti- vitäten in Forschung und Praxis als Teil der Validierung von theoretischen Konzepten und den zugehörigen Operationalisierungen und Erhebungs- verfahren anzusehen sind. Borsboom et al. vertreten dagegen die Auffassung, dass ein sinnvoller Validitätsbegriff notwendigerweise darauf beruht, dass die theoretischen Konstrukte sich auf in der Realität existierende Phänomene beziehen, die sich kausal auf die Messwerte auswirken. Daher mache es auch keinen Sinn, verschiedene Validitätsaspekte wie Kriteriumsvalidität, Au- genscheinvalidität und Konstruktvalidität voneinander zu unterscheiden, da mit diesen Begriffen lediglich verschiedene Techniken der Validierung umschrieben werden, die dabei helfen sollen, zu beurteilen, ob Variationen in den Testwerten tatsächlich kausale Folge von Variationen des latenten, theoretischen Attributs sind. Auch wenn Borsboom et al. ausdrücklich eine realistische erkenntnisthe- oretische Position beziehen, ist der von ihnen vertretene Validitätsbegriff durchaus auch mit einer konstruktivistischen oder idealistischen Sichtwei- se vereinbar. Die Überlegungen von Borsboom et al. machen auch dann Sinn, wenn man das Postulat von der Existenz des latenten Merkmals aufgibt und lediglich fordert, dass die Theorien, die wir zur Erklärung empirischer Phänomene heranziehen, latente Variablen enthalten, die als kausale Ursachen eben dieser Phänomene aufgefasst werden. Die latenten Variablen müssen also nicht unbedingt tatsächlich existieren, sondern es reicht, wenn sie innerhalb psychologischer Theorien als kau- sale Ursache für die Messwerte betrachtet werden. Dennoch muss bezweifelt werden, dass sich aus dem Ansatz von Bors- boom et al. ein tragfähiger Validitätsbegriff entwickeln lässt, da der kausale Einfluss des Konstrukts auf die Testwertvariable nur in einem monokau- salen, deterministischen Modell den Umkehrschluss erlaubt, dass die Variation der Testwertvariablen auf das latente Konstrukt zurückzuführen 22 Kapitel 1 ist. Da zumindest in der Psychologie sowohl die Monokausalität als auch der deterministische Zusammenhang meist unplausibel sind, wird man in der Praxis kaum auf ein graduelles Konzept von Validität verzichten können. Der Validitätsbegriff von Borsboom et al. ist auch deshalb zu eng, da Testwertvariablen mitunter lediglich als Korrelate und nicht unbedingt als kausale Folge der zu erfassenden latenten Konstrukte aufzufassen sind (Edwards & Bagozzi, 2000). Dass Korrelationen populationsabhän- gige Größen sind, disqualifiziert sie nicht als Validitätsmaß, sondern gibt vielmehr wertvolle Hinweise darauf, wie viel ein Testwert innerhalb einer Personenpopulation über die Merkmalsausprägung aussagt. Der Validitätsbegriff innerhalb der Psychologie ist also Gegenstand grund- legender wissenschaftstheoretischer Auseinandersetzungen. Innerhalb der mathematisch-statistisch formulierten Testtheorie herrscht dagegen weitgehende Übereinstimmung, dass unter Validität die Korrelation der Testwertvariablen mit einer Kriteriumsvariablen verstanden wird, wobei die Kriteriumsvariable entweder eine beobachtbare Variable (empirische Validität) oder ein theoretisches Konstrukt (theoretische Validität) sein kann (Lord & Novick, 1968). Interessiert man sich nicht für die Validität der Testwertvariablen selbst, sondern für die Validität der entsprechenden True-Score-Variablen oder der durch die Testwertvariablen erfasste latente Variable, dann kann man auf (Verdünnungs-)Korrekturen (Lord & Novick, 1968) oder auf entsprechende Schätzungen im Kontext von Latenten- Variablen-Modellen zurückgreifen (Bartholomew & Knott, 1999). Eine weit verbreitete Kritik an der in vorigen Absatz vorgestellten Definition ist, dass eine Testwertvariable oder eine latente Variable dann ebenso viele Validitäten hat, wie potenzielle Kriteriumsvariablen. Dies gilt jedoch nur dann, wenn man keine genauen Vorstellungen davon hat, was die betreffende Variable eigentlich erfassen soll. Hat man sich jedoch auf ein zu erfassendes Merkmal festgelegt, so wird man natürlich nur die Korre- lation der Variablen mit eben diesem Merkmal als Validität bezeichnen. Selbst wenn dieses Merkmal eine unbekannte latente Größe (nämlich die latente platonische True-Score-Variable) ist, die im Rahmen einer psycho- logischen Theorie vorkommt, so ist diese Korrelation innerhalb dieses theoretischen Rahmens doch eine wohldefinierte Größe. Selbst wenn man diese Korrelation nicht kennt, so lassen sich doch wertvolle theoretische Analysen durchführen, die z.B. ergeben, dass die Wurzel der Reliabilität eine obere Schranke der Validität ist oder dass die Itemselektion nach der Trennschärfe kein geeignetes Mittel zur Sicherung der Validität einer Skala ist (Yousfi, 2005b). Für solche Analysen ist es keineswegs nötig, dass man eine wissen- schaftstheoretisch angreifbare realistische Position einnimmt. Es ist ledig- lich erforderlich, dass man sich innerhalb eines theoretischen Rahmens bewegt, der Merkmalsträgern Werte auf latenten Variablen zuordnet und Messtheoretische Grundlagen der Testkonstruktion 23 Zufallsvariablen 5 (die Testwertvariablen) betrachtet, die sich auf die Merk- malsträger beziehen lassen. Die Validität als Korrelation der Testwertva- riablen mit dem zu erhebenden Konstrukt ist also ein intratheoretisches Konzept. Verlässt man diesen theoretischen Rahmen, da man z.B. der Auffassung ist, dass das zu erhebende theoretische Konstrukt (z.B. Intelli- genz) nicht geeignet ist, um einen psychologischen Gegenstandsbereich (z.B. interindividuelle Unterschiede im Leistungsverhalten) zu beschreiben, so verliert die Frage nach der Validität einer Testwertvariablen (z.B. eines Intelligenztests) für dieses theoretische Konstrukt natürlich ihren Sinn. Die wesentlichen Ursachen für die mangelnde Validität eines Testverfah- rens sind laut Messick (1995) konstruktirrelevante Varianzanteile und die Unterrepräsentation des zu erfassenden Konstruktes durch das Test- verfahren. Im Falle von kriteriumsirrelevanter Varianz ist das Testverfahren zu breit angelegt und bildet neben dem intendierten Konstrukt auch noch andere Merkmale ab. Bei der Konstruktunterrepräsentation werden dage- gen wichtige Aspekte des Konstruktes vom Testverfahren nicht erfasst.6 Beispiele für konstruktirrelevante Varianzquellen sind die Tendenz zu sozial erwünschtem Antwortverhalten in Persönlichkeitsfragebögen, Sprachver- ständnis bei der Erfassung nicht sprachlicher Fähigkeiten durch schriftlich formulierte Aufgaben und Instruktionen, Übungseffekte durch Training oder Vertrautheit mit dem Itemmaterial. Der Anteil der konstruktirrele- vanten Varianzanteile lässt sich mit einem multimethodalen Vorgehen reduzieren. Im einfachsten Fall summiert oder mittelt man dabei einfach Testwertvariablen, die mit unterschiedlichen methodischen Zugängen erhoben wurden. Sofern die konstruktirrelevanten methodenbedingten Varianzanteile nicht korreliert sind, sinkt dadurch der Anteil der kriteriumsir- relevanten Varianz. Im Rahmen der strukturellen Psychometrie von Cattell werden das latente Konstrukt und die konstruktirrelevanten Varianzanteile in ein faktorenanalytisches Messmodell integriert. Auf der Grundlage dieses Modells wird versucht, die Testwertvariablen so zu aggregieren oder zu selegieren, dass der konstruktirrelevante Varianzanteil durch Suppressionseffekte völlig verschwindet (Cattell & Tsuioka, 1964). Beim Multi-Trait-Multi-Method (MTMM)-Ansatz (Campell & Fiske, 1959) werden zur Abschätzung von methodenbedingten Varianzanteilen systematisch verschiedene Methoden zur Erfassung von verschiedenen Konstrukten 5 Die Testwerte als Zufallsvariable mit einer Wahrscheinlichkeitsverteilung und bestimmten Verteilungsparame- tern (Reliabilität etc.) aufzufassen ist ja ebenfalls lediglich eine theoretische Vorstellung. Wahrscheinlichkeiten und daraus abgeleitete Begriffe sind theoretische Konzepte, die keineswegs „realer“ als inhaltlich-psychologische Konzepte wie Intelligenz sind. 6 Die Unterscheidung zwischen Konstruktunterrepräsentation und kriteriumsirrelevanter Varianz ist nicht formal-mathematisch, sondern inhaltlich-konzeptuell begründet. Formal betrachtet lässt sich die mangelnde Übereinstimmung zwischen einem Konstrukt C und einem Testverfahren X immer sowohl durch die Addi- tion von C+X (Konstruktunterrepräsentation?) als auch durch Subtraktion von X–C (konstruktirrelevante Varianz?) beheben. 24 Kapitel 1 eingesetzt. Während früher einfach das resultierende Muster der statisti- schen Zusammenhänge per Augenschein analysiert wurde, geht man in jüngster Zeit dazu über, mithilfe von Strukturgleichungsmodellen explizite psychometrische MTMM-Messmodelle zu entwickeln (Eid, Nussbeck, Geiser, Cole, Gollwitzer & Lischetzke, 2008). Bei der Unterrepräsentation werden wichtige Aspekte des Konstruktes durch eine Variable nicht erfasst. Bei einem mehrdimensionalen Kons- trukt kann es zu Konstruktunterrepräsentation kommen, wenn nicht für alle Dimensionen des Konstruktes Indikatoren zur Verfügung stehen. Wenn das zu erfassende Konstrukt eindimensional ist, kann Konstruk- tunterrepräsentation nur dann vorkommen, wenn man ein formatives Modell für das Konstrukt formuliert. Bei einem formativen Messmodell ist das zu erfassende Konstrukt als eine Funktion von mehreren anderen vorgeordneten (manifesten oder latenten) Variablen definiert (Edwards & Bagozzi, 2000). Der sozioökonomische Status als gedankliches Aggregat von Wohlstand, Bildungsstand und beruflichem Status ist ein Beispiel für solch ein formatives Konstrukt. Unterrepräsentation liegt dann vor, wenn die betrachtete Variable nicht alle dieser vorgeordneten Variablen erfasst. So ist der sozioökonomische Status nicht hinreichend repräsentiert, wenn alle Items des Tests nur Wohlstand erfassen. Ein formatives Konstrukt ist also ein Aggregat, das zwar von vorgeordneten Konstrukten abhängt, diese jedoch nicht vollständig repräsentiert. Aus dem sozioökomischen Status lässt sich nämlich weder der Wohlstand, der Bildungsstand noch der berufliche Status rekonstruieren. Dennoch ist die Vorstellung weit verbreitet, dass der Skalensummenwert eines heterogenen Itempools, der verschiedene Facetten eines Konstruktes abdeckt, ein Messinstrument ist, das all diese Facetten gleichermaßen repräsentiert (Lienert & Raatz, 1998). Es ist jedoch fragwürdig, ob es Sinn macht, die verschiedenen Facetten eines mehrdimensionalen Konstruktes durch Aggregation zu vermengen. Dazu sollte das formative Konstrukt in verschiedenen Anwendungskontexten eine (annähernd) optimale Ge- wichtung der vorgeordneten Konstrukte darstellen. In jedem Fall sollte man sich bewusst sein, dass es sowohl konzeptuell als auch methodisch einen Unterschied macht, ob man ein neues Konstrukt als Aggregat von bestehenden Konstrukten oder Testwertvariablen definiert (formatives Messmodell) oder ob man ein neues Konstrukt (z.B. als Faktor zwei- ter Ordnung) einführt, um die Korrelationen zwischen den bestehenden Konstrukten oder Testwertvariablen zu erklären (reflektives Messmodell, vgl. Edwards & Bagozzi, 2000). Bei einem formativen Messmodell wird das neue Konstrukt lediglich definiert. Mit einem reflektiven Messmodell formuliert man dagegen eine theoretische Modellvorstellung über die Existenz des neuen Konstruktes und dessen Beziehungen zu den anderen Größen des Modells. Messtheoretische Grundlagen der Testkonstruktion 25 Reflexionsaufgaben 1. Was versteht man unter der Item-Response-Theorie? 2. Welche Annahmen stecken hinter hierarchischen faktorenanalytischen Modellen? Kapitel 2 Strategien der Testkonstruktion Inhaltsübersicht 2 Strategien der Testkonstruktion 28 2.1 Deduktive Methode 28 2.2 Induktive Methode 30 2.3 Externale Methode 33 2.4 Vergleich der Testkonstruktionsstrategien 34 2.5 Unterscheidungsmerkmale von psycholo- gischen Testverfahren 35 Reflexionsaufgaben 38 28 Kapitel 2 2 Strategien der Testkonstruktion In diesem Abschnitt werden verschiedene Ansätze der Skalenkonstruk- tion vorgestellt: deduktiv, induktiv und external. Beim deduktiven Ansatz folgt die Testkonstruktion einer psychologischen Theorie. Beim induktiven Ansatz bildet die statistische und inhaltliche Analyse von empirischen Daten die Grundlage für die Theorienbildung und Testkonstruktion. Bei der externalen Methode lehnt man sich im Zuge der Testkonstruktion an Kriteriumsvariablen an, die durch das Testverfahren möglichst gut approximiert werden. Am Ende dieses Abschnitts werden Merkmale zur Klassifizierung von psychologischen Testverfahren vorgestellt. 2.1 Deduktive Methode Die rationale oder deduktive Methode der Skalenkonstruktion beruht dar- auf, dass eine Theorie vorhanden ist, die Merkmalsträger mit theoretischen Attributen wie Intelligenz, Ängstlichkeit oder Extraversion belegt. Ziel der rationalen oder deduktiven Methode ist es, ein bestimmtes theoretisches Attribut zu erfassen. Die Methoden, die dabei zur Anwendung kommen, sollten sich schlüssig aus der zugrunde gelegten Theorie herleiten lassen. Die Validität der Testwerte ist dann eine logische Konsequenz aus der Gültigkeit der zugrunde gelegten Theorie. Um den Messvorgang durch eine inhaltlich-psychologische Theorie zu begründen, ist es notwendig, dass man aus dieser Theorie Vorhersagen über reale Beobachtungen ableitet, die ein Messmodell für die theoretischen Größen beinhalten. In der Psychologie werden theoretische Größen meist erhoben, indem man die Merkmalsträger bestimmten Situationen aussetzt, um diagnostisch relevantes Verhalten zu evozieren. Dementsprechend sind Messmodelle der psychometrischen Messtheorie verbundene Messungen, bei denen nicht nur Personenmerkmale (Personenparameter), sondern gleichzeitig auch Merkmale der Situationen (Itemparameter) erhoben werden. Damit das Messmodell in die inhaltlich-psychologische Theorie integriert werden kann, müssen aus der Theorie also Vorhersagen über das Verhalten der Merkmalsträger in der Testsituation abgeleitet werden. Beispiele für ein konsequent deduktives Vorgehen bei der Konstruktion von Leistungstests findet man bei Irvine und Kyllonen (2002). Auch bei der Messung von impliziten Einstellungen beruht die Skalenkonstruktion auf inhaltlich-psychologischen Theorien (Greewald, McGhee & Schwartz, 1998; Blanton, Jaccard, Gonzales & Christie 2006). Auf die einzelnen Pha- sen im Prozess der deduktiven Skalenkonstruktion soll erst im nächsten Abschnitt zur Itementwicklung eingegangen werden. Im Folgenden wird dagegen diskutiert, inwieweit die Testkonstruktion im Zuge einer deduk- tiven Forschungsstrategie zur Theorienbildung beitragen kann. Strategien der Testkonstruktion 29 Im Idealfall ist die Geltung eines bestimmten Messmodells für die in der Testsituation erhobenen Testwertvariablen eine logische Implikation einer empirisch abgesicherten psychologischen Theorie. In diesem Fall kann die Geltung des Testmodells und die empirische Bestimmung der theo- retischen Größen über die geschätzten Personen- und Itemparameter als weitere erfolgreiche Anwendung und empirische Bestätigung der psycho- logischen Theorie angesehen werden. Die erfolgreiche Etablierung eines Messmodells ist also ein Beitrag zur Konstruktvalidierung. Misslingt jedoch im Zuge einer deduktiven Skalenkonstruktion die An- passung eines von der zugrunde liegenden Theorie implizierten psycho- metrischen Testmodells, so macht dies die Revision der entsprechenden theoretischen Vorstellungen erforderlich. Bevor man seine theoretischen Vorstellungen als widerlegt betrachtet, sollte man sich zunächst fragen, ob das zum Einsatz gekommene Messmodell tatsächlich eine logische Implikation der Theorie ist oder ob nicht auch liberalere Messmodelle in Frage kommen, die weniger strenge Aussagen über die zu beobachteten Daten machen. Ist dies nicht der Fall, führt an der Revision der theore- tischen Vorstellungen kein Weg vorbei. Mit theoretischen Vorstellungen sind hier nicht nur die expliziten übergeordneten Theorien gemeint, die der Skalenkonstruktion zugrunde liegen, sondern der gesamte theoretische Rahmen, der sich auf Hilfsannahmen und Hypothesen beziehen, die eine Anwendbarkeit der Kernaussagen einer Theorie auf einen Gegenstands- bereich wie das Verhalten in der Testsituation erst ermöglichen und die häufig nicht vollständig expliziert sind (Westermann, 2000). Wenn es beispielsweise nicht gelingt, ein Messmodell für einen Fragebo- gen zur Verhaltensaktivierung durch äußere Anreize anzupassen, obwohl man aus Grays Theorie zu verhaltensregulierenden Emotionssystemen die Erwartung abgeleitet hat, dass die Ansprechbarkeit auf verhaltensaktivie- rende Reize eine latente Variable ist, die die interindividuell verschiedene Aktivität des Behavioral Activation Systems (BAS) wiedergibt, so stellt dies noch keine Falsifikation der Gray’schen Theorie dar. Vielleicht ist auch die (u.U. nur implizit getroffene) Annahme, dass sich die dipositionelle Aktivierbarkeit durch Selbstberichte erfassen lässt, unzutreffend. Die Revision der theoretischen Vorstellungen muss sich also nicht unbe- dingt auf die Kernaussagen einer Theorie beziehen, sondern kann sich durchaus auf andere Aspekte des theoretischen Rahmens wie die Ope- rationalisierung der theoretischen Konstrukte durch empirische Variablen beziehen. Selbst eine misslungene Testkonstruktion stellt einen Beitrag zu Theorienbildung dar, da man den Anwendungsbereich der Theorie besser abstecken kann. Durch Erweiterungen und Modifikationen der theoreti- schen Rahmenvorstellungen, kann es schließlich doch gelingen, das in- tendierte Persönlichkeitsmerkmal mithilfe des Testverfahrens zu erfassen. 30 Kapitel 2 In unserem Beispiel könnte beispielsweise schon ein zweidimensionales Messmodell, dass die Tendenz zu sozial erwünschtem Antwortverhalten als weitere von dem Testverfahren erfasste Dimension mit einbezieht, zu einer erfolgreichen Modellanpassung führen. 2.2 Induktive Methode Im vorangegangenen Abschnitt wurde betont, dass das verwendete Messmodell bei konsequent deduktiver Skalenkonstruktion eine logische Folge der psychologischen Theorie ist. Wird ein Messmodell dagegen auf die Daten angepasst, dessen Gültigkeit nicht von einer übergeord- neten inhaltlich-psychologischen Theorie impliziert wird, so lässt sich die inhaltlich-psychologische Bedeutung der latenten Variablen allenfalls auf induktivem Wege aus dem Aufgabenmaterial (und den geschätzten Itemparametern und Faktorladungen der Testwertvariablen) erschließen 7 (induktive Methoden der Skalenkonstruktion). Besonders bei mehrdimen- sionalen Messmodellen können die geschätzten statistischen Zusam- menhänge zwischen den latenten Variablen und den Testwertvariablen der Ausgangspunkt zur Bildung von inhaltlich-psychologischen Theorien über den Gegenstandsbereich sein. In der Praxis werden bei solchen explorativen Faktorenanalysen häufig Hauptkomponentenanalysen durchgeführt, um die Faktoren zu extrahie- ren. Hauptkomponenten sind jedoch keine latenten Variablen, sondern lediglich orthogonale Linearkombinationen (gewichtete Summen) der Testwertvariablen, die sukzessiv maximale Varianz haben (formatives Messmodell). Insbesondere lassen sich die Werte der Testpersonen auf den Hauptkomponenten nicht als Personeneigenschaften auffassen, da neben den wahren Werten auch die Messfehler der Testwertvariablen Bestandteil der Hauptkomponenten sind. Wenn die Faktoren als latente Personenmerkmale interpretiert werden sollen, ist daher eine Hauptfak- toranalyse durchzuführen. Im Gegensatz zur Hauptkomponentenanalyse beruht die Hauptfaktoranalyse nämlich auf einem reflektiven Messmodell, das die Zusammenhänge zwischen den als Personenmerkmalen interpre- tierbaren (hypothetischen) latenten Faktoren und den Testwertvariablen expliziert (Borsboom, 2006). 1 Aus dem Muster der statistischen Zusammenhänge mit den Testwertva- riablen lassen sich Hypothesen über die inhaltlich-psychologische Be- deutung der Faktoren ableiten. Die Testwertvariablen haben bei explo- rativen Faktorenanalysen jedoch meist zu vielen resultierenden Faktoren 7 Belegt man die latente Variable mit einem theoretischen Begriff (z.B. „Intelligenz ist das, was Intelligenztests messen“), so stellt dies eine operationale Definition des entsprechenden Begriffs dar. Strategien der Testkonstruktion 31 Korrelationen, was eine eindeutige psychologische Interpretation der Faktoren erschwert. Durch Rotationstransformationen kann man jedoch versuchen, Linearkombinationen der ursprünglich extrahierten Faktoren zu generieren, die ein möglichst eindeutiges Ladungsmuster zeigen (Ein- fachstruktur). Das resultierende Messmodell mit den rotierten Faktoren ist zu dem ursprünglichen Modell völlig äquivalent, da die beiden Modelle keine unterschiedlichen Beobachtungen in der Testsituation implizieren. Bei der Wahl der Rotationsmethode sollte man sich daher allein von inhaltlich-pragmatischen Erwägungen leiten lassen. Bei explorativen Fak- torenanalysen und einer induktiven Testkonstruktionsstrategie steht dabei in der Regel die Interpretierbarkeit und Nützlichkeit des Messmodells im Rahmen der Modellbildung im Vordergrund. Die im Rahmen einer induktiven Testkonstruktionsstrategie entwickelten Messmodelle bedürfen jedoch ebenso wie die inhaltlich-psychologischen Deutungen der latenten Faktoren einer empirischen Überprüfung. Selbst bei einer induktiven Skalenkonstruktion ist also immer eine anschließende deduktive Phase im Forschungsprozess notwendig. Die Messmodelle lassen sich durch konfirmatorische Faktorenanalysen empirisch testen, wobei natürlich eine neue Personenstichprobe zu ziehen ist. Im Rahmen einer induktiven Testkonstruktionsstrategie können konfirma- torische Faktorenanalysen ebenso wie andere Modellgeltungstests von psychometrischen Messmodellen aber auch schon bei der Entwicklung eines Messmodells verwendet werden, indem man durch Versuch und Irrtum verschiedene Messmodelle auf Verträglichkeit mit den empirischen Daten überprüft. Die in Betracht gezogenen Messmodelle können sich nicht nur durch die Ausprägungen von Modellparametern, sondern auch in struktureller Hinsicht unterscheiden (z.B. Anzahl und Skalenniveau der latenten Variablen, Anzahl der Items oder Testwertvariablen, die in das Messmodell und das potenziell daraus resultierende Testverfahren aufgenommen werden etc.). Man kann die Messmodelle dabei jeweils auch mit strukturellen Annahmen über die (regressiven) Beziehungen zwischen den latenten Variablen anreichern (Strukturgleichungsmodelle, latente Variablenmodelle). Bei der Suche nach dem bestpassenden Modell können Veränderungs- indizes und Itemfit-Statistiken eine große Hilfe sein. Wenn verschiedene Modelle ineinander geschachtelt sind, sodass ein Modell durch das Set- zen von bestimmten Restriktionen auf zu schätzende Parameter aus dem anderen Modell hervorgeht (z.B. lässt sich das Rasch-Modell als Spezial- fall des Birnbaum-Modells darstellen, bei dem alle Trennschärfeparameter identisch sind), dann lässt sich durch statistische Tests überprüfen, ob diese Restriktion zu einer signifikanten Verschlechterung der Modellgüte führt. Als Hilfsmittel zum Vergleich der Modellgüte, die auch dann ange- wendet werden können, wenn die verglichenen Messmodelle nicht durch 32 Kapitel 2 das Setzen von Restriktionen ineinander überführt werden können, kom- men informationstheoretische Maße wie das Akaike Information Criterion (AIC) und das Bayes Information Criterion (BIC) in Betracht (Rost, 2004). Der Vergleich von verschiedenen Messmodellen anhand von statisti- schen Kriterien macht natürlich nur dann Sinn, wenn die verglichenen Messmodelle unterschiedliche Implikationen für die beobachteten Zu- sammenhänge zwischen den Testwertvariablen haben (Bartholomew & Knott, 1999). Wenn man etwa einen Generalfaktor einführt, der die Kovarianzen zwischen drei Faktoren niederer Ordnung erklärt, so hat diese Modellannahme keinerlei empirischen Gehalt. Die durch diese Mo- dellannahme eingeführten Modellparameter lassen sich zwar schätzen, eine empirische Überprüfung setzt aber voraus, dass diese Parameter überidentifiziert sind. Wenn mindestens vier Faktoren niederer Ordnung mit unkorrelierten Residualtermen im Modell enthalten sind, führt die An- nahme eines Generalfaktors dazu, dass die entsprechenden Modellpara- meter überidentifiziert sind, sodass eine empirische Überprüfung dieser Modellannahme anhand der beobachteten Zusammenhänge zwischen den Testwertvariablen möglich ist. Die im Zuge von solchen Modellanpassungen gewonnen Messmodelle bedürfen auch dann einer empirischen Überprüfung an einem neuen Datensatz, wenn die statistischen Tests bei der Modellselektion keine Verletzungen der Modellgeltung anzeigen. Die statistischen Tests führen nämlich nur dann zu gültigen Wahrscheinlichkeitsaussagen, wenn die ge- testeten Hypothesen a priori gebildet wurden und nicht post hoc erst nach Vorliegen der Daten aus vorangegangen Analysen abgeleitet wurden. Aber selbst wenn die Gültigkeit des Messmodells bei der Überprüfung an einer weiteren Stichprobe Bestand hat, haben die theoretischen Deutun- gen der latenten Variablen immer noch vorläufigen Charakter. Die Gefahr von Fehlinterpretationen der durch das Testverfahren erfassten latenten Variablen lässt sich reduzieren, wenn man auch die im Zuge der Modells- elektion verworfenen Modelle und Modellannahmen berücksichtigt. Wenn etwa bei der Entwicklung eines eindimensionalen Ängstlichkeitsfragebo- gens vor allem solche Items aufgrund von mangelnder Modellkonformität aus dem Testverfahren entfernt wurden, die sich nicht auf Prüfungssitua- tionen, sondern auf andere angstauslösende Reize bezogen haben, so ist man gut beraten, die von dem resultierenden Testverfahren erhobene Persönlichkeitsdimension nicht als globale Ängstlichkeitsdisposition, son- dern als Prüfungsängstlichkeit zu interpretieren. Je weniger es gelingt zu erklären, warum bestimmte Modelle und Model- lannahmen im Zuge der Modellselektion verworfen wurden, desto dring- licher stellt sich die bei induktiver Konstruktionsstrategie ohnehin offene Frage nach der Validität des Testverfahrens. Im Gegensatz zu deduktiv entwickelten Tests können induktiv konstruierte Verfahren sich nämlich Strategien der Testkonstruktion 33 nicht auf eine empirisch gestützte Theorie stützen. Aber auch bei deduktiv konstruierenden Verfahren empfiehlt es sich, weitere Untersuchungen zur Validierung durchzuführen. Dies gilt insbesondere dann, wenn (neben der erfolgreichen Anpassung des Messmodells) keine oder nur wenige empirische Hinweise für die Gültigkeit der Testkonstruktion zugrunde gelegten Theorie vorliegen. Die gebräuchlichste Technik zur Validierung von psychologischen Tests ist die Analyse von statistischen Zusammenhängen mit Kriteriumsvaria- blen. Als Kriteriumsvariablen kommen natürlich auch die Testwerte von anderen psychologischen Testverfahren in Frage. Aus den Korrelationen mit externen Kriteriumsvariablen lassen sich freilich nur dann Schlüsse über die Validität eines Testverfahren ziehen, wenn aufgrund von Theorien Vorraussagen über die Höhe dieser Korrelationen gemacht werden. Leider lassen sich aus den meisten psychologischen Theorien nur wenig restrikti- ve Vorhersagen über Zusammenhänge mit Korrelaten eines Testverfahrens ableiten. Meist beziehen sich die aus den Theorien abgeleiteten Korrela- tionshypothesen zudem nicht auf die Testwertvariablen selbst, sondern auf die zugrunde liegenden latenten Konstrukte. Wenn keine statistischen Verfahren verwendet werden, die direkt die Korrelation zwischen latenten Variablen schätzen, so sollten die entsprechenden Korrelationen über Verdünnungskorrekturen aufgewertet werden, da sich unsystematische Messfehler mindernd auf die Korrelation der Testwertvariablen auswirken (Schmidt & Hunter, 1999). Zudem sollte bei unerwarteten statistischen Zusammenhängen mit Kriteriumsvariablen immer auch bedacht werden, dass u.U. nicht das Testverfahren invalide ist, sondern die Hypothesen über die Höhe der entsprechenden Korrelationen. 2.3 Externale Methode Wenn die Kriteriumsvariable selbst der Gegenstand der Messung ist (Target-Variable sensu Burisch, 1984), dann bietet es sich an, die Validität der Testwertvariablen dadurch zu sichern, dass man deren Korrelation mit der Kriteriumswertvariablen maximiert (externale Methode der Ska- lenkonstruktion). Die Testwertvariable ist dabei meist ein Aggregat (meist: Summe oder Linearkombination) aus anderen Testwertvariablen (hier: Items), für die kein bestimmtes Messmodell gilt. Bei external konstruierten Test sind die einzelnen Items daher nicht unbedingt als Indikatoren für das betreffende Personenmerkmal geeignet, da zu erwarten ist, dass sie nicht nur Korrelate dieses Personenmerkmals sind, sondern auch statis- tische Zusammenhänge mit anderen Personenmerkmalen und externen Einflussgrößen aufweisen können. Bei der praktischen Umsetzung der externalen Methode der Skalenkonst- ruktion geht es darum, welche Testwertvariablen am sinnvollsten erhoben werden und wie diese Testwertvariablen aggregiert und verrechnet werden. 34 Kapitel 2 Dieser auch bei deduktiver und induktiver Skalenkonstruktion relevante Aspekt der Testkonstruktion wird in den Abschnitten zur Itemselektion und Aggregation behandelt. Im Folgenden soll daher nur auf das für die externale Methode spezifische Problem der Wahl einer angemessenen Kriteriumsvariablen eingegangen werden. Wenn das Kriterium nicht selbst Gegenstand der Messung ist, sondern nur ein Indikator für die betreffende Eigenschaft, kann die externale Me- thode der Testkonstruktion freilich nur dann zu validen Tests führen, wenn das Kriterium selbst valide ist. Burisch (1984) spricht von einem echten Kriterium, wenn der Kriteriumsvariablen eine höhere Glaubwürdigkeit oder Reputation als Indikator für das zu erfassende Merkmal zugesprochen wird als dem zu validierenden Verfahren. Ein Quasi-Kriterium hat dagegen einen vergleichbaren Stellenwert wie das zu validierende Verfahren. Wenn es nicht gelingt Items und externe Kriterien zu finden, die das gewünschte Merkmal genau (d.h. bis auf zufällige Messfehler) abbilden, dann sind die interne Validität und die externe Validität des Tests nicht mehr vollständig vereinbarte Ziele. Wenn das Außenkriterium ein echtes Kriterium sensu Burisch (1984) ist, dürfte die externe Validität eher wichtiger als die in- terne Validität sein. Wenn ein Quasi-Kriterium vorliegt, dann ist eher die interne Validität bedeutender, da sich die psychologische Bedeutung der erhobenen Variable bei einer heterogenen Skala und einem inhaltlich- psychologisch mehrdeutigem Kriterium kaum festmachen lässt. 2.4 Vergleich der Testkonstruktionsstrategien Betrachtet man die grundlegenden Strategien der Testkonstruktion, so fällt auf, dass sich lediglich der deduktive Ansatz auch auf die Generie- rung von Testitems konzentriert. Gemäß der deduktiven Methode sind die Items so zu konstruieren, dass sich anhand des Antwortverhaltens der Probanden und der zugrunde gelegten Theorie Rückschlüsse auf die Personenmerkmale ziehen lassen, die Gegenstand der Messung sind. Bei der externalen und der induktiven Methode wird der Ursprung der Items dagegen offen gelassen. Diese Methoden konzentrieren sich auf die datengestützte Selektion von Items aus einem bestehenden Itempool. Bei allen Konstruktionsmethoden können Items auch aus bestehenden Inventaren entnommen werden. Ein streng deduktives Vorgehen ist da- bei jedoch kaum zu realisieren. Bei der intuitiv-theoretischen Methode orientiert man sich bei der Itemauswahl aber zumindest an einer explizi- ten psychologischen Theorie, während man sich beim intuitiv-rationalen Ansatz nur von seiner Intuition und impliziten Theorien leiten lässt (Hase & Goldberg, 1967). Beim später ausführlich geschilderten Act-Frequency- Approach versucht man, in systematischer Weise das implizite Wissen der Versuchspersonen zur Skalenkonstruktion nutzbar zu machen. Bei der Strategien der Testkonstruktion 35 internalen und externalen Methode stützt sich die Itemselektion dagegen weniger auf implizite oder explizite theoretische Vorstellungen, sondern auf statistische Kennwerte. Bei der externalen Methode sollte der Itempool inhaltlich möglichst heterogen sein. Bei der induktiven Methode strebt man nur dann einen inhaltlich extrem heterogenen Itempool an, wenn man Inventare zur Erfassung der gesamten Persönlichkeit entwickeln will. Ansonsten werden die Items nach inhaltlichen Gesichtspunkten vorsele- giert, in der Regel nach intuitiv-rationalen Gesichtspunkten. Die deduktive, die induktive und die externale Methode sind prototypische Strategien der Skalenkonstruktion. In der Praxis kommen sie jedoch meist nicht in Reinform vor. Auch bei einem vorwiegend induktiven oder exter- nalen Vorgehen wird die Auswahl von potenziellen Testitems nicht völlig wahllos sein, sondern sich an mehr oder weniger expliziten theoretischen Vorstellungen orientieren. Bei induktivem Vorgehen stellt sich nach der erfolgreichen Anpassung eines mehrdimensionalen Messmodells die Frage, wie die Testwertvaria- blen aggregiert werden, um eine möglichst gute Schätzung für die latente Variable zu erhalten. Bei dieser externalen Phase im Konstruktionsprozess haben die im Messmodell vorkommenden latenten Faktoren die Funktion von Kriteriumsvariablen. Zeigt sich bei einem deduktiven Vorgehen, dass die beobachteten statistischen Zusammenhänge zwischen den Testwert- variablen sowie mit externen Variablen nicht erwartungskonform sind, so wird man bei einer etwaigen Revision des Tests oder der zugrunde gelegten Theorie versuchen, auf induktivem Wege Schlussfolgerungen aus den vorliegenden Daten zu ziehen. Burisch (1984) kommt aufgrund einer Meta-Analyse zu dem Schluss, dass keine der verschiedenen Strategien der Testkonstruktion den an- deren grundsätzlich überlegen ist. Die Entscheidung darüber, ob bei der Skalenkonstruktion induktive, deduktive oder externale Vorgehensweisen im Vordergrund stehen, sollte man von dem jeweils gegebenem Anwen- dungskontext abhängig machen. 2.5 Unterscheidungsmerkmale von psychologischen Testverfahren Bevor im nächsten Abschnitt im Detail auf die Entwicklung von Items für psychologische Testverfahren eingegangen wird, soll an dieser Stelle ein Überblick über Merkmale gegeben werden, anhand derer man psycho- logische Testverfahren klassifizieren kann. Zum einen unterscheiden sich Tests darin, was jeweils die Messobjekte oder Merkmalsträger sind. In der Psychologie sind dies meist Personen. Aber es gibt auch Testverfahren, bei denen Paarbeziehungen oder Gruppen Gegenstand der Messung sind. 36 Kapitel 2 Sehr große Unterschiede gibt es auch in der Gestaltung der Testsituation. So kann man die Testperson mündlich interviewen, ihr einen Fragebogen oder ein Aufgabenblatt vorlegen, Aufgabenmaterial wie Bauklötze, Puppen o.Ä. bereitstellen, sie in Form von Rollenspielen oder technischen Hilfsmit- teln wie Computern mit möglichst realistischen Situationen konfrontieren. Auch die Aufgaben, die den Testpersonen gestellt werden, unterscheiden sich. So kann es sein, dass eine ganz bestimmte oder auch eine möglichst gute Lösung zu finden ist. Bei Speedtests sollen die Testpersonen in ei- nem bestimmten Zeitraum möglichst viele meist sehr einfache Aufgaben lösen. Bei Powertests werden dagegen keine Zeitbegrenzungen gesetzt oder es wird zumindest soviel Zeit zur Verfügung gestellt, dass auch bei Personen mit geringer Merkmalsausprägung nicht zu erwarten ist, dass die Lösung nicht nur wegen Zeitmangels nicht gefunden wird. Bei Speed- und Powertests ist die Zeit dagegen so bemessen, dass eine Lösung der Aufgabe sowohl an mangelnden Fähigkeiten als auch wegen Zeitmangels scheitern kann. Bei diesem Testformat sollte man nach Möglichkeit nicht mehrere Aufgaben innerhalb eines Zeitintervalls zur Bearbeitung vorge- ben, da es sonst zu lokalen statistische Abhängigkeiten zwischen der Bearbeitung verschiedener Aufgaben kommt, was eine angemessene statistische Auswertung erschwert. Bei anderen Tests werden u.U. gar keine Anforderungen formuliert, sondern die Testperson wird einfach mit einer bestimmten Situation konfrontiert und das resultierende Verhalten wird beobachtet. Bei vielen Testverfahren wer- den die Testpersonen dagegen gebeten, Auskünfte zur eigenen Person zu geben. Bei biografischen Verfahren wird nach bestimmten Begebenheiten aus dem bisherigen Leben gefragt. Häufig sollen auch Auskünfte über das typische Verhalten in realen Situationen oder über das zu erwartende Ver- halten in hypothetischen Situationen gegeben werden. Andere Verfahren fragen nach Selbsteinschätzungen hinsichtlich bestimmter Eigenschaften oder nach Meinungen, Einstellungen und Interessen hinsichtlich bestimm- ter Sachverhalte (z.B. Personengruppen, Tätigkeiten etc.). Für die Auswertung muss das Verhalten der Testperson schließlich in Test- wertvariablen transformiert werden. Im einfachsten Fall erreicht man dies, indem man die Reaktionsmöglichkeiten der Testperson soweit einschränkt, dass unmittelbar eine Testwertvariable entsteht. Wenn man als Antwort auf eine Frage z.B. nur ja und nein zulässt, entsteht unmittelbar eine dichotome Testwertvariable. Man kann natürlich auch mehr als zwei Antwortkategorien zulassen. Während man sich bei Forced-Choice-Items für eine der Ant- wortalternativen entscheiden muss, kann man bei Multiple-Choice-Items mehrere Alternativen gleichzeitig wählen. Wenn der Testperson bestimmte Aufgaben zur Lösung vorgegeben werden, dann erhöht sich durch die Verwendung von solchen gebundenen Itemformaten die Wahrscheinlich- keit, dass die Testperson die Lösung durch Raten findet. Dies sollte bei der Formulierung eines Messmodells berücksichtigt werden. Strategien der Testkonstruktion 37 Ratingskalen sind spezielle Forced-Choice-Aufgaben mit geordneten Antwortkategorien, die beispielsweise den Grad der Zustimmung zu einer Aussage oder die Einschätzung hinsichtlich eines Merkmals wiedergeben. Damit Antworttendenzen zur Bevorzugung oder Meidung der mittleren Antwortkategorie die Testergebnisse nicht verfälschen, sollte man bei Ratingskalen nach Möglichkeit eine gerade Anzahl von Antwortalternativen vorgeben. Neben einer Benennung (verbalen Verankerung) der Antwort- kategorien kommt auch eine Verankerung über Zahlen und Symbole (z.B. Smilies, Symbole wie ++, +, – ,– –) in Frage. Es empfiehlt sich, die Fra- gebögen (auf Papier oder am Computerbildschirm) so zu gestalten, dass die Abstände zwischen benachbarten Antwortkategorien jeweils gleich sind (räumliche Verankerung). Dies gilt vor allem dann, wenn nicht alle Antwortkategorien, sondern nur die Pole verbal verankert sind. Bei konti- nuierlichen Ratingskalen werden ebenfalls nur die Pole benannt und über eine Linie verbunden, auf welcher die Testperson eine Markierung setzt. Bei Interviews oder Verhaltensbeobachtungen werden die Reaktionsmög- lichkeiten der Testperson dagegen nicht soweit eingeschränkt, dass unmit- telbar Testwertvariablen resultieren, sodass eine nachträgliche Codierung erforderlich ist, indem man beispielsweise die Häufigkeit von bestimmten Handlungen, Wörtern o.Ä. zählt oder indem man ein Kategoriensystem erstellt, in das sämtliche Verhaltensweisen einzuordnen sind. Gegebenen- falls ist dazu vorab eine Transkription der verbalen Äußerungen oder ein Verhaltensprotokoll zu erstellen. Statt dieses aufwändigen Vorgehens kann man natürlich das Verhalten der Testperson auf globalen Ratingsskalen einordnen lassen. Bei dieser Methode muss man sich nicht unbedingt auf das Verhalten in einer räumlich-zeitlich eng umgrenzten Testsituation beschränken, sondern kann gute Bekannte der Testperson über das Verhalten in natürlichen Situationen befragen. Bei all diesen Methoden empfiehlt es sich, das Verhalten der Testpersonen von mehreren Beur- teilern einschätzen zu lassen, um Maße der Beurteilerübereinstimmung berechnen zu können und ggf. die Reliabilität durch die Aggregation zu verbessern. Bei den bisher geschilderten Methoden beruht die Datengewinnung im- mer auf menschlichen Urteilen. Man kann stattdessen auch technische Hilfsmittel zur Erfassung von Hirnströmen, Muskelanspannung, Blickbe- wegungen o.Ä. verwenden. Die Erfassung von Antwortlatenzzeiten stellt ebenfalls eine Methode zur Datengewinnung dar, die nicht von mensch- lichen Urteilen abhängt (Klein-Entink, Kuhn, Hornke & Fox, 2009). Tests unterscheiden sich auch darin, auf welche Merkmalsdimension sie abzielen. Während Leistungstests versuchen, solche Merkmalsdimen- sionen zu erfassen, die Auskunft darüber geben, wie gut eine Person Anforderungen der Umwelt in einer bestimmten Domäne gerecht wird, zielen Persönlichkeitstests darauf ab, solche Verhaltensdispositionen zu ermitteln, die das typische Verhalten der Testperson widerspiegeln. Mo- 38 Kapitel 2 tivationstest erfassen die dem Verhalten zugrunde liegende Beweggrün- de, während Einstellungstests, die Bewertungsmaßstäbe der Testperson erfassen. Mit Interessentests erhebt man die Einstellung zu bestimmten Tätigkeiten und Themengebieten. Reflexionsaufgaben 1. Vergleichen Sie die deduktive und induktive Methode der Testkonstruktion. 2. Anhand welcher Merkmale können psychologische Testverfahren unter- schieden werden? Kapitel 3 Generierung von Items Inhaltsübersicht 3 Generierung von Items 40 3.1 Verhaltensstichproben, Simulationen und situative Fragen 40 3.2 Prototypenansatz 42 3.3 Lexikalischer Ansatz 43 3.4 Facettentheortische Ansätze 44 3.5 Rationale Itemkonstruktion 45 3.6 Empfehlungen für die Itemkonstruktion bei Selbstberichtdaten 48 Reflexionsaufgaben 50 40 Kapitel 3 3 Generierung von Items Die folgenden Ansätze zur Generierung von Items liefern keine fertigen Rezepte zur Itemkonstruktion. Es sind vielmehr grundsätzliche Vorgehens- weisen, die im konkreten Anwendungsfall immer durch inhaltlich-psycho- logische Theorien ergänzt werden müssen, die sich auf den jeweiligen Gegenstandsbereich beziehen. 3.1 Verhaltensstichproben, Simulationen und situative Fragen Häufig werden psychologische Testverfahren in einem diagnostischen Kontext angewendet, bei dem es darum geht, das Verhalten in bestimm- ten Situationen oder die Kompetenzen hinsichtlich bestimmter Aufgaben festzustellen. Beispiele hierfür sind Rechenfertigkeiten, die Fähigkeit zum Führen eines Kraftfahrzeugs im Straßenverkehr, Organisationskompe- tenzen am Arbeitsplatz etc. Für viele solcher Anwendungsfälle fehlen ausgearbeitete theoretische Konzepte, aus denen hervorgeht, welche Persönlichkeitseigenschaften für die betreffenden Verhaltensdispositionen relevant sind, und wie diese zu erfassen sind. Die in diesem Abschnitt vorgestellten Methoden versuchen unter der Leitidee „the best predictor of future performance is past performance“ aus der Not eine Tugend zu machen (Wernimont & Campell, 1968; zitiert nach Amelang & Schmidt- Atzert, 2006). So kann man die Probanden in der Testsituation mit einer möglichst reprä- sentativen Auswahl von Situationen oder Aufgaben konfrontieren (Asher & Sciarrino, 1974; Schmidt & Hunter, 1998). Steht dagegen weniger das Verhalten in typischen, sondern in besonders (erfolgs-)kritischen Situa- tionen im Zentrum des Interesses, so kann man Experten nach solchen Situationen und den Kriterien für ein erfolgreiches Verhalten befragen (Critical Incident Technique; Flanagan, 1954). Mitunter ist es jedoch nicht möglich, die Testperson mit realen Situationen/Arbeitsumgebungen zu konfrontieren (z.B. Störfall im Atomkraftwerk). Befragt man die Testper- son nach dem Verhalten in den entsprechenden Situationen (situational judgement tests; Weekley & Ployhart, 2006), so besteht die Gefahr von Verzerrungen, aufgrund von Gedächtnisfehlern oder mehr oder weniger bewussten Versuchen des Probanden die Wahrnehmung seiner Person zu beeinflussen (Impression Management, faking), wenngleich die Ver- zerrungen der Testergebnisse geringer zu sein scheinen als bei Persön- lichkeitsfragebögen (Hooper, Cullen & Sackett, 2006). Alternativen zur Befragung der Personen sind Rollenspiele oder technischen Hilfsmittel zur Herstellung wirklichkeitsnahen Umgebungen (Computer, Multimedia, Fahr- und Flugsimulatoren), die Testsituationen mit hoher ökologischer Validität zu simulieren. Diese Verfahren zeigen bei vergleichbarer externer Generierung von Items 41 Validität eine höhere diskriminante Validität zu kognitiven Fähigkeitstest als Verfahren, die auf Selbstberichten beruhen. Ein direkter Nachweis der höheren inkrementellen Validität steht allerdings noch aus (Olson- Buchanan & Drasgow, 2006). Allerdings ist zu bedenken, dass es in der Regel nicht möglich ist, vor den Probanden zu verheimlichen, dass sie sich in einer Testsituation befinden. Dieses Wissen kann die Aussagekraft des in der Testsituation gezeigten Verhaltens für die Vorhersage des Verhaltens außerhalb der Testsituation erheblich gefährden, z.B. bei Probanden mit Prüfungsängstlichkeit oder auch durch Tendenzen zum Impression-Management. Falls der Proband den relevanten Situationen und Aufgabenstellungen ohnehin auch außer- halb der Testsituation ausgesetzt ist, kann es daher günstiger sein, auf teilnehmende oder indirekte Methoden der Verhaltensbeobachtung oder anfallende Daten zum Kriteriumsverhalten auszuweichen. Im beruflichen Kontext wird daher häufig auf nachprüfbare biografische Informationen über vergangenes Verhalten zurückgegriffen (Bliesener, 1996; Schmidt & Hunter, 1998). Im günstigsten Fall bestehen objektive Kriterien zur Bewertung des Ver- haltens in der Testsituation. Die Beherrschung der Grundrechenarten zu erfassen, dürfte beispielsweise kein Problem sein. Bei komplexeren Anforderungen wie dem Führen von Verkaufsgesprächen dürfte es dage- gen schwerer fallen, objektive Maßstäbe zur Beurteilung zu finden. Eine Möglichkeit zu aussagekräftigen Testwertvariablen zu gelangen besteht darin, in der Testsituation gezeigtes Verhalten oder die Verhaltensproduk- te von Beurteilern, die nach Möglichkeit Expertenstatus haben sollten, bewerten zu lassen. Die Einschätzungen der Beurteiler können dabei einfach globale subjektive Urteile auf Ratingskalen sein. Mitunter empfiehlt es sich jedoch, die Aufmerksamkeit der Beurteiler auf einen bestimmten oder auch auf mehrere Aspekte des Verhaltens zu lenken. Je nachdem wie anspruchsvoll die Anforderungen sind, die an die Beurteiler gestellt werden, kann es auch notwendig sein, diese zu schulen. In jedem Fall sollten (für jeden beurteilten Verhaltensaspekt) Maße der Beurteilerüberein- stimmung ermittelt werden, um die Reliabilität der Urteile zu quantifizieren. Durch Aggregation der Urteile über mehrere Beobachter lässt sich die Reliabilität meist erhöhen. Aber selbst wenn die Interrater-Reliabilität der Urteile perfekt ist, können die resultierenden Testwerte dennoch mit Messfehlern behaftet sein. Eine Quelle für Messfehler ist die intraindividuelle Variabilität des Verhaltens. Selbst bei vollständiger Kontrolle des situativen Kontextes in der Test- situation ist das gezeigte Verhalten in der Regel keine deterministische Funktion der Person, da situative Hintergrundvariablen wie das Wetter (ex- tern), eine depressive Verstimmung des Probanden (intrapsychisch) oder ähnliches sich durchaus auf das in der Testsituation gezeigte Verhalten 42 Kapitel 3 auswirken können. Im Sinne der Latent-State-Trait-Theorie (Steyer et al., 1999) resultieren dann Testwerte, die mit einer gewissen Situations- oder Messgelegenheitsspezifität behaftet sind.8 Schließlich muss auch die Möglichkeit in Betracht gezogen werden, dass die Personenmerkmale und alle kontrollierbaren und unkontrollierbaren situativen Einflüsse das gezeigte Verhalten nicht vollständig determinieren, sondern allenfalls die Wahrscheinlichkeiten für verschiedene Verhaltensweisen. Ein hoher Interrater-Reliabilitätskoeffizient der (ggf. aggregierten) Urteile zeigt also nur die Objektivität, nicht jedoch die Reliabilität der Testwertvariablen an. Um die Reliabilität des Tests zu erhöhen und eine hinreichende Reprä- sentativität zu erreichen, werden die Testwerte in der Regel nicht nur über verschiedene Beurteiler, sondern auch über verschiedene Items aggre- giert, die sich auf das Verhalten in verschiedenen Situationen beziehen. Da man bei den in diesem Abschnitt skizzierten Methoden in der Regel nicht unbedingt davon ausgehen kann, dass die verschiedenen Items ein und dasselbe Personenmerkmal erfassen, muss man damit rechnen, dass die Items kein bestimmtes Messmodell erfüllen. Als konzeptuel- ler Rahmen für die statistische Analyse und die Theorienbildung bietet sich bei Verhaltensstichproben daher die Generalisierbarkeitstheorie an (Brennan, 2001). Im Rahmen der Generalisierbarkeitstheorie werden die anfallenden Daten über die Merkmalsträger als zufällige Ziehungen aus einem Universum von zulässigen Beobachtungen aufgefasst. Es wird dann mit varianzanalytischen Methoden untersucht, welchen Einfluss die Rahmenbedingungen bei der Erhebung der Daten (Facetten), auf die resultierenden Messwerte haben, und inwieweit Generalisierungen auf andere Rahmenbedingungen möglich sind. 3.2 Prototypenansatz Das Konzept der Prototypizität ist ursprünglich in der Allgemeinen Psy- chologie angewendet worden, und zwar als Möglichkeit zur Definition von kognitiven Kategorien. In früheren Ansätzen wurden kognitive Kategorien als hierarchisch ineinander verschachtelte, aber auf einer Hierarchieebene disjunkte Klassen aufgefasst. Man nahm an, dass nur die Elemente zu einer Kategorie zu zählen sind, die eine bestimmte Menge hinreichender und notwendiger Bedingungen erfüllen. Im Prototypenansatz kommt 1 dagegen die Auffassung zum Ausdruck,