VL 02.07.24 PDF - Grundlagen der Testtheorie - Charlotte Fresenius Hochschule
Document Details
Uploaded by ThankfulElm
Charlotte Fresenius Hochschule
2024
Prof. Dr. Roman Kaspar
Tags
Summary
Lecture notes for a course on the fundamentals of test theory. The document covers topics such as classical test theory, item response theory, and reliability and validity. The lecture was given on July 2, 2024, at the Charlotte Fresenius Hochschule, University of Psychology.
Full Transcript
B-P 5.1 VORLESUNG GRUNDLAGEN DER TESTTHEORIE SOSE 2024 | K÷LN | D‹SSELDORF PROF DR ROMAN KASPAR ‹BERSICHT K DUS Block Vorlesung Grundlagen der Testtheorie Literatur (Di) (Do)...
B-P 5.1 VORLESUNG GRUNDLAGEN DER TESTTHEORIE SOSE 2024 | K÷LN | D‹SSELDORF PROF DR ROMAN KASPAR ‹BERSICHT K DUS Block Vorlesung Grundlagen der Testtheorie Literatur (Di) (Do) ‹berblick, Pr¸fungsleistungen, Anwendungsbereiche 09.04. 11.04. SA21-Kap1 Einleitung, 3 Diagnostische Verfahren psychologische Diagnostik Einf¸hrung 16.04. 18.04. ‹berblick Testtheorien (Klassische und Probabilistische) SA21-Kap2.2 Die Klassische Testtheorie 23.04. 25.04. Grundprinzip der klassischen Testtheorie (KTT) MK20-Kap13 Klassische Testtheorie SA21-Kap2.4 Konstruktionsprinzipien psychologischer Tests; 30.04. 02.05. Konstruktionsprinzipien psychologischer Tests Klassische MK20-Kap3 Planungsaspekte u. Konstruktionsphasen Test/Fragebogen Testtheorie SA21-Kap2.5 Grundz¸ge von Itemanalysen; MK20-Kap7 07.05. 07.05. Itemanalyse 1 - Itemschwierigkeit Deskriptivstatistische Itemanalyse und Testwertbestimmung 14.05. 16.05. Itemanalyse 2 – Itemdiskrimination/Trennsch‰rfe MK20-Kap14 Klassische Methoden der Reliabilit‰tssch‰tzung 21.05. 23.05. Konfirmatorische Faktorenanalyse (CFA) SA21-Kap2.6.2 Testg¸tekriterien – Reliabilit‰t Testg¸te - Reliabilit‰t 04.06. 06.06. Modellbasierte Reliabilit‰tsmafle MK20-Kap15 Modellbasierte Methoden der Reliabilit‰tssch‰tzung SA21-Kap2.3.1 IRT f¸r dichotome Antwortformate; MK20-Kap16 11.06. 13.06. Grundprinzip der Item-Response-Theorie (IRT) Einf¸hrung in die IRT, MK20-Kap 17 Interpretation von Testwerten in der IRT Probabilistische SA21-Kap2.3 Item-Response-Theorien; MK20-Kap18 ‹berblick ¸ber 18.06. 20.06. Testtheorie IRT-Modellfamilien Modelle der IRT MK20-Kap19.6 Parametersch‰tzung und Messgenauigkeit in der IRT - 25.06. 27.06. Testkonstruktion - Testinformation und Messgenauigkeit Reliabilit‰tsbeurteilung Testwertinterpretation, SA21-Kap2.6.3 Testg¸tekriterien – Validit‰t; MK20-Kap21 Validit‰t von 02.07. 04.07. Testg¸te - Multitrait-Multimethod-Analyse (MTMM) Testwertinterpretationen; MK20-Kap25 Multitrait-Multimethod-Analyse Validit‰t MK20-Kap9 Testwertinterpretationen, Normierung, Eichung; SA21- 09.07. 11.07. Testwertinterpretation, Normierung Kap2.6.4 Normierung/Nebeng¸tekriterien TESTTHEORIE Klausur- | KASPAR 02.07.2024 3 16.07. 18.07. Probeklausur (und Besprechung) vorbereitung LERNSTANDSKONTROLLE QUIZ 11 Anonyme Plenumsaufgaben GET INTERACTIVE Participants can join at slido.com with #2907374 https://app.sli.do/event/v7WeWUyFGQjL6nBGCDXx2H TESTTHEORIE | KASPAR 02.07.2024 4 VALIDITƒT VON TESTWERT- 1 INTERPRETATIONEN MULTITRAIT-MULTI-METHOD (MTMM) 2 ANSATZ TESTTHEORIE | KASPAR 02.07.2024 5 HAUPTG‹TEKRITERIEN Objektivit‰t, Reliabilit‰t und Validit‰t stellen die drei Hauptg¸tekriterien psychologischer diagnostischer Tests dar → Objektivit‰t ist eine notwendige, aber nicht hinreichende Voraussetzung f¸r Reliabilit‰t → Reliabilit‰t ist notwendige, aber nicht hinreichende Voraussetzung f¸r Validit‰t Bisheriger Fokus der Vorlesung Grundlagen Testtheorie stark auf Reliabilit‰tsmafle © Springer-Verlag Berlin Heidelberg 2012. Aus Schmidt-Atzert, L. & Amelang, M. (2012). Psychologische Diagnostik.Springer-Verlag: Berlin Heidelberg. 6 OBJEKTIVITƒT VON TESTS Def. Objektivit‰t bedeutet, dass die Ergebnisse eines diagnostischen Verfahrens unabh‰ngig davon zustande kommen, wer die Untersuchung, die Auswertung und die Interpretation durchf¸hrt. Drei Stˆrquellen der Objektivit‰t: Durchf¸hrung, Auswertung und Interpretation → dementsprechend werden drei Unterformen der Objektivit‰t unterschieden Objektivit‰t wird in der Regel nicht numerisch bestimmt Stattdessen werden Maflnahmen zur Standardisierung genannt o Sind Bestandteil des diagnostischen Verfahrens o M¸ssen im Manual zum Verfahren dokumentiert sein o Aussage ¸ber die Objektivit‰t beruht meist auf der Bewertung dieser Maflnahmen 7 VALIDITƒT VON TESTS Validit‰t ist das Wichtigste der drei Hauptg¸tekriterien (Objektivit‰t, Reliabilit‰t, Validit‰t) Klassisches (¸berholtes) Verst‰ndnis von Validit‰t (vor 2014): © Springer-Verlag Berlin Heidelberg 2012. Aus Schmidt-Atzert, L. & Amelang, M. (2012). Psychologische Diagnostik.Springer-Verlag: Berlin Heidelberg. 8 „TYPEN“ VON VALIDITÄT ▪ Je nach Konstruktionsprinzip des Tests und vorgesehenem Verwendungszweck kann eine bestimmte Art von Validit‰t besonders wichtig sein Klassischerweise wurden drei Arten der Validit‰t unterschieden: o Inhaltsvalidit‰t o Konstruktvalidit‰t v.a. deduktiv und induktiv generierte (konvergente, diskriminante und faktorielle Validit‰t) Tests o Kriteriumsvalidit‰t v.a. externale Konstruktion von (‹bereinstimmungs-, Vorhersage- und inkrementelle Validit‰t) Testverfahren 9 INHALTSVALIDITƒT item item Unter Inhaltsvalidit‰t versteht man, inwieweit ein Testitem item item oder Test das zu messende Merkmal repr‰sentativ erfasst Universum mˆglicher Items, mit der ein Konstrukt Homogene Konstrukte: Items untereinander beliebig abgebildet werden kann austauschbar; heterogene Konstrukte: Items repr‰sentieren item verschiedene Aspekte item item Zielmerkmal wird meist durch Curricula oder Experten festgelegt, Berechnung der Urteils¸bereinstimmung Item 1 erforderlich (Cohens Kappa) Item 2 Konstrukt Item 3 Augenscheinvalidit‰t: gibt an, inwieweit der Validit‰ts- anspruch eines Tests einem Laien, vom bloflen Augenschein her, gerechtfertigt erscheint relativ schwacher Beleg 10 KRITERIUMSVALIDITƒT Empirischer Zusammenhang zw. dem Verhalten in der Testsituation und beobachtbarem Verhalten auflerhalb der Testsituation → Korrelation ‹bereinstimmende/konkurrente Kriteriumsvalidit‰t: Kriterium/ Testergebnisse korrelieren mit einem zeitgleich verf¸gbaren Konstrukt A Konstrukt A Kriterium (z.B. Alltagsverhalten oder Test, der dasselbe Merkmal misst) Vorhersage-/pr‰diktive Kriteriumsvalidit‰t: Testergebnisse korrelieren mit einem zuk¸nftigen Kriterium (z.B. Konstrukt A Kriterium Berufserfolg, Devianz, Rekonvaleszenz, Langlebigkeit) Inkrementelle Kriteriumsvalidit‰t: Neuer Test erzielt eine hˆhere Kriteriumsvalidit‰t als bestehende Testverfahren → Stärker ausgerichtet auf „Ziele“ der Diagnostik jenseits der reinen Abbildung von Merkmalsunterschieden 11 KONSTRUKTVALIDITƒT Konvergente Validit‰t: Testverfahren, die Inwieweit spiegelt der Test das abstrakt-theoretische dasselbe Konstrukt abbilden, m¸ssten hoch Gedankengut wieder, das seiner Konstruktion zugrunde miteinander korrelieren liegt? Diskriminante Validit‰t: Testverfahren, die verschiedene Konstrukte abbilden, ist als Prozess zu sehen…Einbettung des Konstrukts in ein sollten nur gering miteinander korrelieren nomologisches Netz Faktorenanalyse (EFA, CFA) wichtiges Verfahren zur Konstruktvalidierung Konstrukt A Konstrukt B Multi-Trait-Multi-Method (MTMM) -Validierung → Schlieflt Inhalts- und Kriteriumsvalidit‰t mit ein A1 A2 A3 B1 B2 12 VALIDITƒT VON TESTWERTINTERPRETATIONEN Standards for Educational and Psychological Testing (AERA et al., 2014) Herausgegeben von Americal Educational Research Association (AERA), American Psychological Association (APA) und National Council on Measurement in Education Def. Validit‰t bezeichnet das Ausmafl, in dem Evidenz und Theorie die Interpretation von Testwerten rechtfertigen (AERA et al., 2014, S. 11, ¸bersetzt durch Krumm et al., 2021) Achtung: Validit‰t damit keine Eigenschaft des Tests selbst, sondern seiner Verwendung (G¸ltigkeit der Schlussfolgerungen aus der Testauswahl und Testdurchf¸hrung) Ein Test kann z.B. das intendierte Merkmal valide abbilden, aber keine valide Vorhersage erlauben (Beispiel: ung¸ltige Trait-Interpretation von State-Test) 13 VALIDIERUNGSSTRATEGIEN D.h. es werden aktuell keine Typen von Validit‰t mehr unterschieden trotzdem werden in vielen Testmanualen noch Inhalts-, Konstrukt- und Kriteriumsvalidit‰t beschrieben Prozess der Validierung: Strategien, um Evidenz zur Argumentationsbasierter Ansatz der g¸ltigen Interpretation von Testwerten zu generieren Validierung (Hartig et al., 2020) Schritte: Englischlesetest, um ¸ber Zulassung zum 1. Spezifikation der angestrebten Testwertinterpretation Psychologiestudium zu entscheiden 2. Formulierung von empirisch pr¸fbaren Grund- Testwert zeigt Lesekompetenz im Englischen an annahmen, auf der die Testwertinterpretation aufbaut Lesekompetenz im Englischen ist bedeutsamer Pr‰diktor f¸r Studienerfolg 3. Sammlung von Evidenz f¸r und gegen die einzelnen Grundannahmen 4. Zusammenfassende Bewertung der Evidenz 14 ARTEN EINEN TESTWERT ZU INTERPRETIEREN Wichtige Arten von Testwertinterpretationen (Kane, 2001): 1. Bewertung: Vergleich von Individuen auf Basis ihrer Testwerte (z.B. hˆhere/niedrigere Intelligenz) 2. Erkl‰rung: Testwert als Indikator f¸r Konstrukt bzw. Theorie (z.B. fluide vs kristalline Intelligenzfacette) 3. Entscheidungsfindung: Schlussfolgerung f¸r Zulassung etc. (z.B. Begabtenfˆrderung) 4. Extrapolation: es wird vom Testergebnis auf Bereiche auflerhalb der Testsituation geschlossen (z.B. Intelligenztest → sp‰terer schulischer Erfolg) 5. Verallgemeinerung: es wird vom Testergebnis auf ‰hnliche/verwandte Erlebens- und Verhaltensweisen geschlossen (z.B. von F‰higkeit auf Leistungsmotivation) 15 VALIDIERUNGSSTRATEGIEN Belege f¸r die Validit‰t von Testwertinterpretationen kˆnnen generiert werden anhand: o des Testinhalts, o von Antwortprozessen, o der Struktur des Tests und o des Zusammenhanges mit anderen Variablen 16 VALIDIERUNGSSTRATEGIEN Belege f¸r die Validit‰t von Testwertinterpretationen kˆnnen generiert werden anhand: 1. des Testinhalts z.B. Curriculare Validierung, Expertenratings: Test enth‰lt die charakteristischen Merkmale des Konstruktes (z.B. Symptome, Kompetenzen) 17 INTERPRETATION VON KOMPETENZNIVEAUS Niveau 1 Niveau 2 Niveau 3 Klassische Testtheorie: wenig Fokus auf Iteminhalte Probabilistische Testtheorie: o Sch‰tzung person- und Itemparameter auf derselben Skala macht eine kriteriumsorientierte Interpretation des Testwertes mˆglich o Anhand der auf verschiedenen Kompetenzniveaus wahrscheinlich gelˆsten Aufgaben kˆnnen Kompetenzniveaus inhaltlich beschrieben werden → Ist Verfahren (diagnostischer Test) dazu geeignet, in der erwarteten Population die notwendigen Leistungsunterschiede abzubilden? 18 VALIDIERUNGSSTRATEGIEN Belege f¸r die Validit‰t von Testwertinterpretationen kˆnnen generiert werden anhand: 2. von Antwortprozessen z.B. Kognitive Interviews (z.B. Think-Aloud): Probanden verstehen Testitems wie erwartet und bearbeiten diese mit Prozessen, die theoretisch Comprehension Retrieval Judgment Response erwartet werden (z.B. integrierende LZ-Urteile, Problemlˆsen) Wie interpretieren Befragte Fragen oder Begriffe? Aber auch: Wie rufen sie Informationen und Ereignisse aus dem Ged‰chtnis ab? Antwortprozesse gem‰fl versch. IRT-Modelle Wie kommen sie zu einer Entscheidung dar¸ber, Beeinflussung von Antworten durch Modus der wie sie antworten? Wie ordnen sie ihre „intern“ ermittelte Antwort Testung (z.B. Interview, FB, Online) formalen Antwortkategorien zu? gesis bietet kostenlose Beratung Tourangeau et al. (2000) zur Studienplanung an! 19 VALIDIERUNGSSTRATEGIEN Belege f¸r die Validit‰t von Testwertinterpretationen kˆnnen generiert werden anhand: 3. der Struktur des Tests z.B. Items- und Subskalen korrelieren wie erwartet miteinander, die Annahmen zur Dimensionalit‰t sind erf¸llt Beispiel: Individuelle Wertorientierungen nach der Schwartz-Werteskala in der Selbstauskunft hochaltiger Menschen wie erwartet mehrdimensional in Proxy-Ausk¸nften aber eindimensional (Kaspar et al., 2024) → Bildung von Subskalenscores und Interpretation verschiedener Wertetypen in der Gruppe nicht-auskunftsf‰higer hochaltriger Menschen w‰re nach diesen Befunden nicht gerechtfertigt 20 VALIDIERUNGSSTRATEGIEN Belege f¸r die Validit‰t von Testwertinterpretationen kˆnnen generiert werden anhand: 4. des Zusammenhanges mit anderen Variablen ƒhnliche/verschiedene Konstrukte, zeitgleich/zuk¸nftig etc. → Kann mithilfe des Tests das gesetzte diagnostische Ziel erreicht werden? Bedingung Folge Beispiele: Nein: Mafle eines Berufseignungstests korreliert nicht mit Maflen f¸r den Berufserfolg Ja: Skalenwerte für „berufsbezogene Kontrollüberzeugungen“ korrelieren hoch, aber nicht zu hoch mit „allgemeinen Kontrollüberzeugungen“ 21 NOMOLOGISCHES NETZWERK Nomologisches Netz = theoretische Annahmen und vorliegende Evidenz zu Zusammenh‰ngen zwischen verschiedenen psychologischen Konstrukten Neuer Neurotizismus-FB korreliert zwar hoch mit Neurotizismus- Wert aus Interview, aber anders als erwartet mit anderen Persˆnlichkeitsfacetten aus dem Interview 22 2 MULTITRAIT-MULTI-METHOD (MTMM) ANSATZ Klassischer Ansatz zur Abschätzung v.a. von „Konstrukt“-Validit‰t Systematische Variation der betrachteten Merkmale o =verschiedene Konstrukte, Multi-Trait-Analyse o Inhaltliche N‰he und Abgrenzbarkeit zu verwandten Konstrukten Systematische Variation der diagnostischen Methoden o =verschiedene Instrumente/Erhebungsarten, Multi-Method-Analyse o Absch‰tzung von Methodeneinfl¸ssen Korrelationen gleicher Methoden fallen meist hˆher aus, als wenn die Methode variiert wurde (z.B. wegen ‰hnlicher Fehlereinfl¸sse) 23 2 MULTITRAIT-MULTI-METHOD (MTMM) ANSATZ Multitrait-Multimethod-Analyse (Campbell & Fiske, 1959) Darstellung in einer MTMM-Matrix Beispiel: 2 Methoden (z.B. persˆnliches vs. Telefon- Interview; paper-pencil vs. Online-Fragebogen) 3 Merkmale (z.B. Persˆnlichkeitseigenschaften, Intelligenzfacetten) 24 2 MULTITRAIT-MULTI-METHOD (MTMM) ANSATZ Multitrait-Multimethod-Analyse (Campbell & Fiske, 1959) Darstellung in einer MTMM-Matrix In der Hauptdiagonalen stehen die Reliabilit‰ts- koeffizienten (≈Korrelation des Tests mit sich selbst) 25 2 MULTITRAIT-MULTI-METHOD (MTMM) ANSATZ Multitrait-Multimethod-Analyse (Campbell & Fiske, 1959) Darstellung in einer MTMM-Matrix In der Hauptdiagonalen stehen die Reliabilit‰ts- koeffizienten (≈Korrelation des Tests mit sich selbst) Niedrigere Korrelationen bei Verwendung unterschiedlicher Methoden 26 2 MULTITRAIT-MULTI-METHOD (MTMM) ANSATZ Multitrait-Multimethod-Analyse (Campbell & Fiske, 1959) Heterotrait-Monomethod Darstellung in einer MTMM-Matrix Niedrigere Korrelationen mit theoretisch weniger „nahen“ Konstrukten (=diskriminante Validit‰tsbelege) Höhere Korrelationen mit theoretisch „näheren“ Konstrukten (=konvergente Validit‰tsbelege) 27 2 MULTITRAIT-MULTI-METHOD (MTMM) ANSATZ Multitrait-Multimethod-Analyse (Campbell & Fiske, 1959) Darstellung in einer MTMM-Matrix Korrelationen zwischen verschiedenen Traits kˆnnen unterschiedlich sein, je nachdem welcher Trait mit welcher Methode gemessen wurde (z.B. A1-C2 ≠ A2-C1) Heterotrait-Heteromethod Bis hier 28 2 MULTITRAIT-MULTI-METHOD (MTMM) ANSATZ Nat¸rlich kˆnnen auch innerhalb derselben „Methode“ mehrere konkurrierende Skalen f¸r dasselbe Konstrukt verwendet werden Beispiel: Methoden: Fragebogen vs. Interview Traits: o Angst vs. Depressivit‰t vs. Belastbarkeit o Etablierter vs. neuer Angstfragebogen o Verschiedene Angstinterviews Erwartete Rangreihe der Korrelationen: Monotrait-Monomethod > Monotrait-Heteromethod > Heterotrait-Monomethod > Heterotrait-Heteromethod 29 GRENZEN DES MTMM-ANSATZES Achtung: bei der Planung einer Validierungsstudie unbedingt das Ziel der eigenen Testwertinterpre- tation im Blick behalten →Bei Fokus auf Beschreibung von Unterschieden (Bewertung) ist der Vergleich von konkurrierenden Konstrukten und Methoden i.S. eines MTMM-Designs relevant →Bei Fokus auf der Vorhersage zuk¸nftigen Verhaltens (pr‰diktive Validit‰tsbelege) sind v.a. Zusammenh‰nge mit Kriteriumsvariablen wie z.B. Therapieerfolg, R¸ckfallwahrscheinlichkeit etc. bedeutsam, die z.T. erst lange nach der Testdurchf¸hrung erhoben werden kˆnnen 30 EINSCHRƒNKUNGEN DER VALIDITƒT Validit‰tsmafle basieren i.d.R. auf Zusammenh‰ngen (Korrelationen) zwischen verschiedenen Testwerten Einflussfaktoren auf die Hˆhe von Korrelationen oder zwischen Testwerten und Kriterien Stichprobe (Grˆfle, eingeschr‰nkte Varianz) Asymmetrie: Wenn die Test- und Kriteriumswerte die jeweils intendierten Reliabilit‰t der Messungen (Fehler, Heterogenit‰t) Konstrukte nicht umfassend repr‰sentieren, sind auch Aussagen zur Drittvariablen (z.B. soziale Erw¸nschtheit) Validit‰t eingeschr‰nkt Unterschiedliche Methoden zwischen Test und Validierungsverfahren (vgl. MTMM-Systematik) Asymmetrie der Messungen 31 ASYMMETRIE VON MESSUNGEN (WITTMANN, 1988) Vollst‰ndige Asymmetrie: es werden zwar zwei sinnvoll zueinander in Beziehung stehende Konstrukte korreliert, aber davon jeweils die „falschen“ Facetten Beispiel: Freizeitverhalten und Wohlbefinden Aber: „Umfang solitäre Tätigkeiten (z.B. Lesen)“ korreliert nicht mit „Zufriedenheit mit sozialen Kontakten“ 32 ASYMMETRIE VON MESSUNGEN (WITTMANN, 1988) Asymmetrie durch verschiedene Ebenen: es werden zwar zwei sinnvoll zueinander in Beziehung stehende Konstrukte korreliert, die aber auf verschiedenen Abstraktionsebenen gemessen sind Beispiel: Freizeitverhalten und Wohlbefinden Aber: „Umfang soziale Tätigkeiten“ korreliert nur eingeschränkt mit „Zufriedenheit mit sozialen Kontakten im Sportverein“ Analog auch mˆglich: einseitig engere bzw. spezifischere Messung der Pr‰diktorvariable Mischung Niveaus und (teilweise) irrelevante Aspekte von Kriteriums- oder Pr‰diktorvariable 33 VALIDITƒT FAZIT Valider Einsatz von psychologischer Diagnostik nur bei hinreichender Objektivit‰t und Reliabilit‰t der Verfahren mˆglich Historisch viele verschiedene Validit‰ts-Konzepte und Kennwerte, aber unklare Abgrenzung Seit 2014 offiziell: Fokus auf Testwertinterpretation bzw. konkreten Verwendungszweck psychologischer Diagnostik Aussagen zu Validit‰t sind eher ein B¸ndel von empirischen Belegen f¸r die Sinnhaftigkeit der angestrebten Testwertinterpretation, weniger ein einzelner Validit‰tskennwert 34 LITERATUR (SA21) Schmidt-Atzert, L., Krumm, S. & Amelang, M. (Hrsg.). (2021). Psychologische Diagnostik (6. Aufl.). Berlin: Springer. (MK20) Moosbrugger, H. & Kevala, A. (Hrsg). (2020). Testtheorie und Fragebogenkonstruktion (3. Aufl.). Berlin: Springer. B¸hner, M. (2021). Einf¸hrung in die Test- und Fragebogenkonstruktion (4., korr. u. erw. Edition). M¸nchen: Pearson. → Titel sind in der Bibliothek als E-Book verf¸gbar TESTTHEORIE | KASPAR 02.07.2024 35 Die Nutzung von Abbildungen (Bilder, BEI FRAGEN UND ANMERKUNGEN Prof. Dr. Roman Kaspar Sasmita Rosari Grafiken, Fotos, Zeichnungen etc.) f¸r SIND WIR GERNE F‹R SIE DA! Unterrichtszwecke erfolgt gem‰fl ß 60a Psychologische Methodenlehre Psychologische Methodenlehre Absatz 2 UrhG. [email protected] [email protected]