PDF Item-Response-Theorie (IRT) Psychologische Diagnostik

Document Details

CohesiveDiscernment8610

Uploaded by CohesiveDiscernment8610

Universität Kassel

2024

Prof. Dr. Ulrich Schroeders

Tags

Item Response Theory (IRT) Psychologische Diagnostik Testtheorie Psychologie

Summary

Dieses PDF-Dokument behandelt die Item-Response-Theorie (IRT) im Kontext der psychologischen Diagnostik. Es bietet eine Einführung in die Konzepte der IRT, einschliesslich der Modellierung und Anwendung in der psychologischen Forschung. Der Text behandelt auch die verschiedenen Arten von IRT-Modellen und deren Anwendung in der Testtheorie, sowie Beispiele und Analyse verschiedener Modelle. Es ist ein wichtiger Bestandteil der Psychologischen Diagnostik.

Full Transcript

Item-Response-Theorie (IRT) Psychologische Diagnostik 05./12.12.2024 (version 3.1.0) Prof. Dr. Ulrich Schroeders Literatur zur Faktorenanalyse Kapitel zur Item-Reponse-Theorie (IRT) (Zum Nachlesen...

Item-Response-Theorie (IRT) Psychologische Diagnostik 05./12.12.2024 (version 3.1.0) Prof. Dr. Ulrich Schroeders Literatur zur Faktorenanalyse Kapitel zur Item-Reponse-Theorie (IRT) (Zum Nachlesen) Kelava, A. & Moosbrugger, H. (2020). Einführung in die Item- Response-Theorie (IRT). In H. Moosbrugger & A. Kelava (Hrsg.) Testtheorie und Fragebogenkonstruktion (S. 369-409). Springer. [Über SpringerLink online verfügbar] Die Kapitel 17, 18 und 19 beschäftigen sich ebenfalls mit Themen der IRT-Theorie. Bei weitergehendem Interesse Rost, J. (2004). Testtheorie und Testkonstruktion. Verlag Hans Huber. Folie 2 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Wieso ist IRT so beliebt im LSA* wie PISA? Viele Items können in verschiedenen Testversionen laufen und dennoch können die Testergebnisse auf eine Metrik gebracht werden Deshalb gute Konstruktabdeckung (domain sampling) Keine Individualdiagnostik nötig, sondern Analyseeinheit sind Klassen, Schulen, Bundesländer oder Staaten Bei wiederholten Testung – wie Trendanalysen (= Verlaufsmessung) – ist eine Verlinkung (= Verknüpfung) der Ergebnisse über die Zeit notwendig Mehrfachtestungen möglich, neue Zusammenstellung der Aufgabenblöcke (= Blocks) zu Testheften (= Booklets) Aufgabenentwicklung ist teuer, Einstreuaufgaben, Rekombinationsmöglichkeiten * LSA = Large-Scale Assessment Folie 3 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Booklet Designs (1) unbalanced balanced unbalanced Probleme Kovarianzen fehlen (A/C) n(B) = n(A) + n(C) (= ungenauere Parameterschätzungen) Reference. Gonzalez, E., & Rutkowski, L. (2010). Principles of multiple matrix booklet designs and parameter recovery in large-scale assessments. In D. Hastedt & D. von Davier (Eds.), IERI Monograph Series: Issues and Methodologies in Large-Scale Assessments (Vol. 3, pp. 125–156). IEA-ETS Research Institute. Folie 4 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Booklet Designs (2) Vorteil Jeder Block erscheint einmal an jeder Position im Design, und jeder Block erscheint auch einmal mit jedem der anderen Blöcke. Nachteil Ungerade Anzahl an Blöcken für jede Testform macht es ungeeignet für die Administration in zwei gleich langen Sitzungen Folie 5 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Wieso IRT in der klinischen Diagnostik? Personenparameter-Schätzung: IRT ermöglicht die Schätzung latenter Merkmale (z. B. Depression, Angst) auf einer kontinuierlichen Skala. Liefert präzisere Ergebnisse als Summenbildung. Adaptives Testen: Gezielte Auswahl der Items basiert auf den bisherigen Antworten (fähigkeitsadaptiv). Höhere Testeffizienz. Reduziert die Belastung der Patient:innen. Messpräzision auf verschiedenen Fähigkeitsniveaus: Items können identifiziert werden, die für spezifische Fähigkeits- oder Störungslevel besonders geeignet sind. Folie 6 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Bsp.: Paralleltestkonstruktion Wortschatztest MCAR Design, 60/110 Items = breitere Konstruktabdeckung Jede:r Teilnehmer:in bearbeitet unterschiedliches Set = Verortung auf einer einheitlichen Metrik dennoch möglich Konditionale Reliabilität Folie 7 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Probabilistische Testtheorie = Item-Response-Theory Im Prinzip ist IRT eine CFA für kategoriale Daten. Latente Variable Diskret Kontinuierlich Beobachtete Diskret Latent Class Item Response Theory Variable Kontinuierlich Latent Profile Factor Analysis Folie 8 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Probabilistische Testtheorie = Item-Response-Theory Im Prinzip ist IRT eine CFA für kategoriale Daten. Noch mal rekapitulieren Yip= μi + λi ηp + εip Yip CFA ist ein lineares Modell Das bedeutet, eine Veränderung um eine Einheit auf der latenten Variable 6 zieht eine Veränderung in der 5 4 erwarteten Antwort Y um λ nach sich 3 Diese Annahme funktioniert nicht mit 2 binären/kategorialen Daten 1 1 2 3 4 5 6 η Folie 9 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Testtheoretische Grundidee der IRT In der IRT hängt das Antwortverhalten (Response) von Eigenschaften des Items (Itemschwierigkeit) und der Merkmalsausprägung der Person ab Input dichotome Items: z.B. das Bejahen/Nicht-Bejahen einer Aussage in einem klinischen Fragebogen bzw. das Lösen/Nichtlösen einer Aufgabe in einem Leistungstest Es gibt Erweiterungen auf der mehrkategorialen Fall: Partial-Credit- Scoring, Graded-Reponse-Modell oder ähnliche, auf die hier nicht weiter eingegangen wird Es gibt einen non-linearen Zusammenhang zwischen der Fähigkeit eines Probanden (θp) und der Lösungswahrscheinlichkeit: P(Yi = 1 | θp) Folie 10 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Logit-Transformation Viele IRT Modelle transformieren die Lösungswahrscheinlichkeiten zwischen 0 (= löst das Item nie) und 1 (= löst das Item sicher) auf einen Wertebereich von -∞ bis + ∞ Die bekannteste Transformation oder Linkfunktion ist die Logit- Transformation: logit(p) = log (p/(1-p)) Unterschiede zwischen den linearen und logit-transformierten Werte sind in den Extrembereichen am größten Folie 11 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Rasch Modell = 1 PL Modell Rasch-Modelle sind im Large-Scale-Assessment bei der Skalierung von Kompetenztests weit verbreitet (PISA, IQB-Bildungstrend, NEPS…) Rasch-Homogenität: Antworten auf alle Items eines Tests liegt genau eine latente Variable zugrunde liegt. Neben den variierenden Item- schwierigkeiten βi erzeugt die latente Personenvariable θp die Unterschiede im Antwortverhalten der verschiedenen Personen exp(θp − βi ) Personenfähigkeit P(Xpi = 1|θp ) = 1 + exp(θp − βi ) Itemschwierigkeit Folie 12 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 ICCs im Rasch Modell IRT Modell mit nur einem Parameter (Schwierigkeitsparameter) Die Item Characteristic Curve (ICC) oder Item Response Function (IRF) zeigt die Wahrscheinlich- keit ein Item korrekt zu beantworten als Funktion der Personenfähigkeit Für dichotome Items wird ein Item auf einer gemeinsamen Personen-Item- Skala verortet, auf der die Lösungswahrscheinlichkeit P = 0.50 beträgt Folie 13 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Rechenbeispiel Wie hoch ist die Lösungswahrscheinlichkeit bei einem mittelschweren Items und durchschnittlicher Fähigkeit? exp(θp − βi ) P(Xpi = 1|θp ) = 1 + exp(θp − βi ) exp(0 − 0 ) P(Xpi = 1|θp ) = =.50 1 + exp(0 − 0 ) Wie hoch ist die Lösungswahrscheinlichkeit bei einem mittelschweren Items und einer Personenfähigkeit von θp =.50? exp(0.5 − 0 ) P(Xpi = 1|θp ) = =.622 1 + exp(0.5 − 0 ) Folie 14 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Wright map IRT verortet Items und Personen auf einer gemeinsamen Skala (joint scale) Negative Logits = geringe Fähigkeit der Person und leichtes Item (= hohe statistische Schwierigkeit) Folie 15 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Spezifische Objektivität Im Rasch-Modell weisen die IC-Funktionen aller Items die gleiche Form auf und sind lediglich horizontal entlang der Abszisse (Joint Scale) parallel verschoben sind Alle Items messen gleichermaßen dasselbe Personenmerkmal, aber auf verschiedenen Schwierigkeitsstufen. Spezifische Objektivität (s. S. 380 in Kelava & Moosbrugger, 2020) 1. Ein Vergleich der Fähigkeitsparameterausprägungen θp und θq zweier Personen p und q kann unabhängig davon erfolgen, ob einfache oder schwierige Items verwendet werden 2. Ein Vergleich der Schwierigkeitsparameter βi und βj zweier Items i und j kann unabhängig davon erfolgen, ob Personen mit niedrigen oder hohen Ausprägungen der Personenvariable untersucht wurden. Folie 16 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Lokale stochastische Unabhängigkeit Die Antworten auf zwei beliebige Rasch-homogene Items i und j bei gegebener Personenvariable θ sind paarweise voneinander unabhängig. Lokale stochastische Unabhängigkeit dann gegeben, wenn 1. die Wahrscheinlichkeit einer konkreten Antwort auf Item i nicht von einer konkreten Antwort auf ein anderes Item j abhängt.  keine Abhängigkeiten zwischen den Items (Kettenaufgaben) 2. Ebenso darf die Wahrscheinlichkeit einer konkreten Antwort von Person p nicht von der konkreten Antwort einer anderen Person q abhängen.  keine Abhängigkeiten zwischen den Personen (Abschreiben) Formal gegeben, wenn die Verbundwahrscheinlichkeit der Antworten der Items i und j ebenso groß ist wie das Produkt der Einzelwahrscheinlich- keiten: P(Yi = yi, Yj = yj | θ) = P(Yi = yi | θ) · P(Yj = yj | θ) Ausmaß der Verletzung an über Yen's Q3-Statistik quantifiziert werden r(Xi − θ,Xj − θ) Folie 17 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Birnbaum Modell = 2 PL Modell IRT Modell mit 2 Parametern (Schwierigkeitsparameter = β und Diskriminationsparameter = α) Diskriminations- parameter exp[α i (θp − βi )] Personenfähigkeit P(Xpi = 1|θp ) = 1 + exp[α i (θp − βi )] Schwierigkeits- parameter Folie 18 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 ICCs im Birnbaum Modell Die ICCs haben unterschiedliche Diskriminationsparameter, also unterschiedliche Steigungen. Je höher der Diskriminationsparameter, desto höher die Steigung Folie 19 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Item Response Theory (IRT) IRT Modellen liegt eine logistische Funktion zugrunde 4 PL parameter: a = discrimination parameter (slope/steepness of line) b = difficulty (location of line) c = guessing (lower asymptote of line) d = slipping (upper asymptote of line) Folie 20 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Andere Ein- dimensionale IRT Modelle Folie 21 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Zusammenfassung Voraussetzungen IRT 1. Unidimensionalität: Es gibt eine latente Variable, die das Antwort- verhalten bei einem Item bestimmt. Es gibt also keine weiteren latenten Variablen, die einen systematischen Einfluss ausüben. Kann mittels konfirmatorischen Faktorenanalyse auf Itemebene überprüft werden. Erweiterung: MIRT 2. Lokale stochastische Unabhängigkeit: Für einen gegebenen Wert der latenten Variable lässt sich die Antwortwahrscheinlichkeit für mehrere Items als Produkt der Antwortwahrscheinlichkeiten der Einzelitems zerlegen. Die Korrelation zwischen den Items wird einzig und allein durch die latente Variable bestimmt und es gibt keine weiteren systematischen Einflussgrößen.  Testaufgaben, die aufeinander aufbauen, verletzen diese Annahme – in dem Fall sollten andere Modelle benutzt werden. Erweiterung: Testlet- Modelle. Folie 22 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 KTT vs. IRT Folie 23 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 IRT Modellierung in R Verschiedene R Pakete https://cran.r- project.org/web/views/Psychometrics.html Empfehlung: TAM (Test Analysis Modules) von T. Kiefer, A. Robitzsch, M. Wu Tutorial: http://www.edmeasurementsurveys.com/TAM/Tutorials/ TAM schätzt ein- und mehrdimensionale IRT Modelle, 4 PL Modelle, Multifacetten-Modelle, Latente Regressionsmodelle und PV-Ziehung, u.v.a.m. tam.mml MML-estimation with fixed slopes tam.mml.2pl MML-estimation with varying slopes Folie 24 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 Beispiel: IRT Modellierung Den Datensatz gff.dat mit den Antworten von 1.000 Personen auf 16 Items finden Sie im VC Folie 25 Psychologische Diagnostik (Vl-MSc) | WiSe 24/25 1 PL Modell # Rasch model = 1 PL model mod1

Use Quizgecko on...
Browser
Browser