Podcast
Questions and Answers
Warum ist die Item-Response-Theorie (IRT) in Large-Scale Assessments (LSA) wie PISA so verbreitet?
Warum ist die Item-Response-Theorie (IRT) in Large-Scale Assessments (LSA) wie PISA so verbreitet?
- Weil sie eine einfache Individualdiagnostik ermöglicht.
- Weil sie die Notwendigkeit von wiederholten Testungen überflüssig macht.
- Weil sie erlaubt, Testergebnisse verschiedener Testversionen auf eine gemeinsame Metrik zu bringen. (correct)
- Weil sie kostengünstiger in der Anwendung ist als andere testtheoretische Modelle.
Bei der IRT sind Individualdiagnostiken notwendig, um korrekte Analysen durchzuführen.
Bei der IRT sind Individualdiagnostiken notwendig, um korrekte Analysen durchzuführen.
False (B)
Was versteht man unter 'Verlinkung' im Kontext von wiederholten Testungen bei Large-Scale Assessments?
Was versteht man unter 'Verlinkung' im Kontext von wiederholten Testungen bei Large-Scale Assessments?
Verknüpfung der Ergebnisse über die Zeit
Bei der Erstellung von Testheften in Large-Scale Assessments werden Aufgabenblöcke auch als ______ bezeichnet.
Bei der Erstellung von Testheften in Large-Scale Assessments werden Aufgabenblöcke auch als ______ bezeichnet.
Welches Problem kann bei einem 'unbalanced' Booklet Design auftreten?
Welches Problem kann bei einem 'unbalanced' Booklet Design auftreten?
Ein 'balanced' Booklet Design führt immer zu ungenaueren Parameterschätzungen.
Ein 'balanced' Booklet Design führt immer zu ungenaueren Parameterschätzungen.
Ordnen Sie die folgenden Konzepte der Item-Response-Theorie (IRT) ihrer Beschreibung zu:
Ordnen Sie die folgenden Konzepte der Item-Response-Theorie (IRT) ihrer Beschreibung zu:
Was beschreibt die Item Characteristic Curve (ICC) oder Item Response Function (IRF) im Kontext des Rasch-Modells am besten?
Was beschreibt die Item Characteristic Curve (ICC) oder Item Response Function (IRF) im Kontext des Rasch-Modells am besten?
Im Rasch-Modell haben alle Items unterschiedliche Formen von IC-Funktionen, die sich nicht parallel entlang der Abszisse verschieben.
Im Rasch-Modell haben alle Items unterschiedliche Formen von IC-Funktionen, die sich nicht parallel entlang der Abszisse verschieben.
Auf welcher Skala werden Items und Personen im IRT Modell verortet?
Auf welcher Skala werden Items und Personen im IRT Modell verortet?
Negative Logits entsprechen einer ______ Fähigkeit der Person und einem leichten Item.
Negative Logits entsprechen einer ______ Fähigkeit der Person und einem leichten Item.
Ordnen Sie die Konzepte ihren Beschreibungen im Kontext des Rasch-Modells zu:
Ordnen Sie die Konzepte ihren Beschreibungen im Kontext des Rasch-Modells zu:
Was bedeutet es, wenn im Rasch-Modell die Lösungswahrscheinlichkeit P = 0.50 beträgt?
Was bedeutet es, wenn im Rasch-Modell die Lösungswahrscheinlichkeit P = 0.50 beträgt?
Im Rasch-Modell wird die Varianz der Itemschwierigkeiten ignoriert, um spezifische Objektivität zu erreichen.
Im Rasch-Modell wird die Varianz der Itemschwierigkeiten ignoriert, um spezifische Objektivität zu erreichen.
Nennen Sie den Parameter der im IRT Modell im Text genannt wird.
Nennen Sie den Parameter der im IRT Modell im Text genannt wird.
Die Item Characteristic Curve (ICC) wird auch als ______ bezeichnet.
Die Item Characteristic Curve (ICC) wird auch als ______ bezeichnet.
Welche Aussage trifft auf die spezifische Objektivität im Rasch-Modell zu?
Welche Aussage trifft auf die spezifische Objektivität im Rasch-Modell zu?
Welche Aussage trifft nicht auf die Vorteile eines Booklet-Designs zu, bei dem jeder Block einmal an jeder Position erscheint?
Welche Aussage trifft nicht auf die Vorteile eines Booklet-Designs zu, bei dem jeder Block einmal an jeder Position erscheint?
IRT ermöglicht keine Schätzung latenter Merkmale auf einer kontinuierlichen Skala.
IRT ermöglicht keine Schätzung latenter Merkmale auf einer kontinuierlichen Skala.
Nennen Sie einen Vorteil des adaptiven Testens im Kontext der klinischen Diagnostik.
Nennen Sie einen Vorteil des adaptiven Testens im Kontext der klinischen Diagnostik.
Bei der Paralleltestkonstruktion mit einem MCAR-Design bearbeitet jede:r Teilnehmer:in ein ______ Set an Items.
Bei der Paralleltestkonstruktion mit einem MCAR-Design bearbeitet jede:r Teilnehmer:in ein ______ Set an Items.
Ordnen Sie die folgenden statistischen Verfahren den entsprechenden Kombinationen von beobachteten und latenten Variablen zu:
Ordnen Sie die folgenden statistischen Verfahren den entsprechenden Kombinationen von beobachteten und latenten Variablen zu:
Was bedeutet 'MCAR' im Kontext von Testdesigns?
Was bedeutet 'MCAR' im Kontext von Testdesigns?
IRT ist im Prinzip eine Regressionsanalyse für kategoriale Daten
IRT ist im Prinzip eine Regressionsanalyse für kategoriale Daten
Was versteht man unter 'bedingter Reliabilität' im Kontext von Item-Response-Theorie (IRT)?
Was versteht man unter 'bedingter Reliabilität' im Kontext von Item-Response-Theorie (IRT)?
Welcher Vorteil ergibt sich aus der Verwendung von adaptiven Tests in der klinischen Diagnostik nicht?
Welcher Vorteil ergibt sich aus der Verwendung von adaptiven Tests in der klinischen Diagnostik nicht?
Welche der folgenden Aussagen beschreibt die lokale stochastische Unabhängigkeit nicht korrekt?
Welche der folgenden Aussagen beschreibt die lokale stochastische Unabhängigkeit nicht korrekt?
Beim Birnbaum-Modell (2PL-Modell) haben alle Items den gleichen Diskriminationsparameter.
Beim Birnbaum-Modell (2PL-Modell) haben alle Items den gleichen Diskriminationsparameter.
Mit welcher Statistik kann das Ausmaß der Verletzung der lokalen stochastischen Unabhängigkeit quantifiziert werden?
Mit welcher Statistik kann das Ausmaß der Verletzung der lokalen stochastischen Unabhängigkeit quantifiziert werden?
Im Birnbaum-Modell (2PL-Modell) beeinflusst der ______ die Steigung der Item Characteristic Curve (ICC).
Im Birnbaum-Modell (2PL-Modell) beeinflusst der ______ die Steigung der Item Characteristic Curve (ICC).
Ordnen Sie jedem Parameter die entsprechende Beschreibung zu.
Ordnen Sie jedem Parameter die entsprechende Beschreibung zu.
Welche der folgenden Aussagen beschreibt am besten die Beziehung zwischen einer latenten Variable und den beobachteten Variablen in einem CFA-Modell?
Welche der folgenden Aussagen beschreibt am besten die Beziehung zwischen einer latenten Variable und den beobachteten Variablen in einem CFA-Modell?
Die Annahme linearer Beziehungen im CFA-Modell ist uneingeschränkt auch für binäre oder kategoriale Daten geeignet.
Die Annahme linearer Beziehungen im CFA-Modell ist uneingeschränkt auch für binäre oder kategoriale Daten geeignet.
Was ist der grundlegende Unterschied zwischen der Herangehensweise der IRT im Vergleich zur klassischen Testtheorie (KTT) bezüglich des Antwortverhaltens?
Was ist der grundlegende Unterschied zwischen der Herangehensweise der IRT im Vergleich zur klassischen Testtheorie (KTT) bezüglich des Antwortverhaltens?
In der IRT gibt es einen ______ Zusammenhang zwischen der Fähigkeit eines Probanden (θp) und der Lösungswahrscheinlichkeit eines Items.
In der IRT gibt es einen ______ Zusammenhang zwischen der Fähigkeit eines Probanden (θp) und der Lösungswahrscheinlichkeit eines Items.
Ordnen Sie die folgenden Konzepte der IRT ihren entsprechenden Beschreibungen zu:
Ordnen Sie die folgenden Konzepte der IRT ihren entsprechenden Beschreibungen zu:
Was ist der Zweck der Logit-Transformation in vielen IRT-Modellen?
Was ist der Zweck der Logit-Transformation in vielen IRT-Modellen?
Im Rasch-Modell wird angenommen, dass verschiedene latente Variablen die Antworten auf die Items eines Tests beeinflussen können.
Im Rasch-Modell wird angenommen, dass verschiedene latente Variablen die Antworten auf die Items eines Tests beeinflussen können.
Nennen Sie ein Beispiel für einen Anwendungsbereich, in dem Rasch-Modelle häufig eingesetzt werden.
Nennen Sie ein Beispiel für einen Anwendungsbereich, in dem Rasch-Modelle häufig eingesetzt werden.
Was ist die mathematische Formel für die Logit-Transformation?
Was ist die mathematische Formel für die Logit-Transformation?
Wo sind die Unterschiede zwischen den linearen und logit-transformierten Werten am grössten?
Wo sind die Unterschiede zwischen den linearen und logit-transformierten Werten am grössten?
Flashcards
Item-Response-Theorie (IRT)
Item-Response-Theorie (IRT)
Ein testtheoretischer Ansatz, der sich auf die Eigenschaften einzelner Items und deren Beziehung zu den Fähigkeiten der Testperson konzentriert.
IRT im Large-Scale Assessment (LSA)
IRT im Large-Scale Assessment (LSA)
Ermöglicht die Verwendung von Items aus verschiedenen Testversionen und deren Vergleichbarkeit auf einer gemeinsamen Metrik.
Konstruktabdeckung (Domain Sampling)
Konstruktabdeckung (Domain Sampling)
Die gezielte Auswahl von Inhalten, um sicherzustellen, dass ein Test ein breites Spektrum des zu messenden Konstrukts abdeckt.
Trendanalysen (Verlaufsmessung)
Trendanalysen (Verlaufsmessung)
Signup and view all the flashcards
Verlinkung (Verknüpfung)
Verlinkung (Verknüpfung)
Signup and view all the flashcards
Aufgabenblöcke (Blocks) & Testhefte (Booklets)
Aufgabenblöcke (Blocks) & Testhefte (Booklets)
Signup and view all the flashcards
Multiple Matrix Booklet Designs
Multiple Matrix Booklet Designs
Signup and view all the flashcards
Booklet Design Vorteil
Booklet Design Vorteil
Signup and view all the flashcards
Booklet Design Nachteil
Booklet Design Nachteil
Signup and view all the flashcards
IRT Personparameter-Schätzung
IRT Personparameter-Schätzung
Signup and view all the flashcards
Adaptives Testen (IRT)
Adaptives Testen (IRT)
Signup and view all the flashcards
Messpräzision (IRT)
Messpräzision (IRT)
Signup and view all the flashcards
MCAR Design
MCAR Design
Signup and view all the flashcards
Konditionale Reliabilität
Konditionale Reliabilität
Signup and view all the flashcards
IRT und CFA
IRT und CFA
Signup and view all the flashcards
Probabilistische Testtheorie
Probabilistische Testtheorie
Signup and view all the flashcards
Parametervergleich
Parametervergleich
Signup and view all the flashcards
Lokale stochastische Unabhängigkeit
Lokale stochastische Unabhängigkeit
Signup and view all the flashcards
Lokale stochastische Unabhängigkeit (zwischen Personen)
Lokale stochastische Unabhängigkeit (zwischen Personen)
Signup and view all the flashcards
Birnbaum Modell (2PL)
Birnbaum Modell (2PL)
Signup and view all the flashcards
ICCs im Birnbaum Modell
ICCs im Birnbaum Modell
Signup and view all the flashcards
Personenvariable θp
Personenvariable θp
Signup and view all the flashcards
Rasch-Modell
Rasch-Modell
Signup and view all the flashcards
Item Characteristic Curve (ICC)
Item Characteristic Curve (ICC)
Signup and view all the flashcards
Item-Schwierigkeit (dichotome Items)
Item-Schwierigkeit (dichotome Items)
Signup and view all the flashcards
Joint Scale (IRT)
Joint Scale (IRT)
Signup and view all the flashcards
Negative Logits
Negative Logits
Signup and view all the flashcards
Spezifische Objektivität (Rasch)
Spezifische Objektivität (Rasch)
Signup and view all the flashcards
Gleiche Messung, verschiedene Schwierigkeit
Gleiche Messung, verschiedene Schwierigkeit
Signup and view all the flashcards
Horizontale Verschiebung
Horizontale Verschiebung
Signup and view all the flashcards
Itemunterschied
Itemunterschied
Signup and view all the flashcards
CFA als lineares Modell
CFA als lineares Modell
Signup and view all the flashcards
IRT Grundidee
IRT Grundidee
Signup and view all the flashcards
Dichotome Items (IRT)
Dichotome Items (IRT)
Signup and view all the flashcards
Logit-Transformation
Logit-Transformation
Signup and view all the flashcards
Logit-Formel
Logit-Formel
Signup and view all the flashcards
Rasch-Modelle Anwendung
Rasch-Modelle Anwendung
Signup and view all the flashcards
Rasch-Homogenität
Rasch-Homogenität
Signup and view all the flashcards
Itemschwierigkeit (IRT)
Itemschwierigkeit (IRT)
Signup and view all the flashcards
Personenfähigkeit (θp)
Personenfähigkeit (θp)
Signup and view all the flashcards
Nicht-linearer Zusammenhang (IRT)
Nicht-linearer Zusammenhang (IRT)
Signup and view all the flashcards
Study Notes
Item-Response-Theorie (IRT)
- Die Item-Response-Theorie (IRT) ist ein Thema der psychologischen Diagnostik.
Literatur zur Faktorenanalyse
- Kelava und Moosbrugger (2020) bieten eine Einführung in die Item-Response-Theorie (IRT) in "Testtheorie und Fragebogenkonstruktion".
- Die Kapitel 17, 18 und 19 befassen sich mit Themen der IRT-Theorie.
- Rost (2004) bietet mit "Testtheorie und Testkonstruktion" weitergehende Informationen.
Beliebtheit von IRT in LSA und PISA
- IRT wird häufig in Large-Scale Assessments (LSA) wie PISA verwendet, weil viele Items in verschiedenen Testversionen verwendet werden können und die Ergebnisse dennoch auf eine Metrik gebracht werden können.
- IRT bietet eine gute Konstruktabdeckung (Domain Sampling).
- Es ist keine Individualdiagnostik notwendig, da Klassen, Schulen, Bundesländer oder Staaten die Analyseeinheit bilden.
- Bei wiederholten Testungen, wie Trendanalysen, ist eine Verlinkung der Ergebnisse über die Zeit notwendig.
- Mehrfachtestungen sind möglich durch neue Zusammenstellung von Aufgabenblöcken (Blocks) zu Testheften (Booklets).
- Die Aufgabenentwicklung ist teuer, aber Einstreuaufgaben und Rekombinationsmöglichkeiten sind gegeben.
Booklet Designs
- Vollständige Matrix-Booklet-Designs können entweder "unbalanced" sein
- Vollständige Matrix-Booklet-Designs können auch "balanced" sein
- Unvollständige Matrix-Booklet-Designs gelten als "unbalanced"
Probleme bei Booklet Designs
- Bei unvollständigen Matrix-Booklet-Designs können Kovarianzen fehlen
- n(B) = n(A) + n(C) (= ungenauere Parameterschätzungen).
Balanced Incomplete 7-Block Design
- Es gibt auch eine Möglichkeit, die Designs so zu wählen, dass sie "Balanced" sind.
- Jeder Block erscheint einmal an jeder Position im Design und einmal mit jedem anderen Block.
- Ungeeignet für die Administration in zwei gleich langen Sitzungen (ungerade Anzahl an Blöcken für jede Testform)
Anwendung von IRT in der klinischen Diagnostik
- IRT ermöglicht die Schätzung latenter Merkmale (z. B. Depression, Angst) auf einer kontinuierlichen Skala.
- Es liefert präzisere Ergebnisse als Summenbildung.
- Adaptives Testen ermöglicht die gezielte Auswahl von Items basierend auf den bisherigen Antworten (fähigkeitsadaptiv), was die Testeffizienz erhöht und die Belastung der Patienten reduziert.
- Items können identifiziert werden, die für spezifische Fähigkeits- oder Störungslevel besonders geeignet sind (Messpräzision auf verschiedenen Fähigkeitsniveaus).
Beispiel: Paralleltestkonstruktion Wortschatztest
- MCAR Design, 60/110 Items = breitere Konstruktabdeckung
- Jede:r Teilnehmer:in bearbeitet unterschiedliches Set = Verortung auf einer einheitlichen Metrik dennoch möglich
- Konditionale Reliabilität
Probabilistische Testtheorie
- Probabilistische Testtheorie entspricht der Item-Response-Theorie.
- Im Prinzip ist IRT eine CFA für kategoriale Daten.
- CFA ist ein lineares Modell. Eine Veränderung um eine Einheit auf der latenten Variable zieht eine Veränderung in der erwarteten Antwort um λ nach sich.
- Diese Annahme funktioniert nicht jedoch mit binären/kategorialen Daten.
Testtheoretische Grundidee
- Das Antwortverhalten (Response) hängt von Eigenschaften des Items (Itemschwierigkeit) und der Merkmalsausprägung der Person ab.
- Input sind dichotome Items: z. B. das Bejahen/Nicht-Bejahen einer Aussage in einem klinischen Fragebogen bzw. das Lösen/Nichtlösen einer Aufgabe in einem Leistungstest.
- Es gibt Erweiterungen auf der mehrkategorialen Fall: Partial-Credit-Scoring, Graded-Reponse-Modell oder ähnliche.
- Ein non-linearer Zusammenhang zwischen der Fähigkeit eines Probanden (θp) und der Lösungswahrscheinlichkeit: P(Yi = 1 | θp)
Logit-Transformation
- Viele IRT Modelle transformieren die Lösungswahrscheinlichkeiten zwischen 0 (= löst das Item nie) und 1 (= löst das Item sicher) auf einen Wertebereich von -∞ bis + ∞
- Die bekannteste Transformation oder Linkfunktion ist die Logit-Transformation: logit(p) = log (p/(1-p))
- Unterschiede zwischen den linearen und logit-transformierten Werte sind in den Extrembereichen am größten
Rasch-Modell (1 PL Modell)
- Rasch-Modelle sind im Large-Scale-Assessment bei der Skalierung von Kompetenztests weit verbreitet (PISA, IQB-Bildungstrend, NEPS...)
- Rasch-Homogenität: Antworten auf alle Items eines Tests liegt genau eine latente Variable zugrunde liegt.
- Die Item-schwierigkeiten (βi) und die latente Personenvariable (θp) erzeugen die Unterschiede im Antwortverhalten der verschiedenen Personen.
- Formel der Lösungswahrscheinlichkeit eines Items: P(Xpi = 1 | θp) = exp(θp - βi) / (1 + exp(θp - βi))
Item Characteristic Curve (ICC)
- Die Item Characteristic Curve (ICC) oder Item Response Function (IRF) zeigt die Wahrscheinlichkeit, ein Item korrekt zu beantworten, als Funktion der Personenfähigkeit.
- Für dichotome Items wird ein Item auf einer gemeinsamen Personen-Item-Skala verortet, auf der die Lösungswahrscheinlichkeit P = 0.50 beträgt.
Rechenbeispiel
- Die Lösungswahrscheinlichkeit bei einem mittelschweren Items und durchschnittlicher Fähigkeit beträgt 0.5.
- Die Lösungswahrscheinlichkeit bei einem mittelschweren Item und einer Personenfähigkeit von θp = .50 beträgt 0.622.
Wright Map
- IRT verortet Items und Personen auf einer gemeinsamen Skala (Joint Scale).
- Negative Logits bedeuten eine geringe Fähigkeit der Person und ein leichtes Item (= hohe statistische Schwierigkeit).
Spezifische Objektivität
- Im Rasch-Modell weisen die IC-Funktionen aller Items die gleiche Form auf und sind lediglich horizontal entlang der Abszisse (Joint Scale) parallel verschoben sind
- Alle Items messen in gleichem Maße dasselbe Personenmerkmal, aber auf verschiedenen Schwierigkeitsstufen.
- Ein Vergleich der Fähigkeitsparameterausprägungen θp und θq zweier Personen p und q kann unabhängig davon erfolgen, ob einfache oder schwierige Items verwendet werden.
- Ein Vergleich der Schwierigkeitsparameter βi und βj zweier Items i und j kann unabhängig davon erfolgen, ob Personen mit niedrigen oder hohen Ausprägungen der Personenvariable untersucht wurden.
Lokale stochastische Unabhängigkeit
- Die Antworten auf zwei beliebige Rasch-homogene Items i und j bei gegebener Personenvariable θ sind paarweise voneinander unabhängig.
- Die Wahrscheinlichkeit einer konkreten Antwort auf Item i darf nicht von einer konkreten Antwort auf ein anderes Item j abhängen (keine Abhängigkeiten zwischen den Items/keine Kettenaufgaben).
- Ebenso darf die Wahrscheinlichkeit einer konkreten Antwort von Person p nicht von der konkreten Antwort einer anderen Person q abhängen (keine Abhängigkeiten zwischen den Personen/kein Abschreiben).
- Formal ist die Wahrscheinlichkeit der Antworten der Items i und j ebenso groß ist wie das Produkt der Einzelwahrscheinlichkeiten: P(Yi = yi, Yj = yj | θ) = P(Yi = yi | θ) * P(Yj = yj | θ)
- Das Ausmaß der Verletzung an über Yen's Q3-Statistik quantifiziert werden r(Xi – θ,Xj – θ).
Birnbaum Modell (2 PL Modell)
- Schwierigkeitsparameter (β) und Diskriminationsparameter (α)
Formel des 2PL Modells
- P(Xpi = 1 | θp) = exp[αi * (θp - βi)] / (1 + exp[αi * (θp - βi)])
- Die ICCs haben unterschiedliche Diskriminationsparameter und somit unterschiedliche Steigungen. Je höher der Diskriminationsparameter, desto höher die Steigung.
Item Response Theory (IRT
- IRT Modelle nutzen eine logistische Funktion
- Es gibt 4 PL Parameter
- a = Diskriminationsparameter (Steigung der Kurve)
- b = Schwierigkeit (Position der Kurve)
- c = Raten (untere Asymptote der Kurve)
- d = Ausrutscher (obere Asymptote der Kurve)
Andere eindimensionale IRT Modelle
- Rasch-Modell-Diskriminationsparameter ist für alle Items identisch (auf eins fixiert)
- Birnbaum-Modell-Erweiterung des Rasch-Modells-Diskriminationsparameter ist frei geschätzt
- Partial-Credit-Modell (PCM)-Erweiterung des Rasch-Modells-Diskriminationsparameter ist für alle Items identisch, Schwellenparameter sind frei geschätzt, Anzahl der Kategorien müssen für alle Items gleich sein
- Generalized Partial-Credit-Modell (GPCM)-Erweiterung des PCM und des Birnbaum-Modells-Diskriminationsparameter ist frei geschätzt, Schwellenparameter sind frei geschätzt, Anzahl der Kategorien müssen für alle Items gleich sein
- Rating-Scale-Modell (RSM)-Erweiterung des Rasch-Modells und Spezialfall des PCM-Diskriminationsparameter ist für alle Items identisch, Schwellenparameter sind frei geschätzt, die Abstände zwischen den Schwellen innerhalb eines Items können unterschiedlich sein, ihre paarweisen Differenzen über die Items hinweg müssen jedoch identisch sein, Anzahl der Kategorien müssen für alle Items gleich sein
- Graded-Response-Modell (GRM)-Erweiterung des RSM und des Birnbaum-Modells-Diskriminationsparameter ist frei geschätzt, Schwellenparameter sind frei geschätzt, Anzahl der Kategorien können unterschiedlich sein
Zusammenfassung der Voraussetzungen
- Unidimensionalität: Es gibt eine latente Variable, die das Antwortverhalten bei einem Item bestimmt. Es gibt keine weiteren latenten Variablen, die einen systematischen Einfluss ausüben. Kann mittels konfirmatorischer Faktorenanalyse auf Itemebene überprüft werden (Erweiterung: MIRT).
- Lokale stochastische Unabhängigkeit: Für einen gegebenen Wert der latenten Variable lässt sich die Antwortwahrscheinlichkeit für mehrere Items als Produkt der Antwortwahrscheinlichkeiten der Einzelitems zerlegen. Korrelationen werden ausschließlich durch die latente Variable bestimmt (Testaufgaben, die aufeinander aufbauen, verletzen diese Annahme – in diesem Fall sollten andere Modelle benutzt werden (Erweiterung: Testlet-Modelle).
KTT vs. IRT
- Kontinuierliche Itemvariablen: KTT bietet eine definite Option (+), während IRT eine bedingte Option (+) bietet
- Kategoriale Itemvariablen: KTT bietet eine bedingte Option (+), während IRT eine definite Option (+) bietet.
- IC-Funktion: KTT bietet eine lineare Option, während IRT eine logistische Option bietet
- Lokale stochastische Unabhängigkeit: KTT bietet eine schwächere Annahme unkorrelierter Messfehler in (+) und IRT eine definite Option (+)
- Spezifische Objektivität von Vergleichen: KTT bietet eine bedingte Option (+), sofern Diskriminationsparameter identisch ist und IRT eine weitere bedingte Option (+), sofern Diskriminationsparameter identisch ist.
- Stichprobenunabhängigkeit der Parameterschätzungen: Sowohl KTT als auch IRT bieten eine definite Option (+).
- Reliabilität der Testwertvariablen: Sowohl KTT (+), basierend auf Varianz Zerlegung, als auch IRT (+), basierend auf Item- und Testinformation, bieten definitve Optionen.
- Adaptives Testen: KTT bietet bedingte (+) und IRT eine definitive Option (+).
- Modelltests: Sowohl KTT als auch IRT bieten eine definite Option (+).
- Eindimensionale Messmodelle: Sowohl KTT als auch IRT bieten eine definite Option (+)..
- Mehrdimensionale Messmodelle: Sowohl KTT als auch IRT bieten eine definite Option (+).
- Einordnung in ein übergreifendes Konzept: Sowohl KTT als auch IRT bieten eine definite Option (+).
IRT Modellierung in R
- Es gibt verschiedene R Pakete wie https://cran.r-project.org/web/views/Psychometrics.html.
- Empfehlung: TAM (Test Analysis Modules) von T. Kiefer, A. Robitzsch, M. Wu.
- Tutorial: http://www.edmeasurementsurveys.com/TAM/Tutorials/
- TAM schätzt ein- und mehrdimensionale IRT Modelle, 4 PL Modelle, Multifacetten-Modelle, Latente Regressionsmodelle und PV-Ziehung, u.v.a.m. tam.mml: MML-estimation with fixed slopes tam.mml.2pl: MML-estimation with varying slopes
Beispiel für IRT-Modellierung
- Im VC findet sich ein Datensatz gff.dat mit den Antworten von 1.000 Personen auf 16 Items
1 PL Modell
## Rasch model = 1 PL model
mod1 <- tam.mml(resp=dat.gff, irtmodel="1PL")
summary(mod1)
2 PL Modell
## Birnbaum model = 2 PL model
mod2 <- tam.mml.2pl(resp=dat.gff, irtmodel="2PL")
summary(mod2)
IRT to CFA
- Für IRT zu CFA (Confirmatory Factor Analysis) und umgekehrt sind Transformationen und Standardisierungen erforderlich.
- Die Zusammenhänge zwischen den Parametern können durch Gleichungen ausgedrückt werden
- Die Umrechnung erfordert, dass θ standardisiert für alle Itemparameter ist. Wenn Logit-Transformation verwendet wird, dann ist D = 1.7.
Rechenbeispiel für Item 2 im 2PL-Modell
a2 <- 1.772
D <- 1.7
l2 <- (a2/D)/sqrt(1+(a2/D)^2)
12
[1] 0.7216151
CFA Modell mit WLSMV (Weighted Least Squares Mean and Variance adjusted)
- Latent Variables:
Estimate Std.Err z-value P(>|z|) Std.lv Std.all
lv =~
item1 1.000 0.670 0.670
item2 1.085 0.089 12.260 0.000 0.727 0.727
item3 0.630 0.079 7.955 0.000 0.422 0.422
item4 0.866 0.077 11.321 0.000 0.580 0.580
item5 0.935 0.079 11.879 0.000 0.626 0.626
item6 1.012 0.083 12.252 0.000 0.678 0.678
item7 1.046 0.085 12.319 0.000 0.701 0.701
item8 1.155 0.087 13.276 0.000 0.774 0.774
item9 0.635 0.069 9.150 0.000 0.425 0.425
item10 0.960 0.081 11.805 0.000 0.643 0.643
IRT Item-Fit Statistiken - Infit (1)
- Infit bezieht sich auf die empirische Passung eines Items in Bezug auf die erwarteten Werte und berücksichtigt vor allem Antwortmuster in der Nähe der aktuellen Fähigkeitsstufe der Testteilnehmenden.
- Infit < 1: Overfit (Ãœberanpassung).
- Infit > 1: Underfit (Unteranpassung).
IRT Item-Fit Statistiken – Infit (2)
- Infit bezieht sich auf die empirische Passung eines Items in Bezug auf die erwarteten Werte und berücksichtigt vor allem die Passung der Antwortmuster in der Nähe der aktuellen Fähigkeitsstufe des Testteilnehmenden.
- Der Infit gewichtet Abweichungen im Fähigkeitsbereich sensivitiver, in dem das Item am meisten Information liefert.
IRT Itemselektion – Infit
- < 0.7 überangepasstes Item, Item ist zu "perfekt"
- ~ 1 optimal
- < 1.15 OK
- 1.15-1.2 Alarmstufe "gelb" (je nach Phase der Testentwicklung)
-
1.2 ausschließen
IRT Itemselektion – Outfit
– Outfit bezieht sich auf die empirische Passung eines Items über den gesamten Fähigkeitsbereich hinweg.
- Overfit für imputierte Daten, Underfit (Unteranpassung) für "Glückstreffer" oder oberflächliche Bearbeitung (C/IER = Careless/Inattentive Effort Responding)
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.