Untitled
41 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Warum ist die Item-Response-Theorie (IRT) in Large-Scale Assessments (LSA) wie PISA so verbreitet?

  • Weil sie eine einfache Individualdiagnostik ermöglicht.
  • Weil sie die Notwendigkeit von wiederholten Testungen überflüssig macht.
  • Weil sie erlaubt, Testergebnisse verschiedener Testversionen auf eine gemeinsame Metrik zu bringen. (correct)
  • Weil sie kostengünstiger in der Anwendung ist als andere testtheoretische Modelle.

Bei der IRT sind Individualdiagnostiken notwendig, um korrekte Analysen durchzuführen.

False (B)

Was versteht man unter 'Verlinkung' im Kontext von wiederholten Testungen bei Large-Scale Assessments?

Verknüpfung der Ergebnisse über die Zeit

Bei der Erstellung von Testheften in Large-Scale Assessments werden Aufgabenblöcke auch als ______ bezeichnet.

<p>Blocks</p> Signup and view all the answers

Welches Problem kann bei einem 'unbalanced' Booklet Design auftreten?

<p>Es fehlen Kovarianzen zwischen bestimmten Aufgabenblöcken. (C)</p> Signup and view all the answers

Ein 'balanced' Booklet Design führt immer zu ungenaueren Parameterschätzungen.

<p>False (B)</p> Signup and view all the answers

Ordnen Sie die folgenden Konzepte der Item-Response-Theorie (IRT) ihrer Beschreibung zu:

<p>Domain Sampling = Gute Konstruktabdeckung durch vielfältige Items. Trendanalysen = Verlaufsmessungen über wiederholte Testungen. Einstreuaufgaben = Aufgaben zur statistischen Absicherung innerhalb der Testhefte. Booklet Designs = Zusammenstellung von Aufgabenblöcken zu Testheften.</p> Signup and view all the answers

Was beschreibt die Item Characteristic Curve (ICC) oder Item Response Function (IRF) im Kontext des Rasch-Modells am besten?

<p>Die Wahrscheinlichkeit, ein Item korrekt zu beantworten als Funktion der Personenfähigkeit. (D)</p> Signup and view all the answers

Im Rasch-Modell haben alle Items unterschiedliche Formen von IC-Funktionen, die sich nicht parallel entlang der Abszisse verschieben.

<p>False (B)</p> Signup and view all the answers

Auf welcher Skala werden Items und Personen im IRT Modell verortet?

<p>Joint Scale</p> Signup and view all the answers

Negative Logits entsprechen einer ______ Fähigkeit der Person und einem leichten Item.

<p>geringen</p> Signup and view all the answers

Ordnen Sie die Konzepte ihren Beschreibungen im Kontext des Rasch-Modells zu:

<p>θp = Personenfähigkeit βi = Itemschwierigkeit P(Xpi = 1|θp) = Wahrscheinlichkeit, dass Person p Item i korrekt beantwortet, gegeben ihrer Fähigkeit θp Joint Scale = Gemeinsame Skala für Items und Personen</p> Signup and view all the answers

Was bedeutet es, wenn im Rasch-Modell die Lösungswahrscheinlichkeit P = 0.50 beträgt?

<p>Das Item und die Person sind auf der gleichen Höhe der Fähigkeitsskala. (C)</p> Signup and view all the answers

Im Rasch-Modell wird die Varianz der Itemschwierigkeiten ignoriert, um spezifische Objektivität zu erreichen.

<p>True (A)</p> Signup and view all the answers

Nennen Sie den Parameter der im IRT Modell im Text genannt wird.

<p>Schwierigkeitsparameter</p> Signup and view all the answers

Die Item Characteristic Curve (ICC) wird auch als ______ bezeichnet.

<p>Item Response Function (IRF)</p> Signup and view all the answers

Welche Aussage trifft auf die spezifische Objektivität im Rasch-Modell zu?

<p>Alle Items messen das gleiche Personenmerkmal auf unterschiedlichen Schwierigkeitsstufen. (A)</p> Signup and view all the answers

Welche Aussage trifft nicht auf die Vorteile eines Booklet-Designs zu, bei dem jeder Block einmal an jeder Position erscheint?

<p>Es eignet sich gut für die Administration in zwei gleich langen Sitzungen. (B)</p> Signup and view all the answers

IRT ermöglicht keine Schätzung latenter Merkmale auf einer kontinuierlichen Skala.

<p>False (B)</p> Signup and view all the answers

Nennen Sie einen Vorteil des adaptiven Testens im Kontext der klinischen Diagnostik.

<p>Höhere Testeffizienz/Reduzierte Belastung der Patient:innen</p> Signup and view all the answers

Bei der Paralleltestkonstruktion mit einem MCAR-Design bearbeitet jede:r Teilnehmer:in ein ______ Set an Items.

<p>unterschiedliches</p> Signup and view all the answers

Ordnen Sie die folgenden statistischen Verfahren den entsprechenden Kombinationen von beobachteten und latenten Variablen zu:

<p>Latent Class Analysis = Diskrete beobachtete Variable, diskrete latente Variable Item Response Theory = Diskrete beobachtete Variable, kontinuierliche latente Variable Latent Profile Analysis = Kontinuierliche beobachtete Variable, diskrete latente Variable Factor Analysis = Kontinuierliche beobachtete Variable, kontinuierliche latente Variable</p> Signup and view all the answers

Was bedeutet 'MCAR' im Kontext von Testdesigns?

<p>Missing Completely At Random (A)</p> Signup and view all the answers

IRT ist im Prinzip eine Regressionsanalyse für kategoriale Daten

<p>False (B)</p> Signup and view all the answers

Was versteht man unter 'bedingter Reliabilität' im Kontext von Item-Response-Theorie (IRT)?

<p>Reliabilität in Abhängigkeit vom Fähigkeitsniveau</p> Signup and view all the answers

Welcher Vorteil ergibt sich aus der Verwendung von adaptiven Tests in der klinischen Diagnostik nicht?

<p>Ermöglicht die Messpräzision auf allen Fähigkeitsniveaus. (B)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt die lokale stochastische Unabhängigkeit nicht korrekt?

<p>Die Schwierigkeit eines Items beeinflusst die Wahrscheinlichkeit der Antwort einer Person auf ein anderes Item. (D)</p> Signup and view all the answers

Beim Birnbaum-Modell (2PL-Modell) haben alle Items den gleichen Diskriminationsparameter.

<p>False (B)</p> Signup and view all the answers

Mit welcher Statistik kann das Ausmaß der Verletzung der lokalen stochastischen Unabhängigkeit quantifiziert werden?

<p>Yens Q3-Statistik</p> Signup and view all the answers

Im Birnbaum-Modell (2PL-Modell) beeinflusst der ______ die Steigung der Item Characteristic Curve (ICC).

<p>Diskriminationsparameter</p> Signup and view all the answers

Ordnen Sie jedem Parameter die entsprechende Beschreibung zu.

<p>θp = Fähigkeitsparameter der Person p βi = Schwierigkeitsparameter des Items i αi = Diskriminationsparameter des Items i P(Xpi = 1|θp ) = Wahrscheinlichkeit, dass Person p Item i richtig beantwortet, gegeben ihre Fähigkeit θp</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten die Beziehung zwischen einer latenten Variable und den beobachteten Variablen in einem CFA-Modell?

<p>Eine Veränderung um eine Einheit in der latenten Variable führt zu einer Veränderung in der erwarteten Antwort um einen Wert λ. (C)</p> Signup and view all the answers

Die Annahme linearer Beziehungen im CFA-Modell ist uneingeschränkt auch für binäre oder kategoriale Daten geeignet.

<p>False (B)</p> Signup and view all the answers

Was ist der grundlegende Unterschied zwischen der Herangehensweise der IRT im Vergleich zur klassischen Testtheorie (KTT) bezüglich des Antwortverhaltens?

<p>IRT berücksichtigt sowohl Itemeigenschaften als auch die Merkmalsausprägung der Person.</p> Signup and view all the answers

In der IRT gibt es einen ______ Zusammenhang zwischen der Fähigkeit eines Probanden (θp) und der Lösungswahrscheinlichkeit eines Items.

<p>nicht-linearen</p> Signup and view all the answers

Ordnen Sie die folgenden Konzepte der IRT ihren entsprechenden Beschreibungen zu:

<p>Itemschwierigkeit = Ein Parameter, der angibt, wie schwierig ein Item zu lösen ist. Merkmalsausprägung (θp) = Die Fähigkeit oder das Ausmaß, in dem eine Person ein bestimmtes Merkmal besitzt. Logit-Transformation = Eine Funktion, die Wahrscheinlichkeiten in einen kontinuierlichen Wertebereich transformiert (-∞ bis +∞). Rasch-Homogenität = Annahme, dass Antworten auf alle Items eines Tests genau einer latenten Variable zugrunde liegen.</p> Signup and view all the answers

Was ist der Zweck der Logit-Transformation in vielen IRT-Modellen?

<p>Die Transformation von Lösungswahrscheinlichkeiten auf einen Wertebereich von -∞ bis +∞. (D)</p> Signup and view all the answers

Im Rasch-Modell wird angenommen, dass verschiedene latente Variablen die Antworten auf die Items eines Tests beeinflussen können.

<p>False (B)</p> Signup and view all the answers

Nennen Sie ein Beispiel für einen Anwendungsbereich, in dem Rasch-Modelle häufig eingesetzt werden.

<p>Large-Scale-Assessments wie PISA oder IQB-Bildungstrend.</p> Signup and view all the answers

Was ist die mathematische Formel für die Logit-Transformation?

<p>$logit(p) = log (p/(1-p))$ (D)</p> Signup and view all the answers

Wo sind die Unterschiede zwischen den linearen und logit-transformierten Werten am grössten?

<p>In den Extrem Bereichen. (B)</p> Signup and view all the answers

Flashcards

Item-Response-Theorie (IRT)

Ein testtheoretischer Ansatz, der sich auf die Eigenschaften einzelner Items und deren Beziehung zu den Fähigkeiten der Testperson konzentriert.

IRT im Large-Scale Assessment (LSA)

Ermöglicht die Verwendung von Items aus verschiedenen Testversionen und deren Vergleichbarkeit auf einer gemeinsamen Metrik.

Konstruktabdeckung (Domain Sampling)

Die gezielte Auswahl von Inhalten, um sicherzustellen, dass ein Test ein breites Spektrum des zu messenden Konstrukts abdeckt.

Trendanalysen (Verlaufsmessung)

Wiederholte Tests, bei denen Veränderungen über die Zeit gemessen werden.

Signup and view all the flashcards

Verlinkung (Verknüpfung)

Die Verknüpfung von Ergebnissen aus verschiedenen Testzeitpunkten, um Veränderungen oder Entwicklungen über die Zeit zu analysieren.

Signup and view all the flashcards

Aufgabenblöcke (Blocks) & Testhefte (Booklets)

Mehrere Aufgabenblöcke, die zu verschiedenen Testheften zusammengestellt werden können.

Signup and view all the flashcards

Multiple Matrix Booklet Designs

Ein Testdesign, bei dem nicht alle Teilnehmer alle Aufgaben bearbeiten.

Signup and view all the flashcards

Booklet Design Vorteil

Jeder Testblock erscheint einmal an jeder Position und mit jedem anderen Block.

Signup and view all the flashcards

Booklet Design Nachteil

Eignet sich nicht gut, wenn Tests in zwei gleich lange Sitzungen unterteilt werden sollen.

Signup and view all the flashcards

IRT Personparameter-Schätzung

Ermöglicht Schätzung latenter Merkmale (z. B. Depression) auf einer kontinuierlichen Skala und liefert präzisere Ergebnisse als Summenbildung.

Signup and view all the flashcards

Adaptives Testen (IRT)

Gezielte Itemauswahl basierend auf bisherigen Antworten, was die Testeffizienz erhöht und die Belastung der Patienten reduziert.

Signup and view all the flashcards

Messpräzision (IRT)

Items können identifiziert werden, die für spezifische Fähigkeits- oder Störungslevel besonders geeignet sind.

Signup and view all the flashcards

MCAR Design

Teilnehmer bearbeiten unterschiedliche Item-Sets, trotzdem Verortung auf einheitlicher Metrik möglich.

Signup and view all the flashcards

Konditionale Reliabilität

Die Reliabilität ist abhängig vom Fähigkeitsniveau der getesteten Person.

Signup and view all the flashcards

IRT und CFA

IRT ist im Prinzip eine CFA (Confirmatory Factor Analysis) für kategoriale Daten.

Signup and view all the flashcards

Probabilistische Testtheorie

Statistische Modelle, die Wahrscheinlichkeiten verwenden, um die Beziehung zwischen den Antworten einer Person auf Testfragen (Items) und ihren zugrunde liegenden Fähigkeiten oder Merkmalen (latente Variablen) zu modellieren

Signup and view all the flashcards

Parametervergleich

Vergleiche von Personen- und Itemparametern können unabhängig von der Schwierigkeit der Items oder den Fähigkeiten der Personen erfolgen.

Signup and view all the flashcards

Lokale stochastische Unabhängigkeit

Die Wahrscheinlichkeit, ein Item korrekt zu beantworten, hängt nicht von der Antwort auf ein anderes Item ab, gegeben die Personenfähigkeit.

Signup and view all the flashcards

Lokale stochastische Unabhängigkeit (zwischen Personen)

Die Wahrscheinlichkeit, ein Item korrekt zu beantworten, hängt nicht von der Antwort einer anderen Person ab, gegeben die Personenfähigkeit.

Signup and view all the flashcards

Birnbaum Modell (2PL)

Ein IRT-Modell mit einem Schwierigkeitsparameter (β) und einem Diskriminationsparameter (α).

Signup and view all the flashcards

ICCs im Birnbaum Modell

Die Item Characteristic Curves (ICCs) können unterschiedliche Steigungen haben, was unterschiedliche Diskriminationsparameter (α) widerspiegelt.

Signup and view all the flashcards

Personenvariable θp

Die latente Personenvariable, die Unterschiede im Antwortverhalten erzeugt.

Signup and view all the flashcards

Rasch-Modell

Ein IRT-Modell mit nur einem Parameter: dem Schwierigkeitsparameter.

Signup and view all the flashcards

Item Characteristic Curve (ICC)

Zeigt die Wahrscheinlichkeit, ein Item korrekt zu beantworten, als Funktion der Personenfähigkeit.

Signup and view all the flashcards

Item-Schwierigkeit (dichotome Items)

Der Punkt, an dem die Lösungswahrscheinlichkeit eines Items P = 0.50 beträgt.

Signup and view all the flashcards

Joint Scale (IRT)

Items und Personen werden auf einer gemeinsamen Skala verortet.

Signup and view all the flashcards

Negative Logits

Geringe Fähigkeit der Person und leichtes Item (hohe statistische Schwierigkeit).

Signup and view all the flashcards

Spezifische Objektivität (Rasch)

Die IC-Funktionen aller Items haben die gleiche Form.

Signup and view all the flashcards

Gleiche Messung, verschiedene Schwierigkeit

Items messen dasselbe Merkmal, aber auf verschiedenen Schwierigkeitsstufen.

Signup and view all the flashcards

Horizontale Verschiebung

Items sind horizontal entlang der Abszisse (Joint Scale) parallel verschoben sind

Signup and view all the flashcards

Itemunterschied

Die Items unterscheiden sich nur in ihrer Schwierigkeit

Signup and view all the flashcards

CFA als lineares Modell

CFA ist ein lineares Modell, wobei eine Veränderung einer latenten Variable eine proportionale Veränderung in der erwarteten Antwort Y verursacht.

Signup and view all the flashcards

IRT Grundidee

In der IRT hängt das Antwortverhalten von den Itemeigenschaften (z.B. Schwierigkeit) und der Merkmalsausprägung der Person ab.

Signup and view all the flashcards

Dichotome Items (IRT)

Dichotome Items in der IRT sind z.B. Ja/Nein-Antworten oder Richtig/Falsch-Antworten.

Signup and view all the flashcards

Logit-Transformation

Die Logit-Transformation wandelt Wahrscheinlichkeiten (0 bis 1) in einen Wertebereich von -∞ bis +∞ um.

Signup and view all the flashcards

Logit-Formel

logit(p) = log (p/(1-p))

Signup and view all the flashcards

Rasch-Modelle Anwendung

Rasch-Modelle sind weit verbreitet in Large-Scale-Assessments wie PISA.

Signup and view all the flashcards

Rasch-Homogenität

Rasch-Homogenität bedeutet, dass Antworten auf alle Items eines Tests genau eine latente Variable zugrunde liegt.

Signup and view all the flashcards

Itemschwierigkeit (IRT)

Itemschwierigkeit ist ein Parameter in IRT, der angibt, wie schwierig ein Item zu lösen ist.

Signup and view all the flashcards

Personenfähigkeit (θp)

Die Personenfähigkeit (θp) repräsentiert die Ausprägung einer Person auf dem gemessenen Merkmal.

Signup and view all the flashcards

Nicht-linearer Zusammenhang (IRT)

Der Zusammenhang zwischen Personenfähigkeit und Lösungswahrscheinlichkeit ist in der IRT nicht-linear.

Signup and view all the flashcards

Study Notes

Item-Response-Theorie (IRT)

  • Die Item-Response-Theorie (IRT) ist ein Thema der psychologischen Diagnostik.

Literatur zur Faktorenanalyse

  • Kelava und Moosbrugger (2020) bieten eine Einführung in die Item-Response-Theorie (IRT) in "Testtheorie und Fragebogenkonstruktion".
  • Die Kapitel 17, 18 und 19 befassen sich mit Themen der IRT-Theorie.
  • Rost (2004) bietet mit "Testtheorie und Testkonstruktion" weitergehende Informationen.

Beliebtheit von IRT in LSA und PISA

  • IRT wird häufig in Large-Scale Assessments (LSA) wie PISA verwendet, weil viele Items in verschiedenen Testversionen verwendet werden können und die Ergebnisse dennoch auf eine Metrik gebracht werden können.
  • IRT bietet eine gute Konstruktabdeckung (Domain Sampling).
  • Es ist keine Individualdiagnostik notwendig, da Klassen, Schulen, Bundesländer oder Staaten die Analyseeinheit bilden.
  • Bei wiederholten Testungen, wie Trendanalysen, ist eine Verlinkung der Ergebnisse über die Zeit notwendig.
  • Mehrfachtestungen sind möglich durch neue Zusammenstellung von Aufgabenblöcken (Blocks) zu Testheften (Booklets).
  • Die Aufgabenentwicklung ist teuer, aber Einstreuaufgaben und Rekombinationsmöglichkeiten sind gegeben.

Booklet Designs

  • Vollständige Matrix-Booklet-Designs können entweder "unbalanced" sein
  • Vollständige Matrix-Booklet-Designs können auch "balanced" sein
  • Unvollständige Matrix-Booklet-Designs gelten als "unbalanced"

Probleme bei Booklet Designs

  • Bei unvollständigen Matrix-Booklet-Designs können Kovarianzen fehlen
  • n(B) = n(A) + n(C) (= ungenauere Parameterschätzungen).

Balanced Incomplete 7-Block Design

  • Es gibt auch eine Möglichkeit, die Designs so zu wählen, dass sie "Balanced" sind.
  • Jeder Block erscheint einmal an jeder Position im Design und einmal mit jedem anderen Block.
  • Ungeeignet für die Administration in zwei gleich langen Sitzungen (ungerade Anzahl an Blöcken für jede Testform)

Anwendung von IRT in der klinischen Diagnostik

  • IRT ermöglicht die Schätzung latenter Merkmale (z. B. Depression, Angst) auf einer kontinuierlichen Skala.
  • Es liefert präzisere Ergebnisse als Summenbildung.
  • Adaptives Testen ermöglicht die gezielte Auswahl von Items basierend auf den bisherigen Antworten (fähigkeitsadaptiv), was die Testeffizienz erhöht und die Belastung der Patienten reduziert.
  • Items können identifiziert werden, die für spezifische Fähigkeits- oder Störungslevel besonders geeignet sind (Messpräzision auf verschiedenen Fähigkeitsniveaus).

Beispiel: Paralleltestkonstruktion Wortschatztest

  • MCAR Design, 60/110 Items = breitere Konstruktabdeckung
  • Jede:r Teilnehmer:in bearbeitet unterschiedliches Set = Verortung auf einer einheitlichen Metrik dennoch möglich
  • Konditionale Reliabilität

Probabilistische Testtheorie

  • Probabilistische Testtheorie entspricht der Item-Response-Theorie.
  • Im Prinzip ist IRT eine CFA für kategoriale Daten.
  • CFA ist ein lineares Modell. Eine Veränderung um eine Einheit auf der latenten Variable zieht eine Veränderung in der erwarteten Antwort um λ nach sich.
  • Diese Annahme funktioniert nicht jedoch mit binären/kategorialen Daten.

Testtheoretische Grundidee

  • Das Antwortverhalten (Response) hängt von Eigenschaften des Items (Itemschwierigkeit) und der Merkmalsausprägung der Person ab.
  • Input sind dichotome Items: z. B. das Bejahen/Nicht-Bejahen einer Aussage in einem klinischen Fragebogen bzw. das Lösen/Nichtlösen einer Aufgabe in einem Leistungstest.
  • Es gibt Erweiterungen auf der mehrkategorialen Fall: Partial-Credit-Scoring, Graded-Reponse-Modell oder ähnliche.
  • Ein non-linearer Zusammenhang zwischen der Fähigkeit eines Probanden (θp) und der Lösungswahrscheinlichkeit: P(Yi = 1 | θp)

Logit-Transformation

  • Viele IRT Modelle transformieren die Lösungswahrscheinlichkeiten zwischen 0 (= löst das Item nie) und 1 (= löst das Item sicher) auf einen Wertebereich von -∞ bis + ∞
  • Die bekannteste Transformation oder Linkfunktion ist die Logit-Transformation: logit(p) = log (p/(1-p))
  • Unterschiede zwischen den linearen und logit-transformierten Werte sind in den Extrembereichen am größten

Rasch-Modell (1 PL Modell)

  • Rasch-Modelle sind im Large-Scale-Assessment bei der Skalierung von Kompetenztests weit verbreitet (PISA, IQB-Bildungstrend, NEPS...)
  • Rasch-Homogenität: Antworten auf alle Items eines Tests liegt genau eine latente Variable zugrunde liegt.
  • Die Item-schwierigkeiten (βi) und die latente Personenvariable (θp) erzeugen die Unterschiede im Antwortverhalten der verschiedenen Personen.
  • Formel der Lösungswahrscheinlichkeit eines Items: P(Xpi = 1 | θp) = exp(θp - βi) / (1 + exp(θp - βi))

Item Characteristic Curve (ICC)

  • Die Item Characteristic Curve (ICC) oder Item Response Function (IRF) zeigt die Wahrscheinlichkeit, ein Item korrekt zu beantworten, als Funktion der Personenfähigkeit.
  • Für dichotome Items wird ein Item auf einer gemeinsamen Personen-Item-Skala verortet, auf der die Lösungswahrscheinlichkeit P = 0.50 beträgt.

Rechenbeispiel

  • Die Lösungswahrscheinlichkeit bei einem mittelschweren Items und durchschnittlicher Fähigkeit beträgt 0.5.
  • Die Lösungswahrscheinlichkeit bei einem mittelschweren Item und einer Personenfähigkeit von θp = .50 beträgt 0.622.

Wright Map

  • IRT verortet Items und Personen auf einer gemeinsamen Skala (Joint Scale).
  • Negative Logits bedeuten eine geringe Fähigkeit der Person und ein leichtes Item (= hohe statistische Schwierigkeit).

Spezifische Objektivität

  • Im Rasch-Modell weisen die IC-Funktionen aller Items die gleiche Form auf und sind lediglich horizontal entlang der Abszisse (Joint Scale) parallel verschoben sind
  • Alle Items messen in gleichem Maße dasselbe Personenmerkmal, aber auf verschiedenen Schwierigkeitsstufen.
  • Ein Vergleich der Fähigkeitsparameterausprägungen θp und θq zweier Personen p und q kann unabhängig davon erfolgen, ob einfache oder schwierige Items verwendet werden.
  • Ein Vergleich der Schwierigkeitsparameter βi und βj zweier Items i und j kann unabhängig davon erfolgen, ob Personen mit niedrigen oder hohen Ausprägungen der Personenvariable untersucht wurden.

Lokale stochastische Unabhängigkeit

  • Die Antworten auf zwei beliebige Rasch-homogene Items i und j bei gegebener Personenvariable θ sind paarweise voneinander unabhängig.
  • Die Wahrscheinlichkeit einer konkreten Antwort auf Item i darf nicht von einer konkreten Antwort auf ein anderes Item j abhängen (keine Abhängigkeiten zwischen den Items/keine Kettenaufgaben).
  • Ebenso darf die Wahrscheinlichkeit einer konkreten Antwort von Person p nicht von der konkreten Antwort einer anderen Person q abhängen (keine Abhängigkeiten zwischen den Personen/kein Abschreiben).
  • Formal ist die Wahrscheinlichkeit der Antworten der Items i und j ebenso groß ist wie das Produkt der Einzelwahrscheinlichkeiten: P(Yi = yi, Yj = yj | θ) = P(Yi = yi | θ) * P(Yj = yj | θ)
  • Das Ausmaß der Verletzung an über Yen's Q3-Statistik quantifiziert werden r(Xi – θ,Xj – θ).

Birnbaum Modell (2 PL Modell)

  • Schwierigkeitsparameter (β) und Diskriminationsparameter (α)

Formel des 2PL Modells

  • P(Xpi = 1 | θp) = exp[αi * (θp - βi)] / (1 + exp[αi * (θp - βi)])
  • Die ICCs haben unterschiedliche Diskriminationsparameter und somit unterschiedliche Steigungen. Je höher der Diskriminationsparameter, desto höher die Steigung.

Item Response Theory (IRT

  • IRT Modelle nutzen eine logistische Funktion
  • Es gibt 4 PL Parameter
  • a = Diskriminationsparameter (Steigung der Kurve)
  • b = Schwierigkeit (Position der Kurve)
  • c = Raten (untere Asymptote der Kurve)
  • d = Ausrutscher (obere Asymptote der Kurve)

Andere eindimensionale IRT Modelle

  • Rasch-Modell-Diskriminationsparameter ist für alle Items identisch (auf eins fixiert)
  • Birnbaum-Modell-Erweiterung des Rasch-Modells-Diskriminationsparameter ist frei geschätzt
  • Partial-Credit-Modell (PCM)-Erweiterung des Rasch-Modells-Diskriminationsparameter ist für alle Items identisch, Schwellenparameter sind frei geschätzt, Anzahl der Kategorien müssen für alle Items gleich sein
  • Generalized Partial-Credit-Modell (GPCM)-Erweiterung des PCM und des Birnbaum-Modells-Diskriminationsparameter ist frei geschätzt, Schwellenparameter sind frei geschätzt, Anzahl der Kategorien müssen für alle Items gleich sein
  • Rating-Scale-Modell (RSM)-Erweiterung des Rasch-Modells und Spezialfall des PCM-Diskriminationsparameter ist für alle Items identisch, Schwellenparameter sind frei geschätzt, die Abstände zwischen den Schwellen innerhalb eines Items können unterschiedlich sein, ihre paarweisen Differenzen über die Items hinweg müssen jedoch identisch sein, Anzahl der Kategorien müssen für alle Items gleich sein
  • Graded-Response-Modell (GRM)-Erweiterung des RSM und des Birnbaum-Modells-Diskriminationsparameter ist frei geschätzt, Schwellenparameter sind frei geschätzt, Anzahl der Kategorien können unterschiedlich sein

Zusammenfassung der Voraussetzungen

  • Unidimensionalität: Es gibt eine latente Variable, die das Antwortverhalten bei einem Item bestimmt. Es gibt keine weiteren latenten Variablen, die einen systematischen Einfluss ausüben. Kann mittels konfirmatorischer Faktorenanalyse auf Itemebene überprüft werden (Erweiterung: MIRT).
  • Lokale stochastische Unabhängigkeit: Für einen gegebenen Wert der latenten Variable lässt sich die Antwortwahrscheinlichkeit für mehrere Items als Produkt der Antwortwahrscheinlichkeiten der Einzelitems zerlegen. Korrelationen werden ausschließlich durch die latente Variable bestimmt (Testaufgaben, die aufeinander aufbauen, verletzen diese Annahme – in diesem Fall sollten andere Modelle benutzt werden (Erweiterung: Testlet-Modelle).

KTT vs. IRT

  • Kontinuierliche Itemvariablen: KTT bietet eine definite Option (+), während IRT eine bedingte Option (+) bietet
  • Kategoriale Itemvariablen: KTT bietet eine bedingte Option (+), während IRT eine definite Option (+) bietet.
  • IC-Funktion: KTT bietet eine lineare Option, während IRT eine logistische Option bietet
  • Lokale stochastische Unabhängigkeit: KTT bietet eine schwächere Annahme unkorrelierter Messfehler in (+) und IRT eine definite Option (+)
  • Spezifische Objektivität von Vergleichen: KTT bietet eine bedingte Option (+), sofern Diskriminationsparameter identisch ist und IRT eine weitere bedingte Option (+), sofern Diskriminationsparameter identisch ist.
  • Stichprobenunabhängigkeit der Parameterschätzungen: Sowohl KTT als auch IRT bieten eine definite Option (+).
  • Reliabilität der Testwertvariablen: Sowohl KTT (+), basierend auf Varianz Zerlegung, als auch IRT (+), basierend auf Item- und Testinformation, bieten definitve Optionen.
  • Adaptives Testen: KTT bietet bedingte (+) und IRT eine definitive Option (+).
  • Modelltests: Sowohl KTT als auch IRT bieten eine definite Option (+).
  • Eindimensionale Messmodelle: Sowohl KTT als auch IRT bieten eine definite Option (+)..
  • Mehrdimensionale Messmodelle: Sowohl KTT als auch IRT bieten eine definite Option (+).
  • Einordnung in ein übergreifendes Konzept: Sowohl KTT als auch IRT bieten eine definite Option (+).

IRT Modellierung in R

Beispiel für IRT-Modellierung

  • Im VC findet sich ein Datensatz gff.dat mit den Antworten von 1.000 Personen auf 16 Items

1 PL Modell

## Rasch model = 1 PL model
mod1 <- tam.mml(resp=dat.gff, irtmodel="1PL")
summary(mod1)

2 PL Modell

## Birnbaum model = 2 PL model
mod2 <- tam.mml.2pl(resp=dat.gff, irtmodel="2PL")
summary(mod2)

IRT to CFA

  • Für IRT zu CFA (Confirmatory Factor Analysis) und umgekehrt sind Transformationen und Standardisierungen erforderlich.
  • Die Zusammenhänge zwischen den Parametern können durch Gleichungen ausgedrückt werden
  • Die Umrechnung erfordert, dass θ standardisiert für alle Itemparameter ist. Wenn Logit-Transformation verwendet wird, dann ist D = 1.7.

Rechenbeispiel für Item 2 im 2PL-Modell

a2 <- 1.772
D <- 1.7
l2 <- (a2/D)/sqrt(1+(a2/D)^2)
12
[1] 0.7216151

CFA Modell mit WLSMV (Weighted Least Squares Mean and Variance adjusted)

  • Latent Variables:
Estimate Std.Err z-value P(>|z|) Std.lv Std.all 
lv =~ 
item1 1.000 0.670 0.670 
item2 1.085 0.089 12.260 0.000 0.727 0.727 
item3 0.630 0.079 7.955 0.000 0.422 0.422 
item4 0.866 0.077 11.321 0.000 0.580 0.580 
item5 0.935 0.079 11.879 0.000 0.626 0.626 
item6 1.012 0.083 12.252 0.000 0.678 0.678 
item7 1.046 0.085 12.319 0.000 0.701 0.701 
item8 1.155 0.087 13.276 0.000 0.774 0.774 
item9 0.635 0.069 9.150 0.000 0.425 0.425 
item10 0.960 0.081 11.805 0.000 0.643 0.643

IRT Item-Fit Statistiken - Infit (1)

  • Infit bezieht sich auf die empirische Passung eines Items in Bezug auf die erwarteten Werte und berücksichtigt vor allem Antwortmuster in der Nähe der aktuellen Fähigkeitsstufe der Testteilnehmenden.
  • Infit < 1: Overfit (Ãœberanpassung).
  • Infit > 1: Underfit (Unteranpassung).

IRT Item-Fit Statistiken – Infit (2)

  • Infit bezieht sich auf die empirische Passung eines Items in Bezug auf die erwarteten Werte und berücksichtigt vor allem die Passung der Antwortmuster in der Nähe der aktuellen Fähigkeitsstufe des Testteilnehmenden.
  • Der Infit gewichtet Abweichungen im Fähigkeitsbereich sensivitiver, in dem das Item am meisten Information liefert.

IRT Itemselektion – Infit

  • < 0.7 überangepasstes Item, Item ist zu "perfekt"
  • ~ 1 optimal
  • < 1.15 OK
  • 1.15-1.2 Alarmstufe "gelb" (je nach Phase der Testentwicklung)
  • 1.2 ausschließen

IRT Itemselektion – Outfit

– Outfit bezieht sich auf die empirische Passung eines Items über den gesamten Fähigkeitsbereich hinweg.

  • Overfit für imputierte Daten, Underfit (Unteranpassung) für "Glückstreffer" oder oberflächliche Bearbeitung (C/IER = Careless/Inattentive Effort Responding)

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Untitled
110 questions

Untitled

ComfortingAquamarine avatar
ComfortingAquamarine
Untitled
44 questions

Untitled

ExaltingAndradite avatar
ExaltingAndradite
Untitled
6 questions

Untitled

StrikingParadise avatar
StrikingParadise
Untitled Quiz
50 questions

Untitled Quiz

JoyousSulfur avatar
JoyousSulfur
Use Quizgecko on...
Browser
Browser