DISK VL - Wilbert - Psychometrie und Pädagogische Diagnostik

Summary

This document summarizes a lecture on psychometrics and educational diagnostics, covering topics such as phrenology and the history of intelligence tests. The lecture notes provide insight into the development of these concepts and their applications in diverse fields.

Full Transcript

**1.** **Sitzung: Einstieg -- Grundlagen der Psychometrie & Pädagogischen Diagnostik** **Phrenologie** - **Begründer**: Franz Joseph Gall (1758--1828) - **Grundannahme**: Form & Größe des Schädels zeigen Eigenschaften des Gehirns =Rückschlüsse auf Persönlichkeit & geistige Fähigkeiten. -...

**1.** **Sitzung: Einstieg -- Grundlagen der Psychometrie & Pädagogischen Diagnostik** **Phrenologie** - **Begründer**: Franz Joseph Gall (1758--1828) - **Grundannahme**: Form & Größe des Schädels zeigen Eigenschaften des Gehirns =Rückschlüsse auf Persönlichkeit & geistige Fähigkeiten. - **Kernidee**: - Gehirn besteht aus verschiedenen „Organen", die jeweils spezifische Charakterzüge steuern. - [Größe] der Hirnregionen = [Stärke] der jeweiligen Eigenschaft. - **Einfluss auf Diagnostik**: - Erster Versuch, psychologische Merkmale wissenschaftlich zu erfassen. - Legte Grundlagen für spätere psychometrische Methoden. - **Gesellschaftliche Auswirkungen**: - Im 19. Jahrhundert weit verbreitet. - Diente zur Rechtfertigung sozialer Ungleichheiten & verwerflicher Theorien (z.B. Rassenlehre & Eugenik). - **Widerlegung und Übergang zu modernen Ansätzen:** - Neurowissenschaft im 20. Jahrhundert widerlegte die Phrenologie: Schädelstruktur sagt nichts über kognitive Fähigkeiten aus!!! = **Neuroplastizität** zeigte, dass das Gehirn sich *[anpassen und verändern]* kann. - **Nachwirkungen in der Neurowissenschaft**: - Die Idee der *funktionalen Differenzierung* des Gehirns blieb relevant. - Moderne Forschung bestätigt spezifische Hirnregionen für Funktionen, - \>\> z.B. **Broca-Areal** (Sprachartikulation) & **Wernicke-Areal** (Sprachverständnis). **Entwicklung der Intelligenztests** **[Um 1860: Erste Ansätze zur Messung intellektueller Leistungen]** - **Francis Galton** (1822--1911) - ![](media/image2.jpeg)Eugeniker (prägte den Begriff Eugenik) & Statistiker, Soziologe, Psychologe - Entwickelte den **ersten standardisierten Test für intellektuelle Fähigkeiten** - **Grundannahme**: Intelligenz zeigt sich durch sensorische Fähigkeiten wie: - *Reaktionsgeschwindigkeit* auf Reize - *Sensorische Diskrimination* (z.B. Vergleich von Gewichten) **[Um 1900: Entwicklung des modernen Intelligenztests]** - **Französische Psychologen: Alfred Binet** (1857--1911) & **Theodore Simon** (1873--1961) - Entwickelten den **[ersten Intelligenztest]**: **Binet-Simon-Skalen** - **Kontext**: Einführung der [Schulpflicht] in Frankreich & [Regierungsauftrag]: Test zur Identifizierung von Kindern mit Lernproblemen, um gezielte Förderung zu ermöglichen **[Binet-Simon-Test (Entwicklung und Merkmale)]** - Beobachteten mehrere Jahre lang Kinder mit und ohne Lernbehinderung - **Aufgaben:** Sichtbarmachung Unterschiede der Leistungsfähigkeit - **Test:** 50 Kindern (5 Altersgruppen mit je 10 Kindern), die von Lehrern als *durchschnittlich* eingestuft wurden. - **Ergebnis:** [Grundlage für die Definition „normal funktionierender" Kinder] - ![](media/image4.png)Welches Gesicht ist das schönere? \>\>\>\>\>\> **[Binet war sich der Unzulänglichkeit der Tests bewusst: ]** 1. Er betonte die große [Vielfalt der Intelligenz] 2. Notwendigkeit diese [qualitativ] (nicht nur quantitativ) zu untersuchen 3. Intelligenz entwickelt sich [unterschiedlich schnell] 4. Intelligenz kann von der [Umwelt beeinflusst] werden 5. Intelligenz ist [veränderbar] und nicht statisch 6. Intelligenz lässt sich nur zwischen Kindern [mit ähnlichem Hintergrund vergleichen] **[Um 1908 \~ H.H. Goddard ]** - US-amerikanischer Psychologe und Eugeniker (1866--1957) - **Leistungen**: - Übersetzte den Binet-Simon-Test ins Englische (1908) - [Förderung Sonderpädagogik] für Kinder mit Seh-, Hör- und geistiger Beeinträchtigung in den USA - **Einführung Idee:** Menschen mit geringer Intelligenz sollen **begrenzt strafrechtlich verantwortlich** sein. - **Ideologie**: - Rassistisch motiviert: sah den Test als Mittel, um die „[Überlegenheit der weißen Rasse]" zu untermauern **[Um 1916 \~ Lewis Terman ]** - ![](media/image6.jpeg)US-amerikanischer Psychologe und Eugeniker (1877--1956), Stanford University - **Leistungen**: Anpassung & Standardisierung des Binet-Tests für eine größere Population: Schaffung des **Stanford-Binet-IQ-Tests** - **Zweck**: „Fortpflanzung von Menschen mit geringer Intelligenz einzuschränken" und dadurch „Kriminalität, Armut und industrielle Ineffizienz zu reduzieren" **[Intelligenzquotien]** - **Alfred Binet** legte das Intelligenzalter eines Kindes als Maß der Intelligenz fest. - ![](media/image8.png)**William Stern** formulierte 1912 den Intelligenzquotienten: - **Lewis Terman** multiplizierte diesen mit 100 um Kommata zu vermeiden: - 1930er = moderne IQ Definition entwickelt: **Schritte der Diagnostik** ***Definition**: Diagnostik ist das Einordnen eines Zustandes auf Grundlage von Informationen* *& Daten im Hinblick auf einen spezifischen Urteilsstandard*. **[Die zwei Schritte der Diagnostik]** 1. **Gültigkeit**: Messen wir das, was wir messen wollen? 2. **Genauigkeit**: Können wir uns auf das Ergebnis verlassen? (\> Standartmessfehler) **[Die zwei Schritte der Leistungsbeurteilung]** 1. **Sozialer Vergleich / Normorientierung** = Normalwert durch Vergleich mit anderen 2. **Individuelle Bezugsnorm** = Vergleich eigener Leistung über Zeit 3. **Kriteriale Bezugsnorm** **2. Sitzung: Modelle des Messens** **[Was ist Messen?]** 1. **Designat:** Was soll gemessen werden? (Temperatur) (Angst: die empfundene Angst einer Person) 2. **Mediator:** In welcher physikalischen Form wirkt sich dies aus? (Flüssigkeit) (Angst: Herzfrequenz) 3. **Signal:** In welchem Merkmal hierin wirkt es sich aus? (Ausdehnung der Flüssigkeit in cm) (Angst: Herzfrequenz in Schlägen pro Minute) 4. **Bedeutung:** Welche Bedeutung hat dies? (Wärme) **Definition der Naturwissenschaften**: *[Messen]* = Das Bestimmen o. Schätzen von Verhältnissen von Quantitäten (=messbare Eigenschaften eines Objekts) **Repräsentationale Theorie: [ ]***[Messen]* ist die Zuordnung von Zahlen zu Einheiten, die keine Zahlen sind. - [Zahlen] werden [Ereignisse] zugeordnet basierend auf der Ähnlichkeit zwischen den Strukturen des [Zahlensystems] und den Strukturen des [qualitativen Systems]. \> Beispiel qualitatives System: Winkelmessen (= funktioniert auch ohne Zahlen\> Kategorien) - Eine Eigenschaft ist ***quantitativ***, wenn eine strukturelle Ähnlichkeit nachweisbar ist (=also über Zahlen beschrieben werden kann) - *[Quantitative Systeme:] Längen, Gewichte, Temperaturen (messbar)* - *[Qualitative Systeme:] Farben, Geschmäcker, Emotionen (keine direkte numerische Zuordnung)* - [Übertragung der Eigenschaften:] **Zahlen lassen sich addieren = Merkmale können aufaddiert werden** (Punkte in Test = Fähigkeit) **Skalenniveaus** **Definition**: Beschreiben, welche Eigenschaften der gemessenen Zahlen sich auf das gemessene Merkmal übertragen lassen. +-----------------+-----------------+-----------------+-----------------+ | **Skala** | **Beispiele** | **Mögliche | **Merkmale** | | | | Aussagen & | | | | | Rechenoperation | | | | | en** | | +=================+=================+=================+=================+ | **Nominalskala* | Automarke, | Häufigkeiten | Kategorisierung | | * | Geschlecht, | | der Messwerte; | | | Wohnort, | | man kann nur | | | Studiengang | | *Gleichheit* | | | | | oder | | | | | *Verschiedenhei | | | | | t* | | | | | feststellen. | +-----------------+-----------------+-----------------+-----------------+ | **Ordinalskala* | Schulnote, | Häufigkeiten, | Werte lassen | | * | Tabellenplatz, | | sich in eine | | | Bildungsgrad | größer/kleiner | *Reihenfolge* | | | | | bringen; höhere | | | | | Werte bedeuten | | | | | eine höhere | | | | | Ausprägung der | | | | | Eigenschaft. | +-----------------+-----------------+-----------------+-----------------+ | **Intervallskal | Temperatur in | Häufigkeiten, | Werte sind | | a** | Celsius, IQ | | geordnet, | | | | größer/kleiner, | *Abstände* sind | | | | | *gleich*; | | | | Mittelwert | Summieren und | | | | | Mitteln der | | | | | Werte ist | | | | | sinnvoll. | +-----------------+-----------------+-----------------+-----------------+ | **Verhältnisska | Gewicht, | Häufigkeiten, | Geordnete Werte | | la** | Reaktionsgeschw | | mit gleichen | | | indigkeit | größer/kleiner, | Abständen und | | | | | einer | | | | Mittelwert, | *natürlichen | | | | | Null;* der | | | | Verhältnisse | Nullwert | | | | | bedeutet | | | | | tatsächliches | | | | | Fehlen der | | | | | Eigenschaft. | +-----------------+-----------------+-----------------+-----------------+ | **Absolutskala* | Fachsemester, | Häufigkeiten, | Messwerte | | * | Anzahl | | entsprechen | | | korrekter | größer/kleiner, | direkten | | | Lösungen | | Häufigkeiten; | | | | Mittelwert, | alle | | | | | Zahleneigenscha | | | | Verhältnisse, | ften | | | | | können auf die | | | | Absolutheit | Messwerte | | | | | übertragen | | | | | werden. | +-----------------+-----------------+-----------------+-----------------+ **Messmodelle** 1. [**Reflexives Messmodell** (*Latente **Fähigkeit \>\>\> Leistung** in der Aufgabe*)] - Leistung in Aufgaben resultiert aus einer zugrundeliegenden Fähigkeit. - Verändert sich die Fähigkeit, verändert sich die Leistung in den Items (Aufgaben). - Training der latenten Fähigkeit. 2. [**Formatives Messmodell** (***Leistung \>\>\> Fähigkeit**)*] - Durch die Kenntnisse der einzelnen Aufgaben entsteht die Fähigkeit. - Verändert sich die Leistung in den Items (Aufgaben), verändert sich die Fähigkeit. - Training der Aufgaben - ![](media/image10.png)(=Beispiel: Fähigkeit, ein Auto zu fahren, entsteht durch das Lernen vieler einzelner Fertigkeiten (z. B. Schalten, Blinken, Rückwärtsfahren)) +-----------------------+-----------------------+-----------------------+ | | **Klassische Theorie | **Repräsentationale | | | des Messens** | Theorie des Messens** | | | | | | | ***(physikalisch-math | ***(psychologisch-soz | | | ematisch)*** | ialwissenschaftlich*) | | | | ** | +=======================+=======================+=======================+ | **Natur der zu | Existiert unabhängig | *Nicht direkt | | messenden Größe** | vom Beobachter, | messbar*; basiert auf | | | *objektiv messbar* | Beziehungen zwischen | | | | Phänomenen | +-----------------------+-----------------------+-----------------------+ | **Messgegenstand** | Physikalische | Psychologische | | | Eigenschaften | Konstrukte (z. B. | | | | Intelligenz, | | | | Persönlichkeit) | +-----------------------+-----------------------+-----------------------+ | **Messprinzip** | Direktes Erfassen von | Abbildung der | | | physikalischen | Relationen zwischen | | | Eigenschaften | nicht direkt | | | | messbaren Phänomenen | +-----------------------+-----------------------+-----------------------+ | **Messinstrumente** | Müssen kalibriert & | Müssen Relationen | | | auf Präzision geprüft | korrekt und | | | werden | strukturgleich | | | | abbilden | | | | (Homomorphie) | +-----------------------+-----------------------+-----------------------+ | **Umgang mit Fehlern | Mathematische | Fokussiert auf die | | und Unsicherheiten** | Modellierung & | Genauigkeit der | | | Reduktion von | Abbildung von | | | Messfehlern | Relationen | | | | (=Zusammenhängen) | +-----------------------+-----------------------+-----------------------+ | **Determinierung der | Durch Naturgesetze | Korrekte Abbildung | | Messungen** | determiniert | der Beziehungen; | | | | absolute Präzision | | | | ist weniger relevant | +-----------------------+-----------------------+-----------------------+ **Das Messfehlermodell: Die klassische Testtheorie (KTT)** - In der klassischen Testtheorie (KTT) geht es darum, dass der **gemessene Wert** (zum Beispiel dein Testergebnis) **nicht perfekt genau** ist. Er setzt sich zusammen aus dem **wahren Wert** und einem **Messfehler**. - Der **gemessene Wert** (X) = **Wahrer Wert** (T) + **Messfehler (E) (X=T+E)** **Wahrer Wert (T)** Theoretischer, „echter" Wert einer Eigenschaft (z. B. wahre Fähigkeit), der ohne Messfehler exakt erfasst würde. ------------------------- ------------------------------------------------------------------------------------------------------------------- **Gemessener Wert (X)** Tatsächlich gemessener Wert (z. B. Testergebnis), der aufgrund von Messfehlern vom wahren Wert abweichen kann. **Messfehler (E)** Differenz zwischen wahrem Wert &gemessenem Wert; umfasst alle zufälligen Einflüsse, die das Ergebnis verfälschen. **Beispiel:** - **Wahrer Wert (T):** Du weißt in Mathe **100 Punkte**. - **Gemessener Wert (X):** Im Test bekommst du **95 Punkte**. - **Messfehler (E):** Der Messfehler beträgt **-5 Punkte**. **3. Sitzung: Reliabilität und Messfehler** **[Definition Reliabilität ]** - = **Gütekriterium** eines Tests - beschreibt die **Zuverlässigkeit** der Messungen mit einem Test im Sinne ihrer **Konsistenz**: Das Ausmaß, in dem mehrfache Messungen des gleichen Objekts den gleichen Wert ergeben. - Die **Messfehler**, die bei den Messungen entstehen und die Reliabilität des Tests bedingen sich: - Je höher der Messfehler, desto geringer die Reliabilität. - Je höher die Reliabilität, desto geringer der Messfehler. [Beispiel: Messfehlerquellen in der Testsituation (Externe Einflussfaktoren):] 1. **Schlechte Tagesform:** Krankheit oder Schlafmangel beeinträchtigen Konzentration und Leistung. 2. **Geringe Motivation:** Wenig Anstrengung führt zu schwächerer Leistung. 3. **Umgebungsfaktoren:** Lärm stört die Konzentration. 4. **Angst:** Verringert kognitive Fähigkeiten. 5. **Anwesenheit Anderer:** Erzeugt Druck, steigert Angst und senkt die Leistung. [Beispiel: Messfehlerquellen im Test (Testkonstruktbezogene Fehler): ] 1. **Item-Formulierung:** Missverständliche Fragen. 2. **Schwierigkeit:** Zu leicht oder schwer, keine Differenzierung. 3. **Konsistenz:** Unklare Zielsetzung der Items. 4. **Testlänge:** Zu kurz oder lang, beeinflusst die Genauigkeit. 5. **Instruktionen:** Uneinheitliche Aufgabenbearbeitung. 6. **Subjektivität:** Inkonsistente Bewertungen. 7. **Skalen:** Unzureichende Differenzierung der Leistung. **[Indikator der Reliabilität]** \> **Reliabilität** bedeutet, wie ***zuverlässig*** ein Test misst. Wird mit dem ***Reliabilitätskoeffizienten (rₜₜ)*** angegeben, der zwischen **0** und **1** liegen kann. - rtt (Reliabilität Test-Test) = bezieht sich nur auf die Stichprobe (lateinisches „r") - ρtt (Roh Test-Test) = Reliabilitätswert in der **Population (griechisches Symbol ρ steht für die gesamte Bevölkerung)** [**Bewertung der Reliabilität**:] **Reliabilitätswert (rₜₜ)** **Bewertung** **Beispiel** ----------------------------- --------------- ----------------------------------- **≈ 0.9** Sehr hoch IQ-Tests **0.7 -- 0.9** Hoch Standardisierte Schultests **\< 0.6** Gering Unvalidierte oder schlechte Tests - rtt ≈ 1: Test hat **fast keinen Messfehler**. Die Ergebnisse sind sehr genau & zuverlässig. - rtt ≈ 0: Ergebnis beruht fast vollständig auf **Messfehlern**. Der Test misst nicht zuverlässig. **Klassische Testtheorie (KTT)** **Grundkonzepte:** - **[Gemessener Wert (X):]** Ergebnis einer Messung, bestehend aus wahrem Wert und Messfehler. - **[Wahrer Wert (T):]** Der „wahre" Wert einer Eigenschaft ohne Messfehler (stabiler + konstant) - **[Messfehler (E):]** Abweichung des gemessenen Werts vom wahren Wert. **[4 Axiome der klassischen Testtheorie (KTT)]** 1. **[Es gibt immer einen wahren Wert & Messfehler:\ ]Formel: X = T + E (X = gemessener Wert, T = wahrer Wert, E = Messfehler).** 2. **[Erwartungswert des Messfehlers = Null ]** 3. **[Wahrer Wert und Messfehler sind nicht korreliert:\ ]Der Messfehler hängt nicht davon ab, ob der wahre Wert hoch oder niedrig ist.** 4. **[Varianz: Messfehler sind bei Wiederholungen unkorreliert:\ ]Fehler in einer Messung beeinflussen keine weiteren Messungen.** **[Eigenschaften der KTT:]** 1. Der **wahre Wert (T)** wird als **konstant** angesehen. 2. **Unterschiede** bei wiederholten Messungen einer Person sind durch den **Messfehler (E) bedingt.** 3. **Standardabweichung (S)** der Messergebnisse =\> Größe des **Messfehlers (E)** 4. **Praxis** = viele **Messungen** an einer Person **nicht** möglich. ***[Streuung:]*** - ***Standardabweichung (S): Wurzel der Varianz, Maß der Streuung in derselben Einheit wie die Daten. \>*** - ***Varianz (S²): Durchschnittliche quadrierte Abweichung vom Mittelwert, drückt die Breite der Streuung aus.*** ***[Reliabilität:]*** ***Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte. \> Wertebereich 0-1 = 0% - 100%*** ***[WDH.]*** ***X=T+E (Gemessener Wert = Wahrer Wer+ Messfehler)*** ***S²x= S²t+ S²E =\> lat. Stichprobe*** ***σ²x = σ²t+ σ²E =\> gri. Population*** **[Berechnung der Reliabilität ]** ***[Aufgaben]*** ***Was passiert mit der Reliabilität, wenn...*** ***1.die Varianz der [wahren Werte] so groß ist, wie die Varianz der [beobachteten Werte]?*** ***= Formel: T (Wahrer Wert) : X(Gemessener Wert)= Rtt = Wert 1 = von fast keinem Messfehler verzerrt!!*** ***2.die Varianz der wahren Werte abnimmt bei gleichbleibender Varianz der beobachteten Werte?*** ***= Reliabilität wird kleiner und der Messfehler wird größer.*** - ***Reliabilität misst, wie viel von der Streuung der gemessenen Werte durch tatsächliche Unterschiede erklärt wird. Wenn die wahren Unterschiede kleiner werden, macht der Messfehler einen größeren Anteil der Messung aus -- der Test wird dadurch weniger zuverlässig.*** ***3. Eine Reihe von Messwerten hat die folgenden Eigenschaften: Die Varianz der beobachteten Werte ist 150 und die Varianz der Messfehler ist 15. Wie hoch ist die Reliabilität der Messungen?*** **= σ²Gesamt (X) =σ²Wahr (T)+ σ²Fehler (E)** ![](media/image12.png) **[X= 150, E=15, T=?] = Sehr hohe Reliabilität [ ]** **Messfehler & Reliabilität** - Messfehler 0% = 100% Reliabilität (1) - Messfehler 10% = 90% Reliabilität (0.9) - Messfehler 40% = 60% Reliabilität (0.6) **CI - Vertrauensbereich (Confidence Interval)** ![](media/image14.png)Um den Messfehler bei der Angabe einer Leistung zu berücksichtigen, wird anstatt eines Punktergebnisses ein Vertrauensbereich angegeben. *Der **Vertrauensbereich** gibt an, in welchem Bereich der **wahre Wert** einer gemessenen Leistung liegt. Er berücksichtigt den **Messfehler** und wird anhand des Standardmessfehlers berechnet.* - Z.B. Wenn ein Schüler in einem Test **85 Punkte** erreicht und der **Vertrauensbereich 80 bis 90** beträgt, heißt das:\ Mit **95 % Wahrscheinlichkeit** liegt der wahre Wert des Schülers irgendwo **zwischen 80 und 90** Punkten. - *Höhere Reliabilität (rtt)→ Kleinerer Messfehler → Engerer Vertrauensbereich.* - *Niedrigere Reliabilität → Größerer Messfehler → Weiterer Vertrauensbereich.* **[Berechnung Vertrauensbereich ]** 1. **Formel Standardmessfehler**: - Sₓ​: Standardabweichung der beobachteten Werte - rtt​: Reliabilität des Tests 2. ![](media/image16.png)**Formel Vertrauensbereich**: - X: Gemessener Wert - z: Kritischer Wert der Normalverteilung - z=1.96 für 95% Sicherheit. - z=2.58 für 99% Sicherheit. - z=1.0 für 68% Sicherheit. **[Beispiel Vertrauensbereich]** ![](media/image19.png)![](media/image21.png) **= Wahrer Wert (95%) zwischen 21 und 39.** ![](media/image23.png) **= Wahrer Wert (99%) zwischen 18 und 42.** **[Aufgaben Vertrauensbereich]** ![](media/image25.png)**1.** **2.** **3.** ![](media/image27.png) **CD - Kritische Differenz** Die **kritische Differenz** beschreibt den minimalen Unterschied zwischen zwei Messwerten, der notwendig ist, um mit einer bestimmten Sicherheit sagen zu können, dass die Unterschiede **nicht nur durch den Messfehler**, sondern durch tatsächliche Unterschiede zwischen den Personen oder Zuständen bedingt sind. - **Sₓ​:** Standardabweichung der beobachteten Werte - **rtt​:** Reliabilität des Tests - **1.96**: Kritischer Wert der Normalverteilung für 95% Sicherheit (kann durch andere Werte ersetzt werden, z. B. 2.58 für 99%). **[Beispiel Kritische Differenz]** ![](media/image29.png)Kritische Differenz des Hamburg- Wechsler-Intelligenztests (WISC): = Die kritische Differenz beträgt 8.3 (Wenn der Unterschied zwischen den zwei Testwerten größer als 8.3 ist, ist er signifikant zu 96%. **[Aufgaben Kritische Differenz]** **1.** ![](media/image31.png) **2.** ![](media/image33.png) **[Axion 3 KTT Gleichheit des Messfehlers: ]** - Es wird angenommen, dass der **Messfehler für alle Werte einer Skala gleich groß** ist. **Abschluss-Aufgabe** ![](media/image35.png)**Wir haben folgende 10 Messwerte: 5, 6, 4, 7, 6, 3, 4, 5, 7, 8 \>** **[1. Reliabilität der Messung]** ![](media/image37.png)**[2. 95% Konfidenzintervall für den Messwert 5]** **[3. 95% kritische Differenz]** ![](media/image39.png)**[4. Unterscheiden Messwerte 7 und 4 statistisch?]** **4. Sitzung: Exkurs: Korrelation** **[Korrelation (r)]** - **Maß für den *Zusammenhang zwischen zwei Variablen*.** - **Sie gibt an, wie stark zwei Variablen kovariieren, d.h., z.B. Körpergröße mit Körpergewicht.** - **Kann Werte zwischen -1 und +1 annehmen.** - **r = 0: [kein] Zusammenhang** - **r = +1: perfekter [positiver] Zusammenhang (beide Variablen steigen/fallen gemeinsam)** - **r = -1: perfekter [negativer] Zusammenhang (eine Variable steigt, die andere fällt)** **[Determinationskoeffizient (r²)]** - **Quadriert man die Korrelation so erhält man die Varianzaufklärung der einen Variable durch die andere.** - **[Beispiel]: (r x r = r²) r = 0.4 = r² = 0.16** **[Berechnung Korrelation]** ![](media/image45.png)**1. Mittelwert beider Variablen berechnen** **2. Abweichung vom Mittelwert in den zwei Variablen** **3. Multiplizieren beide Abweichungen** - **Große positive Zahl, wenn beide Variablen über dem Mittelwert liegen (z. B. große Füße und große Körpergröße).** - **Positives Produkt, wenn beide Variablen unter dem Mittelwert liegen (zwei negative Werte multipliziert ergeben positiv).** - **Summe der Produkte wird größer, wenn Messungen in beiden Variablen gleich stark vom Mittelwert abweichen.** - **Je größer diese Summe, desto stärker der Zusammenhang zwischen den Variablen.** **[Berechnung der Korrelation II]** - **Die Summe der Produkte ist aber noch kein geeignetes Maß, da Sie sehr stark von der Anzahl der Wertepaare abhängt, die wir gemessen haben.** - **Also bilden dividieren wir die Summe durch die Anzahl der Wertepaare N und erhalten.** ![](media/image47.png) **= Kovarianz (cov)** **[Berechnung der Korrelation III]** - **Auch die Kovarianz ist noch kein perfektes Maß, da die Summe noch stark von der Skala abhängt die ich wähle: messe ich die Größe in cm, erhalte ich 100 x 100 = 10000 fach größere Werte als bei der Messung der Größe in Meter.** - **Um die Messskala zu vereinheitlichen, dividieren wir die gemessenen Werte durch die Standardabweichung der zugehörigen Wertereihe.** **Abschluss-Aufgabe** 1. **Wie hoch ist die Korrelation zwischen Reichtum eines Landes und Lebenszufriedenheit der Bevölkerung?** **r = 0.79** **r² = 0.79 x 0.79 = 0.62 = 62%** **N = Anzahl der Personen** ![](media/image49.png)**M = Mittelwert** **SD = Standartabweichung =** \> Von Links nach Rechts die Tabelle ausrechen oder die Große Formel verwenden. **5. Sitzung: Berechnung Reliabilität** **[Methoden zur Schätzung der Reliabilität]** 1. Test--Retest Reliabilität 2. Parallel Test Reliabilität 3. Split half Reliabilität 4. Interne Konsistenz **[1. Test-Retest Methode]** - **Erfasst Stabilität** der Messung über die Zeit. - **Geeignet** für **zeitlich stabile Konstrukte** (z.B. **Intelligenz**, **Traits**). - **Nicht geeignet** für **fluktuierende Zustände** (z.B. **States**, **Stimmung**). - **Beispiel**: IQ-Test heute und in 6 Monaten → **stabile Ergebnisse** erwartet. - **Zu kurze Abstände** → **Lerneffekte**. - **Zu lange Abstände** → **Merkmalsveränderungen**. - Test wird **zweimal** (t1 und t2) an **denselben Personen** durchgeführt. - **Zeitlicher Abstand**: Keine **Leistungsänderung** in der Zwischenzeit. - Test ist **reliabel**, wenn: - **Grob**: Messwerte t1 = t2 für alle. - **Genau**: **Verhältnis der Werte** bei t1 = Verhältnis bei t2. - **Reliabilität** entspricht der **Korrelation r** zwischen t1 und t2. **[2. Parallel-Test Methode]** - Ähnlich wie **Test-Retest**, aber: **zwei verschiedene Tests** werden verwendet. - **Zwei parallele Versionen** eines Tests messen dasselbe **Konstrukt**. - **Minimiert Übungseffekte** oder **Lerneffekte**. - **Besonders geeignet** für **Schultests** oder zur **Validierung von Messinstrumenten**. - **Beispiel**: Zwei Versionen eines **Mathematiktests** mit **unterschiedlichen Items**, aber **gleichem Stoff**. - **Schwierig in der Erstellung**, erfordert **umfangreiche Validierung**. **[3. Split-Half Methode]** - Der Test wird in **zwei Hälften geteilt** (z.B. **gerade** und **ungerade Aufgaben**). - Jede Person erhält **zwei Ergebnisse**: - **Punkte in der geraden Hälfte** - **Punkte in der ungeraden Hälfte** - **Korrelation r** zwischen den **zwei Testwerten** → **Schätzer für Reliabilität**. - **Sinnvoll** bei Tests mit **vielen Items**. - **Beispiel**: Ein langer **Fragebogen** zu einem **psychologischen Konstrukt**, geteilt zur Prüfung der **Antwortkonsistenz**. - ![](media/image51.png)Achtung: Tests haben **nur halbe Gesamtlänge** → **Spearman-Brown-Korrektur** nötig. - ![](media/image53.png)**Spearman-Brown-Correction =** **[4. Interne Konsistenz: Cronbachs Alpha (α)]** - **Verallgemeinerung** der **Split-Half Methode**. - Der Test wird in **alle möglichen Teile** aufgeteilt und **jeweils korreliert**. - Aus diesen **Korrelationen** wird ein **Mittelwert** gebildet. - **Relevant** für **Fragebögen** oder Tests mit **mehreren Items**, die **dasselbe Konstrukt** messen. - **Gut geeignet** für **psychologische** und **pädagogische Tests** mit **vielen Items**, die **verschiedene Facetten** eines Merkmals abbilden. - **Beispiel**: Ein **Persönlichkeitstest** mit **30 Items**, der Facetten von **Extraversion** erfasst. - **Hoher Wert** von **Cronbachs Alpha** kann auf **redundante Items** hinweisen. - Misst **Konsistenz**, aber nicht unbedingt die **Homogenität** des Konstrukts. **[Bewertung der Reliabilität:]** **- ≥0,70:** akzeptabel für explorative Forschung/ parallele Tests/ längere Tests mit homogenen Items **- ≥0,80:** gut für stabile Merkmale/ Vergleichbarkeit/ interne Konsistenz/ Skalen mit mehreren Items **- ≥0,90:** sehr gut für individuelle Diagnosen ABER: evtl. Redundanz der Items **1 Aufgabe:** Wie können Sie folgende Fehlerquellen bei der **Erstellung eines Schultests** verringern? ---------------------------------------------------------------------------------------------------------------------------- **1. Item-Formulierung** \- **Klare und präzise Formulierungen** verwenden\ - **Pilotstudien** zur Prüfung der Verständlichkeit durchführen --------------------------------------- ------------------------------------------------------------------------------------ **2. Zu geringe/ hohe Schwierigkeit** \- Aufgaben mit **verschiedenen Schwierigkeitsgraden** einbauen\ - **Itemanalyse** durchführen, um extreme Aufgaben zu erkennen **3. Mangelnde Konsistenz** \- **Konstrukt genau definieren**\ - Items auf **inhaltliche Kohärenz** prüfen (z.B. durch Cronbachs Alpha) **4. Zu kurze Tests** \- Ausreichend viele **Items** einbauen, um **zuverlässige Messwerte** zu erhalten **5. Zu lange Tests** \- **Eindeutige und einheitliche Anweisungen** formulieren\ - Instruktionen in der **Pilotphase** testen **6. Unklare Instruktionen** \- **Eindeutige und einheitliche Anweisungen** formulieren\ - Instruktionen in der **Pilotphase** testen **7. Subjektivität der Bewertung** \- **Bewertungskriterien standardisieren**\ - **Schulungen** für Bewertende durchführen **8. Ungeeignete Skalen** \- **Skalen mit ausreichender Differenzierung** verwenden\ - Skalen in der **Pilotphase evaluieren** ---------------------------------------------------------------------------------------------------------------------------- **2 Aufgabe:** Wie können Sie folgende Fehlerquellen bei **Testdurchführung** verringern? ---------------------------------------------------------------------------------------------------------- **1. Schlechte Tagesform** \- **Ausweichtermine** für Tests anbieten\ - **Gesundheitszustand** der Schüler:innen vor Testbeginn prüfen ---------------------------- ----------------------------------------------------------------------------- **2. Geringe Motivation** \- **Motivierende Einführung** geben (z.B. Zweck des Tests erklären)\ - **Positive Rückmeldung** während des Tests **3. Umgebungsfaktoren** \- **Ruhigen und störungsfreien Raum** wählen\ - **Testunterbrechung** bei unvorhergesehenen Störungen ermöglichen **4. Angst** \- **Angstabbau** durch vorherige Übungsphasen\ - **Entspannungsübungen** vor dem Test einbauen **5. Anwesenheit Anderer** \- **Einzeltestungen** bei Bedarf ermöglichen\ - **Testbedingungen vereinheitlichen**, um sozialen Vergleich zu minimieren ---------------------------------------------------------------------------------------------------------- **6. Sitzung: Validität** **[Definition Validität]** - Grad, zu dem ein Test **das misst, was er vorgibt** zu messen. - **Zentrales Gütekriterium** für Messinstrumente. - Zeigt, ob Ergebnisse **aussagekräftig** im Hinblick auf das untersuchte Merkmal (Designat) sind. - **Entscheidend in der Diagnostik**, um **korrekte Entscheidungen** und **zielgerichtete Förderung** zu ermöglichen. **[Arten der Validität]** *(So lässt sich die Validität eines Messinstrumentes prüfen)* 1. **Inhaltsvalidität** 2. **Kriteriumsvalidität** 3. **Konstruktvalidität** **1. Inhaltsvalidität** **1. [Definition]**[:] **Prüft, ob ein Test alle wichtigen Inhalte abdeckt, die für das zu messende Merkmal wichtig sind**. **2. [Erkennung]:** Der Test enthält alle wichtigen Themen und die Struktur passt zum Merkmal. **3. [Prüfschritte]:** - **Schritt 1**: **Konstrukt genau beschreiben** (Was soll gemessen werden?). - **Schritt 2**: **Zuordnung der Items** zu den Inhaltsbereichen. - **Schritt 3**: Prüfen, ob **Teststruktur** mit **Konstruktstruktur** übereinstimmt. **4. [Sicherungsmethoden]:** - **Expertenrating**: Befragung von **Fachleuten** in Einzelgesprächen. - **Delphi-Studie**:Experten werden **anonym** befragt, **Rückmeldung** der Ergebnisse an die Experten, Experten können **ihre Meinung anpassen**, **Mehrere Runden**, bis **Konsens** erreicht ist. **Beispiel: Mathematiktest für Viertklässler** - Welche **grundlegenden Rechenoperationen** müssen enthalten sein? Sollen **Textaufgaben** integriert werden? - **Aufgabenpool erstellen** und **Kompetenzen zuordnen**. - **Expertenrating** durch Lehrkräfte → **Anpassung der Aufgaben**. **2. Kriteriumsvalidität:** 1. Testverhalten korreliert mit **Außenkriterium**. 2. **Außenkriterium** steht in **kausalem Zusammenhang** mit dem gemessenen Konstrukt. 3. **Korrelation** mit dem Außenkriterium zeigt die **Gültigkeit des Tests**. **Retrospektive Validität** Vergangenheit Korrelation mit einem vergangenen Merkmal (z.B. vergangene Zeugnisse) ----------------------------- --------------- -------------------------------------------------------------------------------------------------- **Konkurrente Validität** Gegenwart Korrelation mit einem aktuellen Merkmal (z.B. Einschätzung der Lernleistung durch die Lehrkraft) **Vorhersage Validität** Zukunft Korrelation mit einem zukünftigen Merkmal (z.B. Bildungsgang) [ **Inkrementelle Validität:** ] **[Beispiel: Selbstberichte über Straftaten]** - **Konkurrente Validität (Gegenwart)**: Selbstberichte stimmen mit **aktuellen Strafregistern** überein, besonders bei Delikten wie **Einbruch (CR = 23,8)**. - **Vorhersagevalidität (Zukunft)**: Selbstberichte können **zukünftige Straftaten** vorhersagen, z.B. **Drogenverkauf (CR = 11,9)**. - **Fazit**: Selbstberichte sind ein **zuverlässiges Maß**, um **aktuelles** und **zukünftiges delinquentes Verhalten** zu erfassen. **3. Konstruktvalidität:** - ***Konvergente Validität*:** Prüft, ob ein Test **hoch mit anderen Tests korreliert**, die dasselbe Konstrukt messen. - ***Diskriminante Validität*:** Prüft, ob ein Test **niedrig mit Tests korreliert**, die **andere Konstrukte** messen. - ***Faktorielle Validität*:** Prüft, ob die Zuordnung der Testaufgaben zu Subtests durch eine **Faktorenanalyse** bestätigt wird (z.B. IQ Faktoren: Logisch, Verbal, Räumlich ODER Leseverstehen: Wörter, Sätze, Texte) **[Aufgaben]** 3\. Welche Komponenten bräuchte ein Intelligenztest, um inhaltsvalide zu sein? 1. **Kognitive Fähigkeiten als Inhaltsbereiche:** Verbales Verständnis, Logisches Denken, Räumliches Denken, Gedächtnis, Rechenfähigkeiten, Verarbeitungsgeschwindigkeit. 2. **Passung der Teststruktur:** Subtests müssen verschiedene **Intelligenzbereiche** abdecken (z.B. numerisch, sprachlich, räumlich). 3. **Zuordnung der Aufgaben: Items** müssen den **Inhaltsbereichen** zugeordnet und auf **Repräsentativität** geprüft werden. 4. **Sicherung der Inhaltsvalidität: Expertenrating** und **Delphi-Studien** prüfen die Passung der Aufgaben. 2\. Wie ließe sich die -retrospektive Validität, -konkurrente Validität und -Vorhersagevalidität eines Intelligenztests für 20-Jährige bestimmen? - **Retrospektive Validität:** Vergleich mit **Schulnoten oder früheren Tests (z.B. Korrelation mit Abiturnoten)** - **Konkurrente Validität :** Vergleich mit anderen aktuellen Tests oder Leistungsbewertungen (z.B. Korrelation mit Studiennoten oder HAWIE-Test) - **Vorhersage Validität**: Vergleich mit zukünftigen Erfolgen in Studium oder Beruf (z.B Korrelation mit Studienabschluss oder Berufserfolg) 1\. Was wären Möglichkeiten zur Erfassung der... des DEMAT 2+: - **konvergenten Validität:** **Vergleich mit anderen etablierten Mathematiktests** für die gleiche Zielgruppe (z.B. Grundschüler der 2. und 3. Klasse).\> **Beispiel:** Korrelation des DEMAT 2+ mit dem **HAWIK-Rechentest** (Teil des Intelligenztests). & **Lehrerbewertungen**: Vergleich der DEMAT 2+-Ergebnisse mit **Einschätzungen von Lehrkräften** zur Mathematikleistung der Schüler. - **2) diskriminanten Validität:** **Vergleich mit einem Lese- oder Sprachtest**: Der DEMAT 2+ sollte **niedrig mit Tests in anderen Fächern** (z.B. **Deutschtest**) korrelieren, **Persönlichkeitsmerkmale**: Korrelation mit Tests für **Persönlichkeit oder Motivation** sollte **gering** sein, Ziel: Nachweisen, dass der DEMAT 2+ **nur Mathematikleistungen** misst und nicht durch andere Merkmale beeinflusst wird. 2\. Schätzen Sie die Validität folgender Verfahren ein: **IQ-Test** Hoch Misst gut die **allgemeine Intelligenz**, aber begrenzt auf kognitive Fähigkeiten. -------------------------------------- ------------------- ------------------------------------------------------------------------------------ **Theoretische Führerscheinprüfung** Mittel Prüft **theoretisches Wissen**, weniger die **praktische Fahrfähigkeit**. **Coopertest** Mittel bis Hoch Gute Messung von **Ausdauer**, aber eingeschränkt auf **Laufen**. **Abiturnote** Mittel Misst neben **Studierfähigkeit** auch **soziale Faktoren** und **Fleiß**. **Mündliche Mitarbeitsnote** Gering bis Mittel **Subjektiv**, abhängig von der Wahrnehmung der Lehrkraft, Verbesserungen möglich. 5\. Planung eines Testverfahrens: Sie möchten einen Konzentrationstest für 10-Jährige Schulkinder entwickeln: **1. Komponenten für Inhaltsvalidität** Aufgaben müssen verschiedene **Konzentrationsaspekte** abdecken (z.B. **visuelle, auditive** Aufgaben, **Geschwindigkeit, Genauigkeit**). --------------------------------------------- ------------------------------------------------------------------------------------------------------------------------------------------- **2. Prüfung der Konkurrentenvalidität** Vergleich mit **anderen etablierten Konzentrationstests** (z.B. **d2-Test**) für Kinder im gleichen Alter. **3. Prüfung der Vorhersagevalidität** Vergleich der Testergebnisse mit **späteren schulischen Leistungen** oder **Lehrerbewertungen** zur Aufmerksamkeit. **4. Prüfung der konvergenten Validität** Vergleich mit **Tests für ähnliche Konstrukte** (z.B. **Aufmerksamkeitstests** oder **Arbeitsgedächtnistests**). **5. Prüfung der diskriminanten Validität** Vergleich mit **Tests für andere Konstrukte** (z.B. **Persönlichkeitstests**), um sicherzustellen, dass nur Konzentration gemessen wird. **7. Sitzung: Objektivität** **Definition Objektivität:** Unabhängigkeit des Testergebnisses von der durchführenden Person. **[3 Arten der Objektivität & die Gefährdungen]** [1. **Durchführungsobjektivität**] **(Rahmenbedingungen)** 1. **Unklare Instruktionen:** Unterschiedliche Erklärungen / missverständliche Anweisungen. 2. **Verhalten der Testleitung:** Nonverbale Hinweise, Tonfall, Vorurteile der Testleitung (z. B. Ermutigungen) 3. **Abweichungen vom Manual:** Hilfestellungen durch Tipps; Pädagogische Unterstützung durch Erklärungen. [2. **Auswertungsobjektivität**] **(Testleistung und Punktevergabe)** 1. **Subjektive Bewertung:** Besonders offenen Aufgaben (z. B. Aufsätzen). 2. **Fehlende Bewertungsrichtlinien:** Gleiche Antworten können unterschiedlich gewertet werden. 3. **Variabilität in der Auswertungskompetenz:** Ungeschulte Auswerterinnen. 4. **Tipp- oder Rechenfehler:** Bei manueller Auswertung. [3. **Interpretationsobjektivität** ]**(Unabhängigkeit der Interpretation)** 1. **Unklare Normen:** Fehlende, ungenaue Normwerte. 2. **Subjektive Deutungen:** Persönliche Überzeugungen, Vorurteile, Erfahrungen der interpretierenden Person. 3. **Unterschiedliche diagnostische Standards:** Verschiedene Fachkräfte mit unterschiedlichen Maßstäben. 4. **Fehlende Transparenz:** Interpretationsregeln sind nicht klar definiert/ schwer nachvollziehbar. **[Projektive Verfahren (geringe Objektivität)]** - Personen reagieren auf **mehrdeutige Reize** → drücken **unbewusste Wünsche/Ängste** aus. - **Beispiele**: **Zeichnen**: Obstbaum, Familie als Tiere, **Rohrschach-Test**: Tintenflecken interpretieren. **Fehlerquellen:** 1. **Durchführung**: Unterschiedliche Formulierungen. (Malst Du...für mich/Wie siehst Du.../Male bitte ein schönes...) 2. **Auswertung**: Fehlende Auswertungsbeschreibungen 3. **Interpretation**: Kein Kriterienkatalog. **[Inter-Rater Reliabilität] (Bewertungsstabilität zwischen Personen)** - **Definition**: Überprüfung, ob **verschiedene Personen** bei der **Bewertung** zu **ähnlichen Ergebnissen** kommen \> Wichtig für **objektive Bewertungen** in Prüfungen, Diagnosen und Leistungsbewertungen. **Beispiele:** 1. **Gemeinsame Bewertung** schriftlicher Arbeiten → **faire und vergleichbare** Noten. 2. **Mündliche Prüfungen** mit mehreren Prüfern → Vermeidung von **persönlichen Beurteilungsstilen**. 3. **Diagnostik von Förderbedarf** → Sicherstellung **objektiver und konsistenter** Diagnosen. **Erfassung der Inter-Rater Reliabilität:** - **Beispiel PACT** (Beurteilung von Lehrkräften): - **41 Beurteilungsbögen**, **11 Urteile pro Bogen**, **2 Rater**. - **66% exakte Übereinstimmung**, **Kappa = 0,35** → **ausreichend**. **[Intra-Rater Reliabilität] (Bewertungsstabilität innerhalb einer Person)** - **Definition**: Überprüfung, ob **eine Person** bei wiederholten Bewertungen zu **konsistenten Ergebnissen** kommt. \> Wichtig zur Vermeidung von **Urteilsverzerrungen** durch Stimmung, Kontext oder fehlende Objektivität. **Beispiele:** 1. **Bewertung von Aufsätzen** → Beeinflussung durch **Tagesform oder Zeitdruck**. 2. **Mündliche Prüfungen** → Vergleich mit anderen mündlichen Beiträgen kann das Urteil verzerren. 3. **Zeugnisnoten** → **Unklare oder schwankende Bewertungsmaßstäbe** beeinflussen Noten. **Erfassung der Intra-Rater Reliabilität:** - **Beispiel Lernverlaufsgraphen**: - **76 Rater**, die **jeweils 40 Graphen** zweimal beurteilten. - Zwei Bedingungen: **mit** und **ohne Trendeffekt**. **8. Sitzung: Skalierung & Normierung** **Definitionen: Skalierung und Normierung** - **Normierung:** Die Leistung einer Person wird im sozialen Vergleich zu einer Normgruppe bewertet. Dafür werden Werte einer Population erhoben. - **Skalierung:** Umrechnung (Skalierung) von Vergleichswerten in ein bestimmtes Maß in eine Skala, die die Interpretation erleichtert. **Testnormierung: Schritte** 1. Festlegung der Zielgruppe. 2. Zufällige Auswahl vieler Personen. 3. Berechnung von Mittelwert, Standardabweichung usw. **Skalenarten** - **Rohwert (Rawscore):** Die in einem Test erzielten Punkte [vor] Umrechnung. - **Prozentrang (Percentile rank):** Prozentualer Anteil der Werte, die unterhalb des Rohwertes liegen. - **Skalenwert (Scaled score):** Wert nach Umrechnung in eine Skala. **Exkurs: Normalverteilung und Standardabweichung** - Die Normalverteilung ist eine Grundlage für die Interpretation von Testergebnissen. - Der Mittelwert (M) gibt den Durchschnittswert an - Standardabweichung (S) misst die Streuung der Werte um den Mittelwert. **Berechnung der Standardabweichung** Beispiel mit den Messwerten: 3, 5, 5, 4, 8. \> den Mittelwert und die Standardabweichung - Mittelwert: 5 - Varianz: 3,5 - Standardabweichung: \~1,87 **Berechnung Standardabweichung und Mittelwert** Messwerte erfasst: 3, 5, 5, 4, 8 1. **Mittelwert** = (3+5+5+4+8):5 (Anzahl der Werte) = Mittelwert 5 2. ![](media/image57.png)**Standardabweichung** ![](media/image59.png) **Skalenwerte** **Skala** **Mittelwert** **Standardabweichung** **Besonderheit** --------------------------- ---------------- ------------------------ ----------------------------------------------- Z 0 1 Meistens in der Forschung T 50 10 Beruht häufig auf Prozenträngen IQ (Intelligenz Quotient) 100 15 Nur für Intelligenzmessungen Stanine (Standard Nine) 5 2 Ganzzahlige Werte 1 bis 9 SW (Standard Werte) 100 10 Häufiger in US amerikanischen Tests verwendet **[Skalenwerte umrechnen]** ![](media/image61.png) ![](media/image63.png)**Aufgabe -- Skalenwerte berechnen: Z-Wert, T-Wert, IQ-Wert, normorientierte Note** ![](media/image65.png) ![](media/image67.png) **Beispiel: Sozial vergleichende Notengebung** - Mathematiktest 0 bis 60 mögliche Punkte - ![](media/image69.png)Rohwerte: M = 30, S = 7 ![](media/image71.png) **9. Sitzung: Item Response Theory** **Stärken der klassischen Testtheorie (KTT)** 1. **Einfachheit und Verständlichkeit** (einfach anwendbar (Methoden/Berechnung)) 2. **Weite Verbreitung** (umfangreiche empirische Anwendungen & als Grundlage vieler psychometrischer Verfahren) 3. **Robust** (auch bei kleineren Stichproben gut!) 4. **Ausreichend** (für viele Tests, insbesondere wenn keine komplexen Modelle benötigt werden) 5. **Einfache Berechnung** (von Summenscores & grundlegenden Testkennwerten) **Schwächen der klassischen Testtheorie (KTT)** 1. **Stichprobenabhängigkeit** (1. Testkennwerte (z. B. Schwierigkeit, Reliabilität) = abhängig von Stichprobe 2. Ergebnisse nicht generalisierbar auf andere Gruppen 3. Testscores abhängig von Items) 2. **Unwahrscheinliche Annahme** (Summenscores setzen voraus, dass alle Items gleich stark beitragen) 3. **Deterministisch** (Keine Wahrscheinlichkeiten für Antworten) 4. **Erlaubt kein adaptives Testen** (gleicher Test mit unterschiedlichen Items für verschiedene Fähigkeitslevel) **Georg Rasch** - Dänischer *Mathematiker* (1901-1980) - Entwickelte **1960** das Rasch-Modell \> angewendet bei Entwicklung **PISA- Test** - Grundlage der ***Probabilistischen Testtheorie*** (Probabilität = Wahrscheinlichkeit) **[Rasch Modell]** - ![](media/image73.png)ist eine **Item-Response Theorie** - **Für**: Aufgaben mit ***dichotomen Optionen*** (Richtig/Falsch; 0 oder 1) - ![](media/image75.png)**Grundannahmen**: (beim Messen einer Fähigkeit): 1. **Person** (θ Theta) i = **Fähigkeit** 2. **Item** (Aufgabe) (δ Delta) j = **Schwierigkeit**. **Stärken des Rasch Modells** 1. **Objektive Parameterschätzung** (Unabhängig von Stichprobe & Items) 2. **Skalierbarkeit** (Werte von Items lassen sich addieren, um eine Summenscore zu berechnen) 3. **Vergleichbarkeit** (Testleistungen zweier Tests auch vergleichen, wenn nur ein Item identisch (sog. Ankeritem)) 4. **Adaptives Testen** (Gleicher Test kann mit unterschiedlichen Aufgaben Personen unterschiedlicher Kompetenz testen) **Schwächen des Rasch Modells** 1. **Starke Annahmen** (müssen erfüllt sein \>\> die volle Formel!) 2. **Restriktiv** (Alle Items müssen auf derselben latenten Dimension liegen) 3. **Antwortstufen** (wird erst in erweiterten Modellen möglich) 4. **Raten & Trennschärfe** (Keine Berücksichtigung von Raten o. Items mit unterschiedlicher Trennschärfe \>wird in erweiterten Modellen möglich + Keine Berücksichtigung von Items mit mehr als zwei)

Use Quizgecko on...
Browser
Browser