Testtheorie Folienzusammenfassung_Klausur 2 PDF

Document Details

AttentiveTuba1345

Uploaded by AttentiveTuba1345

Hochschule Magdeburg-Stendal

Markus Zenger

Tags

test theory test analysis psychological tests psychometrics

Summary

This document is a summary of test theory lectures, covering key concepts like test validity, reliability, different types of tests, and test construction, including the concepts of objective, reliability and validity measures and their various methodologies.

Full Transcript

Kapitel 2: Testgütekriterien Haupt- und Nebengütekriterien 1 Kapitel 2 - Testgütekriterien  Die Testgütekriterien sind ein Instrument der Qualitätsbeurteilung psychologisch- diagnostischer Tests.  Das Manual (Handbuch) eines Tests muss darüber informieren, wie...

Kapitel 2: Testgütekriterien Haupt- und Nebengütekriterien 1 Kapitel 2 - Testgütekriterien  Die Testgütekriterien sind ein Instrument der Qualitätsbeurteilung psychologisch- diagnostischer Tests.  Das Manual (Handbuch) eines Tests muss darüber informieren, wie die Testgütekriterien erfüllt sind.  Wir unterscheiden 10 Testgütekriterien. 2 Gliederung Kapitel 2 2.1 Objektivität 2.2 Reliabilität Hauptgütekriterien 2.3 Validität 2.4 Skalierung 2.5 Normierung (Eichung) 2.6 Testökonomie 2.7 Nützlichkeit Nebengütekriterien 2.8 Zumutbarkeit 2.9 Unverfälschbarkeit 2.10 Fairness 3 Kapitel 2 – Testgütekriterien 2.1 Objektivität Definition nach Moosbrugger und Kelava (2007, S. 8) „Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig von Testleiter, Testauswerter und von der Ergebnisinterpretation misst.“ 4 2.1 Objektivität Es gibt also keinen Verhaltensspielraum für den Testleiter bei Durchführung, Auswertung und Interpretation des Tests!  Objektivität wird in drei Aspekten differenziert: ◦ Durchführungsobjektivität ◦ Auswertungsobjektivität ◦ Interpretationsobjektivität 5 2.2 Reliabilität Das Gütekriterium der Reliabilität betrifft die Messgenauigkeit des Tests und wird wie folgt definiert (Moosbrugger & Kelava, 2007, S. 11): Ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler misst. 6 2.2 Reliabilität Der Reliabilitätskoeffizient gibt das Ausmaß der Reliabilität an. Er kann einen Wert zwischen 0 und 1 annehmen (0  Rel  1). 1 würde das absolute Fehlen von Messfehlern bedeuten 0 zeigt an, dass das Testergebnis ausschließlich durch Messfehler zustande gekommen ist. 7 2.2 Reliabilität Je höher die Reliabilität – desto unabhängiger ist der Test von Zufallsschwankungen Hohe Reliabilität ist damit auch abhängig von hoher Objektivität Bewertung der Reliabilität < 0,80 = niedrig 0,80 – 0,90 = hoch > 0,90 = sehr hoch 8 2.2 Reliabilität Im Rahmen der klassischen Testtheorie gibt es vier Verfahren zur Bestimmung der Reliabilität Retest-Reliabilität Paralleltest-Reliabilität Testhalbierungs-Reliabilität Innere Konsistenz 9 2.2.1 Retest-Reliabilität Eine wiederholte Messung an der gleichen Personengruppe sollte im günstigsten Fall identische Ergebnisse bringen Die Berechnung der Retest-Reliabilität (z.B. nach einem Monat) eignet sich nur bei Merkmalen, die zeitlich stabil sind und bei denen somit erwartet werden kann, dass sie sich in einer Woche nicht deutlich verändern.  Stabilität der Eigenschaft wird gemessen  Vorsicht: Erinnerungs- und Lerneffekte! 10 2.2.1 Retest-Reliabilität Abb. aus: Moosbrugger & Kelava, S. 124 11 2.2.2 Paralleltest-Reliabilität Es werden eine oder mehrere gleichschwere Parallelformen (Form A, Form B,...) entwickelt, beide Formen müssen hoch miteinander korrelieren. Die Entwicklung von Parallelformen ist sehr aufwendig, daher liegen für die meisten psychodiagnostischen Verfahren keine Parallelformen vor. 12 2.2.3 Testhalbierungs-Reliabilität Die Items des Tests werden - nach Durchführung - per Zufall in zwei Gruppen aufgeteilt (SPSS!). Die Ergebnisse dieser beiden Hälften sollten hoch korrelieren. Die Berechnung der Testhalbierungs-Reliabilität eignet sich für alle Verfahren, die genügend Items umfassen. 13 2.2.4 Interne Konsistenz Jedes einzelne Item wird als „Einzeltest“ gesehen und die Korrelation zwischen allen Items wird berechnet. Der Konsistenzkoeffizient Cronbach  (= interne Konsistenz) ist das Reliabilitätsmaß, das am häufigsten berechnet wird.  Homogenität 14 2.3 Validität  Das Gütekriterium der Validität befasst sich mit der Übereinstimmung zwischen dem Merkmal, das man messen will, und dem tatsächlich gemessenen Merkmal.  Definition (Moosbrugger & Kelava, S. 13): Ein Test gilt dann als valide (gültig), wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes. 15 2.3 Validität Man unterscheidet vier Validitätsaspekte Inhaltsvalidität Augenscheinvalidität Konstruktvalidität Kriteriumsvalidität 16 2.3.1 Inhaltsvalidität Definition nach Moosbrugger und Kelava (2007, S. 15) Unter Inhaltsvalidität versteht man, inwieweit ein Test oder ein Testitem das zu messende Merkmal repräsentativ erfasst. 17 2.3.3 Konstruktvalidität  „Ein Test weist Konstruktvalidität auf, wenn der Rückschluss vom Verhalten … auf zugrunde liegende …merkmale … wissenschaftlich fundiert ist. Die Enge dieser Beziehung wird … überprüft.“ (Moosbrugger & Kelava, 2007, S. 16) 18 2.3.3 Konstruktvalidität Es gibt unterschiedliche Ansätze zur Bestimmung der Konstruktvalidität wie z.B. Faktorenanalyse oder nicht-korrelative Ansätze. Wir unterscheiden: Konvergente / konkurrente Validität: Korrelationen mit Tests gleicher oder ähnlicher Gültigkeitsbereiche (möglichst hoch) Divergente / diskriminante Validität: Korrelationen mit Tests anderer Gültigkeitsbereiche (möglichst gering) 19 2.3.4 Kriteriumsvalidität  Hier geht es um die praktische Anwendbarkeit eines Tests für die Vorhersage von Verhalten und Erleben Zusammenhang der Testleistung mit einem oder mehreren Kriterien (z.B. Schulnoten), mit dem der Test aufgrund seines Messanspruchs korrelieren sollte Man bezeichnet dies auch als Korrelationsschluss, d.h. die Prüfung der Kriteriumsvalidität basiert auf Zusammenhängen zwischen Testkennwerten und Kriterien 20 2.4 Skalierung Das Gütekriterium Skalierung betrifft bei Leistungstests vor allem die Forderung, dass eine leistungsfähigere Testperson einen besseren Testwert als eine weniger leistungsfähige erhalten muss. Dass sich also die Relation der Leistungsfähigkeit auch in den Testwerten widerspiegelt. Die Forderung der Skalierung bezieht sich sowohl auf interindividuelle Differenzen als auch auf intraindividuelle Differenzen Dies gilt ebenso für Persönlichkeitstests, d.h. die Relation der Testwerte muss auch hier die Relation der Ausprägung des Merkmals widerspiegeln 21 2.4.1 Definitionen: Skalierung Die Umsetzbarkeit dieses Gütekriteriums hängt vom Skalenniveau des Tests ab: Nominalskala Ordinalskala Intervallskala Verhältnisskala (Rationalskala) 22 2.5 Normierung (Eichung) Ein Test wird normiert, um möglichst aussagekräftige Vergleichsdaten von solchen Personen zu erhalten, die der Testperson hinsichtlich relevanter Merkmale (z.B. Alter, Geschlecht, Bildung) ähnlich sind (Eichstichprobe). Definition (Moosbrugger & Kelava, 2007, S. 19)  Unter der Normierung (Eichung) eines Tests versteht man das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können. 23 Normierung (Eichung) Ein Test wird normiert, um möglichst aussagekräftige Vergleichsdaten von solchen Personen zu erhalten, die der Testperson hinsichtlich relevanter Merkmale (z.B. Alter, Geschlecht, Bildung) ähnlich sind (Eichstichprobe). Definition (Moosbrugger & Kelava, 2007, S. 19) Unter der Normierung (Eichung) eines Tests versteht man das 2.5 Normierung (Eichung) Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können. Die Ergebnisse der Testeichung werden in Normtabellen dokumentiert. Die Eichstichprobe sollte möglichst groß und bevölkerungsrepräsentativ sein. Die Testergebnisse der untersuchten Person werden bei normorientierter Beurteilung in Relation zu den Testergebnissen von Personen aus der Eichstichprobe interpretiert. Die Ergebnisse der Testeichung werden in Normtabellen dokumentiert. Die Eichstichprobe sollte möglichst groß und bevölkerungsrepräsentativ sein. Die Testergebnisse der untersuchten Person werden bei normorientierter Beurteilung in Relation zu den Testergebnissen von Personen aus der Eichstichprobe interpretiert. 24 2.5 Normierung - Beispiel Unterdurch- schnittlich durchschnittlich Überdurch- schnittlich Jackson, C. (1999). Testen und getestet werden. Bern: Verlag Hans Huber. 25 2.5 Normierung (Eichung) Berechnung der Standardabweichung: http://www.standardabweichung.org/berechnung.html IQ-Skala (100/10) IST-2000-R Entwicklungsdiagnostik.de sowie https://fbcdn-sphotos-d-a.akamaihd.net/hphotos-ak-ash4/1450310_692048744149473_2020023558_n.jpg 26 2.5 Normierung (Eichung) Standardnormwerte: Standardabweichung -3s -2s -1s +1s +2s +3s Mittel z-Werte (selten) -3.0 -2.0 -1.0 0 +1.0 +2.0 +3.0 Prozent je Abschnitt 0,13% 2,14% 13,59% 68,26% 13,59% 2,14% 0,13% Prozentrang (oft) 0.1% 2% 16% 50% 84% 98% 99.9% Stanine (z.B. FPI) - 1 3 5 7 9 - C-Wert (selten) 0 1 3 5 7 9 11 T-Wert (z.B. MMPI, SCL-90-R) 20 30 40 50 60 70 80 IQ (z.B. HAWIE) 55 70 85 100 115 130 145 Z-Wert (z.B. IST) 70 80 90 100 110 120 130 27 2.5 Normierung (Eichung) Verbale Klassifikation -3s bis -2s weit unterdurchschnittlich -2s bis -1s unterdurchschnittlich -1s bis 0s durchschnittlich 0s bis +1s durchschnittlich +1s bis +2s überdurchschnittlich +2s bis +3s weit überdurchschnittlich 28 2.6 Testökonomie Ökonomie = Wirtschaftlichkeit des Tests Bestimmung anhand der Kosten, die bei einer Testung entstehen Testperson, Auftraggeber und Testleiter wünschen üblicherweise keine hohen Kosten bzw. wollen keinen überhöhten Aufwand betreiben  Dennoch lassen sich Kosten einer Testung nicht beliebig minimieren, ohne dass andere Gütekriterien (Objektivität, Reliabilität) darunter leiden! 29 2.7 Nützlichkeit Definition nach Moosbrugger und Kelava (2007, S. 21) Ein Test ist dann nützlich, wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen. 30 2.8 Zumutbarkeit Psychologische Tests müssen so gestaltet werden, dass die Testperson bezüglich des Zeitaufwandes sowie des physischen und psychischen Aufwandes geschont werden Die Zumutbarkeit eines Tests betrifft dabei ausschließlich die Testperson und nicht den Testleiter Die Beanspruchung des Tests ist eine Frage der Testökonomie 31 2.9 Unverfälschbarkeit „Ein Test erfüllt das Gütekriterium der Unverfälschbarkeit, wenn die getestete Person ihr Testergebnis nicht oder nur unwesentlich nach eigenem Belieben beeinflussen kann.“ (Kubinger, 2006, S. 114) 32 2.9 Unverfälschbarkeit  Bei Persönlichkeitsfragebögen ist es denkbar, dass eine Testperson im Sinne von sozialer Erwünschtheit antwortet und so die Testwerte beeinflusst.  Eher unwahrscheinlich ist es, dass eine Testperson bei einem Leistungstest absichtlich schlechte Leistungen erbringt. (Ausnahme bei Versicherungsansprüchen) 33 2.10 Fairness „Ein Test erfüllt das Gütekriterium Fairness, wenn die resultierenden Testwerte zu keiner systematischen Diskriminierung bestimmter Testpersonen zum Beispiel auf Grund ihrer ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit führen.“ (Kubinger, 2006, S. 118) 34 Grundlagen der TEsttheorie 3. Planung und Entwicklung von Tests und Fragebogen Wintersemester 2016/ 2017 HS MD-SDL, FBR AHW Markus Zenger 35 Gliederung Kapitel 3 3.1 Testplanung 3.2 Konstruktionsstrategien 3.3 Aufgabentypen und Antwortformate 3.4 Fehlerquellen 3.5 Itemformulierung 3.6 Vorläufige Testversion erstellen 3.7 Vorläufige Testversion erproben 36 3.1 Testplanung - Gliederung 3.1 Testplanung 3.1.1 Merkmalsarten 3.1.2 Testarten 3.1.3 Geltungsbereich und Zielgruppe 3.1.4 Struktureller Testaufbau 3.1.5 Testlänge und Testzeit 3.1.6 Testadministration 37 3.1 Testplanung 3.1.1 Merkmalsarten - Überblick Quantitative versus qualitative Merkmale Unidimensionale versus multidimensionale Merkmale Zeitlich stabile versus zeitlich veränderbare Merkmale 38 3.2 Konstruktionsstrategien - Gliederung 3.2 Konstruktionsstrategien 3.2.1 intuitiv 3.2.2 rational 3.2.3 external 3.2.4 internal 39 3.2. Konstruktionsstrategien 3.2.1 Intuitive Konstruktion - selten Die intuitive Konstruktionsstrategie wird verwendet, wenn der theoretische Kenntnisstand bezüglich des interessierenden Merkmals gering ist. Anstelle einer theoriegeleiteten Formulierung der Items ist die Konstruktion von der Intuition und Erfahrung des Testkonstrukteurs geleitet. Diese Strategie wird vor allem am Beginn neuer Forschungszweige angewendet. Dank intensiver Forschung liegen zu sehr vielen psychischen Merkmalen aber mehr oder weniger ausgereifte Theorien vor, die als Basis für eine rationale Testkonstruktion dienen können. 40 3.2. Konstruktionsstrategien 3.2.2 Rationale Konstruktion - häufig Die rationale Konstruktionsstrategie bedient sich der Deduktion. Voraussetzung ist das Vorhandensein einer elaborierten Theorie über die Differenziertheit von Personen hinsichtlich des interessierenden Merkmals/Konstrukts. Innerhalb des Merkmals orientiert sich die detailliertere Abstufung an der Häufigkeit/Intensität des beobachtbaren Verhaltens, in dem sich die unterschiedlichen Merkmalsausprägungen manifestieren. 41 3.2. Konstruktionsstrategien 3.2.2 Rationale Konstruktion 1. Konstruktionsschritt: Definition und der Spezifikation des Konstrukts (da Inhalt, Elaboriertheitsgrad und Breite des Merkmals/Konstrukts unterschiedlich sein können) Zu der Definition des Konstrukts gehört auch die Festlegung, in welchen Verhaltensweisen sich eine hohe Ausprägung des Merkmals äußert und in welchen eine niedrige.  Operationalisierung 42 3.2. Konstruktionsstrategien 3.2.2 Rationale Konstruktion Zu jedem der Teilbereiche oder Unterkonstrukte werden anschließend Verhaltensindikatoren gesammelt, in Statement- oder Frageform gebracht und den Probanden als Testitems vorgelegt. Ein Item für Impulsivität i. e. S. wäre z. B. die Frage „Tun oder sagen Sie im allgemeinen Dinge, ohne vorher zu überlegen?“. Ein Item für Waghalsigkeit wäre „Springen Sie im Schwimmbad gerne von hohen Sprungtürmen?“. 43 3.2. Konstruktionsstrategien 3.2.3 Externale Konstruktion Bei der externalen oder kriteriumsorientierten Konstruktionsstrategie werden Items danach ausgewählt, ob sie eindeutig zwischen Gruppen mit unterschiedlichen Ausprägungen in einem externalen Merkmal (≫Kriterium≪) differenzieren können. Aufgabeninhalte (rationale Konstruktionsstrategie) sind hier nicht wichtig; entscheidend ist der Nutzen, der dann vorhanden ist, wenn die Items das gewählte Kriterium geeignet vorhersagen können. 44 3.2. Konstruktionsstrategien 3.2.4 Internale Konstruktion Faktorenanalytische Konstruktionsstrategie – Dimensionsanalyse Ziel ist es, Gruppen von Aufgaben zu finden, die im Sinne einer faktorenanalytischen „Einfachstruktur“ mit den anderen Aufgabengruppen nicht oder nur geringfügig korrelieren. Bei diesem theoriegeleiteten Konstruktionsprinzip wird eine Anzahl von Items zu hypothetischen Verhaltensdimensionen (Soziale Orientierung, Leistungsorientierung, Gesundheitssorgen) konstruiert und einer Stichprobe von Probanden vorgelegt. 45 3.3 Aufgabentypen und Antwortformate für die Itemkonstruktion - Giederung 3.3 Aufgabentypen und Antwortformate für die Itemkonstruktion 3.3.1 Aufgaben mit freiem Antwortformat 3.3.2 Aufgaben mit gebundenem Antwortformat 3.3.3 Aufgaben mit atypischem Antwortformat 3.3.4 Entscheidungshilfen für die Wahl des Aufgabentyps 46 3.3 Aufgabentypen und Antwortformate für die Itemkonstruktion Gliederungsschema 47 3.4 Fehlerquellen bei der Itembeantwortung - Übersicht Bei der Itembearbeitung können typische Fehler auftreten, wenn der Proband nicht die Antwortkategorien auswählt, die der Ausprägung des interessierenden Merkmals bei ihm entsprechen. Hierbei sind nicht zufällig entstehende Fehler gemeint, sondern systematische Fehler, die konstruktirrelevante Varianz vor allem in Ratingdaten erzeugen und auf diese Weise die Validität der Items mindern. Prominente Beispiele systematischer Fehlerquellen sind die Soziale Erwünschtheit und die Akquieszenz. 48 3.4 Fehlerquellen bei der Itembeantwortung - Übersicht 3.4 Fehlerquellen bei der Itembeantwortung 3.4.1 Optimizing-Satisficing-Modell 3.4.2 Soziale Erwünschtheit 3.4.3 Antworttendenzen 49 3.4.1 Optimizing-Satisficing-Modell Optimizing = Satisficing = „so gut wie möglich“ „Hauptsache – durch“ Ein positiver Grund motiviert zur gründlichen Satisfying = zufriedenstellen Bearbeitung Sufficing = genügen Selbstbild Verhalten tritt auf, wenn Personen beiläufig Selbstverständnis teilnehmen oder zur Teilnahme verpflichtet sind Verantwortung  Man möchte sich nicht anstrengen, muss Altruismus aber kognitiv anspruchsvolle Aufgaben bewältigen Wille zu helfen oder auch Aussicht auf Belohnung 50 3.4.2 Soziale Erwünschtheit Soziale Erwünschtheit = engl. „social desirability“ Verfälschung des Antwortverhaltens und damit der Testergebnisse Sozial erwünschtes Verhalten Äußern von Meinungen und Einstellungen, von denen man annimmt, dass sie mit den sozialen Normen und Werten der Gesellschaft übereinstimmen Diese Effekte sind in mündlichen Interviews STÄRKER als bei schriftlichen Befragungen! 51 3.4.2 Soziale Erwünschtheit 1. Selbsttäuschung = engl. „self-deceptive enhancement“ Eher unbewusste Tendenz, vorteilhafte Selbsteinschätzungen zu produzieren, die man selbst aber als ehrlich ansieht 2. Fremdtäuschung = engl. „impression management“ Menschen bemühen sich, den Eindruck, den sie auf andere machen, zu steuern und zu kontrollieren Kein Verhalten in Ausnahmesituationen, sondern ein wesentliches Element des Verhaltens im alltäglichen sozialen Kontext 52 3.4.3 Antworttendenzen Antworttendenzen = response sets, die durch die Art der Datenerhebung hervorgerufen werden Tendenz zur Mitte Akquieszenz = Zustimmungstendenz Itempolung 53 3.4.3 Antworttendenzen Tendenz zur Mitte Bewusste oder unbewusste Bevorzugung mittlerer (neutraler) Antwortkategorien Ursachen können in unzureichendem Wissen liegen oder im Eindruck, die Antwortkategorien seien unzureichend Effekt: verringerte Itemvarianz und Verzerrung Vermeiden von neutralen Mittelkategorien? 54 3.4.3 Antworttendenzen Akquieszenz = Zustimmungstendenz Unkritische Zustimmung unabhängig vom Iteminhalt Gegensteuern durch Umpolung von Items  gute Idee, aber… 55 3.4.3 Antworttendenzen … große Probleme mit der faktoriellen Validität: ein- vs. zweidimensional 56 Grundlagen der TEsttheorie 4. Deskriptive Statistik Wintersemester 2016/ 2017 HS MD-SDL, FBR AHW Markus Zenger 57 4.1 Einleitung 1. Analyse der Itemschwierigkeit 2. Bestimmung der Itemvarianzen 3. Trennschärfeanalysen der Items 4. Itemselektion und Testrevision 5. Testwertermittlung 6. Bestimmung der Testwertverteilung und ggf. Normalisierung 58 4.2 Schwierigkeitsanalyse Schwierigkeitsindex (Pi) Prozentuale Anteil an Probanden, die die Aufgabe richtig gelöst haben (z.B. bei Leistungstests, etc.) 0 = absolut schwer < 20 = hoch 20 - 80 = mittel (guter Bereich) > 80 = niedrig 100 = absolut leicht 59 4.2 Schwierigkeitsanalyse  Item mit Schwierigkeitsindex ◦ Pi < 20 oder ◦ Pi > 80  Sind aus dem Test zu entfernen, da sie zu leicht (Pi >80) oder zu schwer (Pi 0, dann ist die Verteilung rechtsschief, d.h. linkssteil Schiefe(x) 0, spitzere Verteilung Exzess ( x )  Exzess(x)

Use Quizgecko on...
Browser
Browser