Testtheorie PDF
Document Details

Uploaded by DurableTrumpet7289
RPTU
Tags
Summary
Dieses Dokument befasst sich mit den Grundlagen der Testtheorie, einschließlich der Gütekriterien und verschiedener Testarten. Es werden psychologische Tests, deren Ziele, sowie die Anwendung von Persönlichkeitstests und Leistungstests erläutert. Das Dokument beinhaltet auch Informationen zur Konstruktion und Bewertung von Tests.
Full Transcript
Grundlagen der Testtheorie Grundlagen & Gütekriterien Psychologischer Test: Erfassen Fähigkeiten, Eigenschaften, Fertigkeiten & Zustände einer Person Wissenschaftliches Routineverfahren zur Erfassung der Ausprägungen von empirisch abgrenzbaren psych...
Grundlagen der Testtheorie Grundlagen & Gütekriterien Psychologischer Test: Erfassen Fähigkeiten, Eigenschaften, Fertigkeiten & Zustände einer Person Wissenschaftliches Routineverfahren zur Erfassung der Ausprägungen von empirisch abgrenzbaren psychologischen Merkmalen mit dem Ziel, möglichst genaue Aussagen über den relativen quantitativen Grad oder die qualitative Kategorie der individuellen Merkmalsausprägungen zu gewinnen Voraussetzungen: Muss Qualitätsstandards genügen -> wissenschaftlich Standardisiertes Vorgehen -> Routineverfahren Erfassung klar definierter Konstrukte -> empirisch abgrenzbare psychologische Merkmale Ausprägung des Merkmals -> quantitativ, z.B. niedrig-hoch- unterdurchschnittl.(z.B. Neurotizismus, Intelligenz) Vorhandensein/Art des Merkmals -> qualitativ (z.B. psychische Erkrankung) Item: Aufgabe/ Frage in einem Test Konkrete Daten, die ausgewertet werden können Manifest (beobachtbar) Konstrukte: Eigenschaft, Fähigkeit, Merkmal Latente Variablen (nicht direkt beobachtbar) -> z.B. Extraversion Messung von Konstrukten: Konstrukte äußern sich in beobachtbarem Verhalten In psychologischen Tests werden Items als beobachtbare Indikatoren des Konstrukts verwendet Wås ïst Tëstthëørïë? Beschäftigt sich mit dem Zusammenhang zwischen dem Antwortverhalten im Test (Items) und dem zu erfassenden latenten Konstrukt Theoretischer Hintergrund zur Konstruktion & Interpretation von Testverfahren → Sagt aus mit welchen Regeln man vorgeht um einen Test zu erstellen Wann wird Testtheorie angewendet Entspricht das Antwortverhalten direkt dem interessierenden Merkmal, benötigt man keine Testtheorie -> z.B. „Treiben Sie regelmäßig Sport?“ Bei psychologischen Konstrukten ist Testtheorie vonnöten, da von dem Antwortverhalten im Test auf das latente Konstrukt geschlossen wird Ziele psychologischer Tests: Querschnittlich: ErfassungdesMerkmaeinemzeipn n nen Position des Individuums innerhalb einer Gruppe feststellen Unterschiede in der Merkmalsausprägung zwischen Individuen/Gruppen erfassen Klassifikation: Feststellung des Vorhanden/Nichtvorhandenseins eines Merkmals oder einer über einem Kriterium liegenden Merkmalsausprägung Profil: Erfassung individueller Merkmalskombinationen (z.B. Persönlichkeitsprofil) Längsschnittlich: innerhalb der Erfassung von Merkmalsveränderungen über die Zeit -> Verlauf > - "Wie gestresst waren Sie U letzten 2 Wochen? Anwendungsbereiche psychologischer Tests: Diagnose psychischer Störungen In der Beratung (z.B. Erziehungsberatung) In der staatlichen Verwaltung (z.B. Berufsberatung) Tätern Forensik Beurteilung Schuldfähigkeit von > - der Im Unternehmen (z.B. Personalauswahl) Im pädagogischen Bereich (z.B. Schulreife, Intelligenzdiagnostik) Forschung Arten psychologischer Tests: Leistungstests: richtige & falsche Lösungen, Ziel ist es maximal mögliches Verhalten zu erfassen (z.B. Intelligenztest) → z.B. d2-R Test: jedes d mit 2 Strichen soll durchgestrichen werden -> so schnell wie möglich → z.B. Intelligenz-Struktur-Test: erfasst mit dem Grundmodul fluide Intelligenz und mit dem Erweiterungsmodul kristalline Intelligenz (Wissen) Psychometrische Persönlichkeitstests: keine richtigen & falschen Antworten, Ziel ist es typisches Verhalten zu erfassen (alltägliches Verhalten) → Z.B. NEO-PI-R: erfasst die BIG FIVE auf der übergeordneten Domänenebene (Persönlichkeitsstrukturtest) → Jede Domäne in 6 Facettenfaktoren unterteilt -> jede Facette wird mit 8 Items erfasst (insgesamt 240 Items) → z.B. Allgemeine Depressionsskala (Klinischer Test) Persönlichkeitsenfaltungs-Verfahrungen/Projektive · Verfahren: Verfahren keine Tests i.S.d. Definition Ziel ist es Projektionen hervorzurufen, die dann Rückschlüsse auf Einstellungen, Wünsche, Motive usw. erlauben → Formdeuteverfahren: Was könnte gegebenes Bild darstellen, mehrere Möglichkeiten → Kein standardisiertes Vorgehen Qüålïtåtsåñførdërüñgëñ åñ Tësts: Objektivität: Durchführung & Auswertung des Tests sowie die Interpretation des Testergebnisses sind unabhängig vom Testleiter Vergleichbarkeit der Testergebnisse von verschiedenen Testpersonen Durchführungsobjektivität: Standardisierung der Durchführungsbedingungen ( z.B. Instruktion, Zeitbegrenzung)-alle Personen erhalten dieselbe Instruktion Testverhalten der Testperson hängt nur von der individuellen Ausprägung des interessierenden Merkmals ab Alle anderen Bedingungen sollten konstant sein/ kontrolliert werden Auswertungsobjektivität: Eindeutige Anweisung, wie Antworten der Testpersonen auf einzelne Testaufgaben hinsichtlich der Unterscheidung von hohen/ niedrigen Merkmalsausprägungen zu kodieren sind Ergebnis der Kodierung darf nicht von Person des Testauswerters abhängen Auswertung mit Schablonen/ Computern -z B automatisier).. Auswertung von multiple Choice tests mit Auswertungsmaschinen bei Ratingskalen/Multiple Choice i.d.R. leichter zu erreichen → Lässt sich angeben als Grad der Übereinstimmung zwischen Testauswertern Interpretationsobjektivität: verschiedene Testauswerter ziehen bei identischen Testergebnissen dieselben Schlussfolgerungen bezieht sich nur auf untersuchtes Merkmal und nicht auf darauffolgende Schlussfolgerungen Normtabellen zur Einordnung der Tesperson im Vgl. zu relevanten Bezugsgruppen Reliabilität/ Zuverlässigkeit: Gibt den Grad der Messgenauigkeit eines Messwerts an -> wie genau messen wir? Wie hoch ist der Messfehler? Erfüllt, wenn Merkmal das gemessen wird, exakt gemessen wird (ohne Messfehler) -Cronbach's Alpha , / (interne Konsistent Intraklassenkorrelation Cohen's Kappa , (Interrater-Reliabilität) Ausmaß der Reliabilität wird über Reliabilitätskoeffizienten angegeben im Wertebreich von 0-1 Quotient aus wahrer Varianz & Gesamtvarianz der Testwerte (s. spätere Vorlesung) Verschiedene Verfahren zur Bestimmung der Reliabilität Retest-Reliabilität: Test wird zu 2 verschiedenen Zeitpunkten durchgeführt Korrelation der beiden Testergebnisse (in wieweit kommt dasselbe Ergebnis raus) Probleme: Korrelation kann in Abhängigkeit vom Zeitintervall variieren (Übungs- und Erinnerungseffekte, Merkmalsveränderungen) Paralleltest-Reliabilität: > - Z B 2.. Mathetests mit denselben Aufgabenarten derselben Schwierigkeit Korrelation der Testwerte aus parallelen Testformen, die dasselbe Konstrukt erfassen & aus inhaltlich möglichst ähnlichen Items bestehen Tests kommen zu denselben wahren Wertrn und gleichen Varianzen Probleme: schwierig parallele Testformen herzustellen -> Verzerrungseffekte durch Messwiederholung Carryover-Effekte > - Vorteil: Übungs- und Erinnerungseffekte können kontrolliert werden Testhalbierungs-Reliabilität: Test wird in möglichst gleiche Hälften geteilt (Bearbeitung des Tests nicht auf einmal) Korrelation der Testhälften mathematischen Faktorsk genauere Reliabilität Ergänzung durch eines ↑ Korrekturfaktor für Testlänge -> aufgewertete Testhalbierungsreabilität Interne Konsistenz: Wird bevorzugt, da sehr einfach zu berechnen Hems stark miteinander Korrelieren Jedes Item wird als eigenständiger Testteil angesehen -hohe Ik , wenn ↳ messen dasselbe Konstrukt Korrelation der Testteile (Items) Alpha unter Berücksichtigung der Testlänge 11 -wird gemessen durch Cronbach's - 70 7. mangelnde 0 7-0 9. gute 1K. Validität: 70 9 zu ähnliche Items. + stark redundant Gibt an, ob Test auch wirklich das misst, was er zu messen beansprucht Inhaltsvalidität: Ausmaß in dem ein Test oder Testitem das zu messende Merkmal repräsentativ erfasst Wenn Testitems im Zuge der Operationalisierung so konstruiert/ ausgewählt werden, dass sie interesssierendes Merkmal repräsentativ abbilden Repräsentationsschluss: Testitems als repräsentative Stichprobe aus dem „Universum“ von Items, die das interessierende Merkmal abbilden -> sind ausgewählte Items repräsentativ zum theoretischen Universum von Items? Bestimmung afgrund logischer und fachlicher Überlegungen Eng verbunden mit Augenscheinvalidität eines Tests -> in wieweit können Nicht- Expertinnen erkennen was gemessen werden soll > - kann problematisch sein , da Verhalten der Testpersonen dadurch verzerrt wird Kriteriumsvalidität: Zusammenhang des Testswerts mit Kriterien Vom Verhalten innerhalb der Testsituation (Testwert) wird auf Verhalten außerhalb der Testsituation geschlossen (Kriterium) Vorhersagevalidität: Korrelation des Testwerts mit zeitlich später erhobenem Kriterium -> z.B. Leistung im Intelligenztest zu Beginn des Studium wird mit Bachelor-Abschlussnote korreliert Übereinstimmungsvalidität: Korrelation des Testwerts mit zeitgleich erhobenem Kriterium -> z.B. Leistung im Konzentrationstest wird mit Erfolg in der Führerscheinprüfung korreliert Retrospektive Validität: Korrelation mit zeitlich vorher erhobenem Kriterium -> z.B. Leistung im Intelligenztest während des Studiums wird mit Abiturnote korreliert Inkrementelle Validität: Beitrag eines Tests zur Verbesserung der Vorhersage eines Kriteriums -> z.B. Gewissenhaftigkeit zur Vorhersage des Berufserfolgs inkrementell zur Leistung im Intelligenztest → In wiefern kann Gewissenhaftigkeit über Intelligenz hinaus einen Beitrag leisten zum Berufserfolg Konstruktvalidität: Wenn Schlussfolgerungen, die aufgrund des Testwerts über das zugrundeliegende Konstrukt gemacht werden, wissenschaftlich fundiert sind → Z.B. kann von den Testaufgaben eines Intelligenztests wirklich auf Ausprägung eines latenten Persönlichkeitsmerkmals Intelligenz geschlossen werden? Oder messen Aufgaben ein anderes Konstrukt wie z.B. Konzentration? in wiefern Korreliert neuer /Q-Test mit bereits etabliertem ? Wenn noch messen beide dasselbe Konstrukt Konvergente Validität: Korrelation mit Tests, die das gleiche/ähnliche Konstrukt ↑ , erfassen -> Erwartung hoher Zusammenhänge → Z.B. sollte Korrelation eines neuartigen Intelligenztests mit einem etablierten Test zu hoher Korrelation führen z B neuer.. Fragebogen zu Depression sollte gering mit etabliertem Angstfragebogen korrelieren (messen verschiedene Konstrukte) Diskriminante Validität: Korrelation mit Tests, die ein anderes Konstrukt Y erfassen -> Erwartung niedriger Zusammenhänge Faktorielle Validität: Prüfung der Struktur mit Verfahren der Faktorenanalyse und Item Response Theorie + z. B. PK-Test zu BIG-FIVE : Erwartung , das 5 Faktoren gemessen werden - wenn bestätigt in FA , ist faktorielle Validität hoch Skalierung: Mondin eine denen RegelnMethodennach Ist erfüllt, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsrelationen adäquat abbilden Personen mit höherer Ausprägung auf dem Konstrukt müssen höhere Testwerte erhalten, als Personen mit niedrigerer Ausprägung auf dem Konstrukt Abhängig von dem Skalenniveau des Tests -> sobald man etwas über die kleiner/ größer Korrelation aussagen kann, ist es relevant > ab - Ordinalskala → Z.B. bei Leistungstests: Forderung, dass leistungsfähigere Person auch höheren Testwert erhalten muss → Empirische Relation der Leistungsfähigkeiten spiegelt sich in resultierenden Testwerten wider Ñëbëñgütëkrïtërïëñ Normierung: Einordnung des individuellen Testwerts einer Person in eine Referenzgruppe Referenzgruppe sollte Testperson hinsichtlich relevanter Merkmale ähneln (z.B. Alter, Geschlecht, Schulbildung) Normstichprobe sollte möglichst groß und repräsentativ sein Normen sollten alle 8 Jahre überprüft und ggf. eine Neunormierung vorgenommen werden Nicht erforderlich bei kriteriumorientiertem Testen (z.B. Kompetenzstufen) Ökonomie: Liegt vor, wenn die Kosten (Zeit, Geld…) gemessen am diagnostischem Erkenntnisgewinn relativ gering sind Hohe Ökonomie darf nicht zualsten der anderen Kriterien gehen (v.a. Validität) Adaptives Testen kann Vorteile bringen: nur die Aufgaben werden bearbeitet von der Testperson, die jeweils größten Informationsgewinn erbringen > - bzw. richtig schwierigere Frage wenn Frage , und andersrum Nützlichkeit: Wenn der Test ein Merkmal erfasst/ vorhersagt, das praktische Relevanz besitzt und es nicht bereits einen Test für das Merkmal gilt, der die übrigen Gütekriterien genauso gut erfüllt wenn auf Grundlage des Tests getroffener Entscheidungen mehr Nutzen, als Schaden erwartet wird → z.B. durch TMS sollte komplexes Merkmal der Studieneignung erfasst werden anhand der Vorhersage des späteren beruflichen Erfolgs → kein anderer Test, der dieses Merkmal ähnlich gut erfasst Zumutbarkeit: Zumutbar, wenn er die Testperson in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet Neben sachlichen Notwendigkeiten auch auf gesellschaftliche Normen achten Unverfälschbarkeit: Wenn Testperson durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern/ verzerren kann > - Z B.. Antwortstile Verfälschung v.a. möglich bei Tests, bei denen leicht zu erkennen ist, was gemessen wird Z.B. „ich achte auf die Bedürfnisse anderer“ Fairness: Wenn resultierende Testwerte zu keiner systematischen Benachteiligung bestimmter Personen afgrund ihrer Zugegörigkeit ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen Kann Inhalt und Durchführung betreffen Ïñtërprëtåtïøñ Gütëkrïtërïëñ Gütekriterien sind keine Eigenschaft des Tests -> z.B. nicht der Test an sich ist valide, sondern die Schlussfolgerungen, die aus den Testergebnissen gezogen werden Gütekriterien liegen nicht für einen Test vor, sondern genau genommen für die Testwerte in bestimmten Stichproben Schritte der Testkonstruktion Konstruktdefinition & Itemgenerierung 1.Køñstrüktdëfïñïtïøñ: 1.1 Vorüberlegungen z B Extraversion.. z B.. Depression B Intelligenz 7.. ↑ ↑ Art des Merkmals: kontinuierlich (qualitativ/quantitativ Aussagen) oder. z B. Diagnosen , kategorial Geselligkeit B Bindungstyp Z.. Unidimensional (ein eng umgrenztes Merkmal, lässt sich nicht in Subkonstrukte unterteilen) oder mehrdimensional (lässt sich in verschiedene Facetten ↳ z B Extraversion aufteilen).. Stabile Eigenschaft (trait) oder Zustand (state) ↳ Ängstlichkeit (momentan) ↳ Angst → Trait: „geben Sie an, wie Sie sich im Allgemeinen fühlen, d.h. die meiste Zeit“ → State: „Geben Sie an, wie Sie sich in diesem Moment, d.h. jetzt gerade fühlen Mehrdimensionale Merkmale: Extraversion = übergeordnetes Konstrukt, mehrdimensionales Merkmal Geselligkeit z.B. eng umgrenztes Merkmal, teilt sich nicht in Subkategorien auf (unidimensional) Mehrdimensionale Tests: Konstrukt nur einzelnes -erfassen nicht z.B. BIG-FIVE Fragebogen (NEO-PI-R) jedes der Items misst nur 1 einzelnes Konstrukt -> z.B. Item 1 misst nicht Verträglichkeit, sondern nur Extraversion Mehrdimensionale Items: ein Item, dass mehrere Konstrukte misst -> z.B. Item 3 misst misst Mur Extraversion Extraversion & Verträglichkeit weitere Vorüberlegungen der Konstruktdefinition: S mehrdimensionales Testart (z.B. Persönlichkeitstest/Leistungstest) Item Zielgruppe: Personengruppe über die mit dem Test Aussagen gemacht werden sollen Testlänge (Itemzahl) und Testzeit (Bearbeitungsdauer) Testadministration: Paper-Pencil vs. Computer, Einzel- oder Gruppentestung Nützlichkeit: wird der Test benötigt? Gibt es schon Tests, die das Merkmal genauso gut erfassen? -z B TMS.. (einzige seiner Art 1.2 Eingrenzung des Merkmals & Erstellung der Konstruktdefinition Top-down: 1.Konstruktdefinition erstellen, 2. Items generieren → V.a. sinnvoll, wenn schon Wissen über Konstrukt vorhanden ist > z -. B. Intelligenz , Extraversion etc. Bottom-up: 1.Items generieren, 2. Konstruktdefinition erstellen > - Z B.. digitale Erschöpfung → V.a. sinnvoll bei neuen Konstrukten Kombination beider Vorgehensweisen möglich Top-down Methoden: 1.Befragung von Experten: Experten erarbeiten Konstruktdefinition bzw. Elemente der Konstruktdefinition Auch sinnvoll manchmal, Laien als Experten einzubeziehen Mögliches Problem: Ergebnis hängt von der Qualität des Expertenwissens ab 2.Literaturrecherche Recherche in Büchern, Überblicksartikeln, Literaturmaschinen/-datenbanken & bereits existierenden Verfahren Ziel: Sammeln & Systematisieren wiederkehrerender Definitionsmerkmale des Konstrukts Bottom-up Methoden: Items generieren, gemeinsame Aspekte der Items als Grundlage für die Konstruktdefinition verwenden Verwendung von standardisierten Beobachtungs- oder Befragungsinstrumenten zur Identifikation der Elemente des Konstrukts -> z.B. Critical Incident Technique zur Ermittlung von Verhaltensankern Fazit Konstruktdefinition: Alle Methoden liefern Infos über: Indikatoren für das zu erfassende Konstrukt und Zusammenhänge zu anderen Konstrukten (Überlappungen, Unterschiede, nomologisches Netzwerk) → Formulierung einer Definition → Konstruktdefinition ist wichtig für alle weiteren Schritte der Testkonstruktion 2. Ïtëmgëñërïërüñg & Ërstëllüñg ëïñës Tëstëñtwürfs: 2.1 Konstruktion von Items für den anfänglichen Itempool 1. Intuitives Vorgehen: v.a. bei neuen Konstrukten 2. Basierend auf einer Theorie über das Konstrukt: → Voraussetzung: elaborierte Theorie über das Konstrukt und wie sich Menschen darin unterscheiden → Bsp: I-S-T 2000R basierend auf Thurstones Intelligenzmodell 3. Literaturrecherche > Z B in -.. Artikeln immer wiederkehrende Informationen Sammeln & systematisieren 4. Existierende Tests als Inspiration (nicht plagiieren!) 5. Fokusgruppen > - für welche Zielgruppe ist der Test vorrangig relevant 6. Interviews 7. Think-aloud (Personen, die zur späteren Testgruppe gehören) Je nach Anwendungsgebiet auch weitere Vorgehensweisen: → z.B. klinische Psychologie: Orientierung an Diagnosekriterien von klinischen Klassifikationssystemen → A & O Psychologie: z.B. Personalauswahl: Arbeitsproben oder Tätigkeiten, die auf einer Stelle ausgeübt werden, als Grundlage Wie viele Items sollte der anfängliche Itempool enthalten? Deutlich mehr als später für den Test benötigt, damit später auch solche, die ineffektiv sind, entfernt werden können Empfehlung von DeVellis: 3-4 mal so viel, wie man benötigt Item- und Antwortformate: Bevor Items generiert werden, muss das Item- und Antwortformat festgelegt werden Ein Item besteht aus einem Itemstamm und der Antwort Ïtëmførmåtë: → Single-Stimulus: nur 1 Itemstamm wird vorgegeben Itemstamm & → Forced-choice: es werden gleichzeitig 2 oder mehr Itemstämme vorgegeben D Varianten des Forced-Choice Format: Åñtwørtførmåtë: 4 z. B. der ↳ Z B Erkläre , Beschreibe.. et 7. I Z. B. Llckentexte -Z B droph B mit Schieberegler.. "drag & -Ja Nein-Aufgaben - > 7 -.. selbst verorten (2 Antwortmöglich. keiten > - Z B. Comic in richtige. > - Multiple-Choice > Grad - der Zustimmung Reihenfolge bringen Freies Antwortformat: Beantwortung des Items ist nicht oder nur in geringem Maße durch Antwortvorgaben eingeschränkt Zeichnungen möglich > - auch Gebundenes Antwortformat: Vorgabe konkreter Lösungsmöglichkeiten oder Antwortalternativen Atypische Antwortformate: z.B. Durchstreichtests Freies Antwortformat: Ergänzungsaufgaben Arten: offene Fragen (z.B. in welchem Land liegt…), Lückentext Vorteile: Zufalllösungen kaum möglich, qualitative Auswertung möglich, komplexe Aufgaben können konstruiert werden Nachteile: prüft meist nur Faktenwissen, evtl. Suggestivwirkung der Fragestellung (klar worauf Frage abzielt), Ketteneffekte möglich (bei Falschausfüllen 1 Lücke auch andere falsch), hoher Zeitaufwand bei Bearbeitung, eingeschränkte Auswertungsobjektivität, wenn mehrere Begriffe passen Kurzaufsatzaufgaben Fragen werden mit kurzen, freien Antworten beantwortet -> z.B: was ist die Reliabilität eines Tests? Vorteile: freie Reproduktion von Wissen möglich, Zufallslösung nicht möglich Nachteile: evtl. eingeschränkte Auswertungsobjektivität, da es schwierig istm eindeutige Auswertungskriterien zu finden Gebundenes Antwortformat: Ordnungsaufgaben Zuordnungsaufgaben: Elemente der Aufgabe müssen einander zugeordnet werden Vorteile: Durchführung & Auswertung ökonomisch, eignet sich zur Überprüfung von Wissen Nachteile: nur Wiedererkennungsleistung erfoderlich, keine Reproduktion, Antwortalternativen sind voneinander abhängig Umordnungsaufgaben: Umsortieren von Elementen, sodass sinnvolle Reihenfolge entsteht Vorteile: kann eingesetzt werden, wenn Testergebnisse durch Lesefähigkeit beeinträchtig werden können, eignet sich zur Erfassung von schlussfolgerndem Denken, Ursache-Wirkungs Zusammenhängen & Abstraktionsfähigkeiten Nachteile: hoher Materialverbrauch, für Gruppentestungen nur bedingt brauchbar Auswahlaufgaben: richtige bzw. zutreffende Antwort muss aus 2 oder mehr Antwortalternativen gewählt werden j Wichtige Aspekte bei Konstruktion: Wahl geeigneter Distraktoren, Diskunktheit der Antwortalternativen, Exhaustivität der Antwortalternativen (nicht bei Leistungstests), Anzahl der richtigen Antwortalternativen Wahl geeigneter Distraktoren: = falsche Antwortalternativen, die von der richtigen Lösung ablenken Gute Distraktoren sind richtigen Antwort ähnlich und plausibel Zu leichte: Ratewahrscheinlichkeit steigt Mehrdeutig interpretierbar: Personen mit hoher Fähigkeit wählen evtl. Distraktor anstatt richtiger Antwort Disjunktheit der Antwortalternativen: Antwortalternativen müssen sich gegenseitig ausschließen > z -. BBMI-Kategorie. Person kann reinfallen (klare nur in eine Abgrenzung) Exhaustivität der Antwortalternativen: Mit den Antwortalternativen müssen alle Verhaltensvarianten abgedeckt werden -für Testpersonen passende Antwort alle muss eine dabei sein Gilt nicht für Leistungstests Anzahl der richtigen Antwortalternativen: Dichotome (richtig-falsch) Aufgaben Antwortmöglichkeiten > - 2 → Vorteile: ökonomisch, da kurze Bearbeitungs- und Auswertungszeit, leicht verständliche Instruktion Leistungstests 50 % bei → Nachteile: hohe Ratewk, nur recognition nicht recall, Itemstamm muss klar mit ja/nein beantwortbar sein, wenig differenzierte Informationen, erhöhte Akquieszenz Mehrfachwahlaufgaben (Multiple Choice) -> eine vs. Mehrere richtig → Mehr als 2 Antwortalternativen Dichotome Aufgaben: -Antwortmöglichkeiten auf 2 Alternativen beschränkt Vorteile: ökonomisch (kurze Bearbeitungs-& Auswertungszeit), leicht verständliche Instruktion Nachteile: → Bei Leistungstests: 50% Ratewk für zufällig richtige Lösungen, nur Wiedererkennungsleistung → Bei Persönlichkeitstests: Itemstamm muss eindeutig mit ja/nein beantwortbar sein, wenig differenzierte Informationen, evtl. höhere Akquieszenz (Ja-Sage-Tendent) Mehrfachwahlaufgaben: Mehr als 2 Antwortalternativen 1 richtig: Vs. Mehrere bis alle richtig: Testperson kennt Anzahl der richtigen Antwortalternativen, VP muss selbst entscheiden wie viele Antworten sie für richtig hält Einsatz zur Erfassung von Wissen Vorteile: ökonomisch in Durchführung & Auswertung, niedrigere Ratewk als bei dichotomen Aufgaben (v.a. wenn Anzahl der richtigen Antworten nicht klar ist) Nachteile: schwierig gute Distraktoren zu finden, Wiedererkennung nicht Reproduktion, Antworten können Hinweise auf richtige Lösung geben Bewertungssysteme zur Berücksichtigung von Rateeffekten: → Für jede falsche Lösung Punkt abziehen → Für jede richtige Lösung Punkt vergeben & Bestehensgrenze anheben Beurteilungsaufgaben: Angabe des Ausmaßes der Zustimmung/Ablehnung der im Itemstamm vorgegebenen Aussage Einsatz v.a. in Persönlichkeitstests Arten: Analogskalen & Ratingskalen Analogskalen: Kontinuierliche Skala Problem: Differenziertheit der Messung entspricht i.d.R: nicht der Differenziertheit des Urteils -> Zahlenwerte repräsentieren Abstufungen nicht unbedingt so präzise wie gedacht -deshalb eher selten verwendet Ratingskalen: Vorgabe graduell abgestufter Antwortkategorien zur Einschätzung der Zustimmung zur Aussage im Itemstamm Z.B.: starke Ablehnung – Ablehnung – neutral – Zustimmung – starke Zustimmung Ratingskala meist nicht itemspezifisch, sondern gilt für ganzen Test Aspekte bei der Konstruktion: → Unipolar vs. Bipolar → Anzahl der Stufen → Mittelkategorie → Benennung der Stufen Unipolar: Vorhandener Nullpunkt von dem aus Intensität/Grad der Zustimmung zunimmt Z.B. nie (Nullpunkt) – selten – häufig – immer Bipolar: Von negativem zu positivem Pol über Indifferenzbereich Z.B. starke Ablehnung (negativer Pol) – Ablehnung – neutral (indifferenzbereich) – Zustimmung – starke Zustimmung (positiver Pol) Anzahl der Stufen: 4,5,6… Je mehr Stufen, desto besser kann zwischen Personen mit unterschiedlicher Eigenschaftsausprägung differenziert werden Nur solange bis Abstufungen nicht eindeutig sind/zu nah aneinander liegen (z.B. ↳ mehr Informationsgewinn „manchmal“) sonst kein Nachteil: interindividuelle Unterschiede in Verwendung der Ratingskala (Antwortstile) Mittelkategorie: Neutral, weder noch usw. Soll mittl. Traitausprägung messen, aber wird oft eher gewählt durch fehlende Lust, Verständnis usw. Interindividuelle Unterschiede in Verwendung der Mittelkategorie (Antwortstile) Eher abzuraten davon, es seitA denn Kategorie vorhanden, wie z.B. „keine Angabe“ ↳ begünstigt Verzerrung E. B. durch "Tendenz zur Mitte Benennung der Stufen: Numerisch -> 1,2,3,4,5,6… → Suggeriert Intervallskalenniveau, gleiche Abstände zwischen Stufen nicht gleich den Abständen in Urteilen der VPN Symbolisch (mit Emojis) Verbal: Häufigkeiten, Intensitäten, Wahrscheinlichkeiten, Bewertung → Schwierig Stufenbenennungen zu finden, die gleichabständig sind Kombination Benennung jeder Stufe erhöht Reliabilität & Validität Vorteile von Ratingskalen: Differenzierte Infos über Traitausprägung > - deshalb häufige Einsetzung Ökonomische Durchführung & Auswertung Nachteile von Ratingskalen: Abstufungen werden interindividuell unterschiedlich aufgefasst Antwortstile → Daten von Ratingskalen haben meist Ordinalskalenniveau Fëhlërqüëllëñ bëï dër Ïtëmbëåñtwørtüñg Fehlerquellen: Probanden wählen nicht immer die Antwortkategorie, die ihrer Ausprägung auf dem latenten Konstrukt entspricht Systematische Fehler: erzeugen konstrukt-irrelevante Varianz -> verringern dadurch Validität Unsystematische Fehler: entstehen während unterschiedl. Stufen des Antwortprozesses Kognitiver Prozess bei Beantwortung von Items: Beantwortung von Items erfordert unterschiedl. Kognitive Prozesse, 5 Stadien In jedem der Stadien können Fehler auftreten: 1.Verständnis: Mehrdeutige Items (unklare Formulierung) → Probanden interpretieren Items verschieden oder antworten zufällig 2.Abruf: Verschiedene Faktoren können Abruf beeinflussen (z.B. Priming, Itemkontext und Stimmungslage) → Probanden rufen nur einen Teil der relevanten Information ab 3.Urteil: Antwortenwerdensogetroffendasmaneinmöglichsteinheitein Faktoren: Konsistenzeffekte, Priming, Stimmungslage → Verzerrung in der Bewertung der abgerufenen Infos 4.Antwortwahl: Antwortstile (Bevorzugung/Vermeidung bestimmter Antwortkategorien) Ankereffekte → Antwortwahl reflektiert Urteil nicht akkurat Reihenfolge effekte > - z. B. durch 5.Antwortabgabe: Sozial erwünschtes Antworten Konsistenzeffekte → Abgegebene Antwort entspricht nicht gewählter Antwort & Urteil Optimizing-Satisficing Modell Erklärt warum manche Probanden sich bei der Itembeantwortung von Fehlerquellen beeinflussen lassen & andere nicht Krosnick unterscheidet 2 Gruppen von Probanden, die bei der Bearbeitung verschiedene Strategien verfolgen: 1.Optimizing: Positives Motiv der Person bei Beantwortung der Items optimal mitzuhelfen Gründliche Bearbeitung: alle Stadien des kognitiven Prozesses werden vollständig und gewissenhaft durchlaufen Gründe: persönl. Motivation, Wille zu helfen, Belohnung 2.Satisficing: Keine positiven Motive an der Beantwortung der Items optimal mitzuhelfen Z.B. Ermüdungseffekte, keine Belohnung, abnehmende Motivation Oberflächliche Bearbeitung: Stadien des kognitiven Prozesses werden nur oberflächl. Durchlaufen oder einzelne werden ausgelassen Gründe: unfreiwillige/ beiläufige Teilnahme, Belohnung Vërzërrüñgstëñdëñzëñ Antwort wird (intentional vs. Unbewusst) verzerrt und reflektiert daher nicht akkurat die Ausprägung der Testperson auf dem latenten Konstrukt 3 Arten: Antwortstile, sozial erwünschtes Antworten, unaufmerksames 1.. 2. 3 Antworten (careless responding) Antwortstile: Systematische interindividuelle Unterschiede in der Verwendung der Antwortskala, die unabhängig vom Iteminhalt sind Wahl der Antwortkategorie wird nicht allein durch die Traitausprägung bestimmt Häufiges Auftreten in Fragebögen mit Ratingskalen Mögliche Folgen: Verfälschung des Summenscores, der Faktorstruktur und der Korrelationen (v.a. bei Konstrukt- und Kriteriumsvalidität) 2 Ansätze zur Konzeptualisierung von Antwortstilen: Kategorialer Ansatz B Kategorie "extreme responsive" oder Laquiescenter Mz.. → Annahme: Antwortstile sind kategoriale Variablen → Zwischen Antwortstilen gibt es qualitative Unterschiede Dimensionaler Ansatz → Annahme: Antwortstile sind kontinuierlich verteilt > - Z B in welchem.. Ausmaß Aquieszent vorliegt Methoden zur Reduktion des Auftretens von Antwortstilen: Mittelkategorie weglassen Extrembezeichnungen für beide Pole verwenden Bezeichnungen für alle Antwortkategorien (gut für Reliabilität) Forced-Choice-Format Regeln zu Itemformulierung beachten Søzïål ërwüñsçhtës Åñtwørtëñ Tendenz zu übermäßig positiven Selbstbeschreibungen Positiv i.S.v. in Übereinstimmung mit den sozialen Normen/ Werten Paulhus unterscheidet 2 Komponenten: Impression management: bewusste Selbstdarstellung, um Meinung anderer zu steuern bewusst Kategorie > z -. B. hinterlassen andere ankreuzen , um besseren Eindruck zu Self-deception: unbewusst, Selbstbeschreibungen reflektieren, was Probanden tatsächlich über sich denken (Selbsttäuschung) Situationsabhängig: nur als relevant eingeschätzte Eigenschaften werden bewusst verfälscht +z. B. Überzeugung man würde gewissenhaft arbeiten, obwohl man regelmäßig das Gegenteil gesagt bekommt Methoden zur Detektion sozial erwünschten Antwortens: Spezielle Fragebögen zur Erfassung der Tendenz zum sozial erwünschten Antworten müsste bejaht werden , da jeder mal sauer ist y Validitätsskalen im Fragebogen: Verneinen von Items, wie „Manchmal werde ich wütend“, „gelegentl. Tratsche ich über andere“ als Hinweis auf sozial erwünschtes Antworten Fragen bejahen -ehrliche Person würde solche vs. Person mit Tendenz zum Sozial erwünschtem Antworten nicht Overclaiming-Technique: Angabe, dass man nicht-existierende Begriffe aus unterschiedl. Bereichen kennt, deutet auf sozial erwünschtes Antworten hin ↳ non-existent Problem mit den Fragebögen zur Erfassung sozial erwünschten Antwortens: Können selbst verfälscht werden Enthalten Traitvarianz (z.B. Korrelationen mit den Big Five) Erfassen nach Uziel interpersonell orientierte Selbstkontrolle Nutzen? (z.B. hoher Wert auf der Lügenskala -> sollten Daten ausgewertet werden?) Reduktion von impression management: Aufklärung über Untersuchungsgegenstand Zusicherung der Anonymität Forced-Choice-Format Hinweis, das intentionale Verfälschung detektiert werden kann? Unaufmerksames Antworten: Engl. Careless responding = unabhängig vom Iteminhalt werden unaufmerksam oder zufällig Antwortkategorien ausgewählt Kann sich äußern in: → Wiederholungen einzelner Antwortkategorien → Wiederholungen von Sequenzen → Scheinbar zufälliges Antworten Möglichkeiten zur Detektion: Instruiertes Antworten -> „wählen Sie hier starke Zustimmung aus“ Berechnung von Indizes: maximale Anzahl von identischen Antworten hintereinander, Konsistenzindex ( Korrelationen zwischen Items, die sich ↳ inhaltlich ähneln) auffallend , wenn bei tem a dann z B Starke Zustimmung.. us. Korreliertes Hem 2 "starke Ablehnung Motivation Testmotivation abhängig von: → Einschätzung der Probanden, wie relevant Studie für sie und Gesellschaft isr intrinsische Motivation ↑ Wie hoch ist → Ausprägung der VPN im Trait „Need for cognition“ sich aktiv mit solchen Themen auseinan. derzusetzen Testmotivation umso geringer je: → Komplexer die Items formuliert sind → Schwerer die Items zu beantworten sind → Länger der Test dauert Reihenfolgeeffekte Itemantworten müssen unabhängig voneinander sein Leistungstests: vorausgegangene Items dürfen keine Lösungshinweise für darauffolgende Items geben B werden sich ähnelnde Fragen Persönlichkeitstests: Vermeidung von Konstistenzeffekten („Stimmiges z ↑.. gleich eher beantwortet ,um Bild aufrechtzuerhalten obwohl vielleicht Antworten“) durch Pufferitems oder Vermischung von Items aus , eigentlich andere Meinung unterschiedlichen Subsets -> z.B. NEO-FFI Reihenfolge NEOAC Negativ gepolte Items: Items, bei denen Zustimmung auf niedrige Traitausprägung hinweist Z.B. „Ich bin unglücklich“ statt „ich bin glücklich“ ↳ weist auf niedrige Traitausprägung bei zufriedenheit hin erhöhte Ja-Sage-Tendent ↑ Werden häufig eingesetzt, um Akquieszenz entgegenzuwirken Probleme: → Sprachlich oft schwieriger zu verstehen, als positiv formulierte Items → Können Faktorstruktur verfälschen (unabsichtlich) +7. B durch Falsch-Verstehen der Hems. Ïtëmførmülïërüñg Kategorisierung von Itemarten: Es gibt verschiedene Arten, wie in Items VPN angesprochen und der interessierende Inhalt erfragt werden kann Generell sollten innerhalb einer Skala Vermischungen von Items aus unterschiedlichen Kategorien vermieden werden, da dies zu methodischen Verzerrungen, die auf Testmethode zurückführbar sind Artefakten führen kann > - z B.. nur Hems auswählen, die Extraversion messen (nicht messen 7 B.. welche , die Offenheit Direktes oder indirektes Ansprechen eines Merkmals: Direkt: „Sind Sie ängstlich“ Indirekt: „Fühlen Sie sich unsicher, wenn Sie nachts allein auf der Straße sind“ Direkt angesprochenes Merkmal kann interindividuell unterschiedl. Interpretiert werden Gut gewählte Indikatoren erleichtern eindeutige Interpretation Hypothetische vs. Biografiebezogene Itemformulierung: Hypothetisch: „Stellen Sie sich vor…“ -> Problem: Situationen können unterschiedlich interpretiert werden Biografiebezogen: „Wie haben Sie sich verhalten, als…“ -> zuverlässiger, können aber nur für Situationen verwendet werden mit denen VPN Erfahrung haben Konkreter vs. Abstrakter Inhalt: Konkret: Situationskomponente + z. B. "Ich stelle sicher , dass ich zu einem Termin pünktlich erscheine Abstrakt: unterschiedliche Interpretationen möglich -z. B. Ich bin organisiert" (ohne Konkreten Situationsbezug) Personalisierte vs. Depersonalisierte Form: Personalisiert: zuverlässiger bei ehrlicher Beantwortung, können aber als Verletzung der Privatsphäre empfunden werden mir wichtig -"Der Klimaschutz ist. Depersonalisiert: evtl. nur allgemeine, nichtssagende Antworten -Klimaschutz ist wichtig Stimulusqualität: Emotionale Intensität der Reaktion der Probanden Bsp. Neutral: „Halten Sie sich für einen ängstlichen Menschen?“ Bsp. Hohe emotionale Intensität: „Bekommen Sie Herzklopfen, wenn Ihnen jemand nachts auf der Straße folgt?“ Abgefragte Inhalte: Selbstbeschreibung: „Ich lache oft.“ Fremdbeschreibung: „Meine Freunde halten mich für eine tüchtige Person.“ Biografische Fakten: „Ich habe mehrmals Abenteuerurlaube gemacht.“ Trait/Eigenschaftszuschreibungen: „Ich halte mich für spontan.“ Motivationale Fragen: „Ich habe eine besondere Vorliebe für Aufgaben, die schwer zu lösen sind.“ Fragen zu Wünschen/Interessen: „Ich schaue gerne Dokus an.“ Fragen zu Einstellungen/Meinungen: „Es gibt wichtigeres als berufl. Erfolg.“ Sprachliche Verständlichkeit: Klarheit des sprachl. Ausdrucks hat oberste Priorität Items sollten ohne große Mühe nach einmaligem Lesen verständlich sein Ziel: Iteminhalt soll von allen Probanden in gleicher Weise verstanden werden Regeln: Items positiv formulieren & Negation vermeiden (v.a. doppelte Verneinung) Einfache Satzkonstruktion > - keine verschachtelten Sätte Keine Abkürzungen... " -7 B "K.. , "i d.. R Eindeutigkeit des Iteminhalts: Anpassung der Formulierung an Zielgruppe -> keine Begriffe, die nur bestimmtem Teil bekannt sein könnten Keine mehrdeutigen Begriffe -> „Ich bin in Gesprächen angriffslustig“ Nur ein Sachverhalt/ Gedanke -> „Ich fahre sehr gerne & sehr schnell Auto“ Verallgemeinerungen vermeiden/keine Universalausdrücke -> „Alle Kinder machen Lärm“ Referenzzeitspannen eindeutig definieren -> „In letzter Zeit…“ Schwieriges definieren/ Fremdbegriffe erklären Varianz des Antwortverhaltens: Items sollten so formuliert sein, dass Personen mit unterschiedl. Traitausprägungen unterschiedliche Lösungs- bzw. Zustimmungswahrscheinlichkeiten haben durch unzureichende viele VPN erhalten hohe Trait ausprägung Items mit Decken- oder Bodeneffekten vermeiden Deckeneffekt Differenzierung : ↳ der Ausprägungen Bodeneffekt : viele VPN erhalten sehr niedrige Traitasprägungen - niedrige Traitallsprägungen können nicht mehr Ausnahmen: erfasst werden → klinische Tests zur Unterscheidung von klinischer und nicht-klinischer Population → Leistungstests: Items unterschiedlicher Schwierigkeitsgrade zur Differenzierung im unteren & oberen Merkmalsbereich, Sehr leichtes Item als „Eisbrecher“ Weitere Aspekte: Scholz für einen geeigneten Bundeskanzler? B. Halten sie Olaf Z. Aktualität: Items sollten so formuliert sein, dass sie nicht schnell veralten Keine Wertungen " B "Sie stimmen doch sicher zu , dass 7... Keine Suggestion: Einflüsse von VL und deren Meinungen.. Festlegung der Antwortrichtung: Festlegen, ob zustimmende/ ablehnende Antwort im Sinne einer hohen/niedrigen Ausprägung des interessierenden Konstrukts zu interpretieren ist Ërstëllüñg ëïñës Tëstëñtwürfs Reihenfolge der Items: Bei Leistungstests oft von leicht bis schwierig ansteigend Bei PK-Test Items aus unterschiedlichen Facetten mischen oder randomisierte Darbietung der Items Instruktion: Soll Probanden zur Mitarbeit anregen Wichtige Bestandteile: → Klare Handlungsanweisung & Erläuterung des Antwortformats → Je nach Test 1 Beispielitem & 1 Beispielantwort → Anweisung spontan & wahrheitsgetreu zu antworten und keine Items auszulassen → Hinweis auf Anonymität Demografische Angaben: Können am Anfang oder Ende des Tests erhoben werden Sind auf notwendige Auskünfte zu beschränken Layout: Sprachlich & optisch ansprechend Auf Zielgruppe angepasst Übersichtlichkeit Sollte Bearbeitung erleichtern 3.(Qüålïtåtïvë) Pïløtïërüñg dës ërstëñ Tëstëñtwürfs & Rëvïsïøñ Ziel: Überprüfung der Verständlichkeit & Klarheit der Instruktion und Items i.d.R. mit einer kleinen Stichprobe, dia aus der Zielgruppe für den Test stammt ggf. Pilotierung mit unterschiedlichen Versionen der Instruktion, um zu überprüfen, welche am besten verstanden wird