Fragebogenentwicklung WS24 PDF

B.Sc. Wirtschaftspsychologie Fragebogenentwicklung Vorlesungsunterlagen Wintersemester 2024 ISM 2024 · Brandt 1 Impressum Eine Nutzung des Skriptes, auch in Teilen, ist ohne vorherige Freigabe durch die Hochschule außerhalb der ISM und der von ihr durchgeführten Veranstaltungen untersagt. Verantwortlich für den Inhalt des vorliegenden Skriptes ist der Autor (bzw. die Autoren). Skripten sind in wissenschaftlichen Arbeiten nicht zitierfähig. ISM International School of Management Otto-Hahn-Str. 19 44227 Dortmund www.ism.de ISM 2024 · Brandt 2 Zielsetzung der Veranstaltung Sie werden im Rahmen dieser Veranstaltung das „Handwerkszeug“ für die Entwicklung psychometrischer Fragebogen kennenlernen. Anhand einer semesterbegleitenden Praxisübung werden Sie erste praktische Erfahrungen bei der Fragebogenentwicklung erwerben. Nach der Veranstaltung o können Sie die Qualität von bereits vorhandenen Fragebogen kompetent einschätzen o sind Sie in der Lage, in der Praxis Experten bei der Fragebogenentwicklung zu unterstützen ISM 2024 · Brandt 3 Fragebogenentwicklung Inhaltsübersicht 01 Einführung 04 Praxis der Fragebogenentwicklung 1.1 Fragebogen 4.1 Konstruktionsprinzipien 1.2 Konstruktspezifikation 4.2 Praxisempfehlungen 1.3 Messung psychologischer Konstrukte 05 Datenanalyse 02 Gütekriterien 5.1 Itemanalyse 2.1 Objektivität, Reliabilität, Validität 5.2 Explorative Faktorenanalyse 2.2 Weitere Gütekriterien 5.3 Exkurs: Konfirmatorische Faktorenanalyse 03 Klassische Testtheorie 5.4 Berechnung der Subtestwerte 3.1 Grundannahmen und Axiome 5.5 Anwendung 3.2 Ableitung der Reliabilität 06 Praxisübung Gemeinsame Analyse der selbsterhobenen Daten und Diskussion des Lehrinhalts dieses Kurse anhand der gemachten Erfahrungen Semesterbegleitende Gruppenarbeit: Entwickeln und testen Sie einen eigenen Fragebogen. ISM 2024 · Brandt 4 Semesterbegleitende Praxisübung Entwickeln und testen Sie im Laufe des Semesters einen eigenen Fragebogen: Je nach Gruppengröße in der Gesamtgruppe oder in 2-3 Teilgruppen 1. entscheiden Sie, welches (Haupt-)Konstrukt Sie erfassen möchten 2. ENTWEDER: leiten Sie deduktiv 2-3 Teilkonstrukte ab und überlegen sich für jedes dieser Teilkonstrukte ca. 6 Items (Indikatoren) ODER: überlegen Sie sich induktiv 15-20 Items (Indikatoren) zu Ihrem Hauptkonstrukt 3. treffen Sie die notwendigen Entscheidungen bezüglich der Rating-Skala (Art der Skala, Anzahl der Stufen) 4. erstellen Sie eine Rohfassung Ihres Fragebogens inkl. Instruktion und befragen Sie ca. 50 Personen mit Ihrem Fragebogen Bis spätestens zur vorletzten Vorlesungseinheit müssen die Rohdaten in einer SPSS-Datei vorliegen (bitte auch rechtzeitig an Ihre Dozentin/ Ihren Dozenten schicken), damit im Kurs die Daten gemeinsam analysiert werden können. 5. analysieren Sie Ihre Rohdaten (Itemanalyse und explorative Faktorenanalyse) 6. treffen Sie ggf. Entscheidungen zur Überarbeitung Ihres Fragebogens ISM 2024 · Brandt 5 Modulbeschreibung Prüfungsmodalitäten Der Vorlesungsumfang beträgt 10 Unterrichtseinheiten (á 90 min). Sie müssen – gemäß Studienordnung – für 2 Creditpoints mit folgendem zeitlichen Aufwand rechnen, um die Voraussetzungen zur Prüfung zu erarbeiten: o 15 Stunden Kontaktzeit o 45 Stunden Selbststudium Die Prüfungsleistung besteht aus einer Klausur (120 Minuten) im Rahmen der Modulprüfung „Psychologische Forschungsmethoden II“ mit den Fächern: Fragebogenentwicklung Qualitative Forschung Konsumenten- und Medienforschung ISM 2024 · Brandt 6 Literatur Basisliteratur Kallus, K.W. (2016). Erstellung von Fragebogen (2. Aufl.). UTB. Moosbrugger, H. & Kelava, A. (Hrsg.). (2012). Testtheorie und Fragebogenkonstruktion (2. Aufl.). Springer. Zusatzliteratur Bühner, M. (2011). Einführung in die Test- und Fragebogenkonstruktion. Pearson. Schmidt-Atzert, L., Krumm, S. & Amelang, M. (Hrsg.). (2021). Psychologische Diagnostik. (6. Aufl.). Springer. ISM 2024 · Brandt 7 Fragebogenentwicklung 01 Einführung 1.1 Fragebogen 1.2 Konstruktspezifikation 1.3 Messung psychologischer Konstrukte ISM 2024 · Brandt 8 1.1 Fragebogen Datenerhebungsmethoden Datenerhebung Beobachtung Befragung unsystematisch Interview Fragebogen „Bogen mit systematisch unstandardisiert Fragen“ psychometrischer teilstandardisiert Fragebogen standardisiert ISM 2024 · Brandt 9 1.1 Fragebogen Ein Fragebogen ist mehr als ein Bogen mit Fragen! ▪ Umgangssprachlich wird jeder Bogen mit Fragen als Fragebogen bezeichnet. Kallus (2010): ▪ In der Psychologie ist mit Fragebogen i.d.R. ein psychometrischer Fragebogen gemeint. ISM 2024 · Brandt 10 1.1 Fragebogen Psychometrischer Fragebogen ▪ psychometrische Fragebogen basieren auf der Operationalisierung psychologischer Konstrukte (=„psycho“) ▪ Ziel ist es, psychologische Konstrukte auf einer metrischen Skala zu messen (=„metrisch“) ein psychometrischer Fragebogen verwendet meist eine einheitliche Antwortskala für alle im Fragebogen verwendeten Items (Indikatoren der Konstrukte) jedem psychometrischen Fragebogen liegt eine Fragebogenkonstruktion zugrunde, meist anhand der klassischen Testtheorie mit einem psychometrischen Fragebogen werden psychologische Konstrukte gemessen Wenn in diesem Skript der Begriff „Fragebogen“ verwendet wird, ist immer der „psychometrische Fragebogen“ gemeint (soweit nicht explizit auf Ausnahmen hinwiesen wird). Weiterhin wird in diesem Skript i.d.R. der Begriff „Subtest“ für eine Gruppe von Items innerhalb eines Tests/Fragebogens zur Operationalisierung eines (Teil-) Konstrukts verwendet, anstelle des in der Literatur eher üblichen Begriffs „Skala“ (denn der Begriff Skala bezeichnet bereits das Antwortformat der Items). ISM 2024 · Brandt 11 1.1 Fragebogen Unterschied zwischen Test und Fragebogen Die Begriffe „Persönlichkeitstest“ und „Persönlichkeitsfragebogen“ werden meist synonym verwendet, manchmal aber auch voneinander abgegrenzt. Welche Kriterien lassen sich finden, um beide Begriffe voneinander abzugrenzen? ▪ Im Unterschied zu Fragebogen sind Tests durch Normierung besonders zur Individualdiagnose geeignet (vs. Fragebogen als Forschungsinstrument zur Ermittlung von Gruppenmittelwerten und -unterschieden) ▪ Neben der Normierung gibt es bei vielen Tests (v.a. Leistungstests) eine objektiv richtige Lösung der jeweiligen Aufgabe. (hingegen wird bei Fragebögen i.d.R. in der Instruktion explizit darauf hingewiesen, dass es keine ‚richtigen‘ und ‚falschen‘ Antworten gibt) ▪ und decken i.d.R. einen schmaleren inhaltlichen Bereich ab. (Fragebögen habe ihren Schwerpunkt nicht nur im Leistungs- und Persönlichkeitsbereich, sondern beschäftigen sich mit so gut wie allen psychologischen Themen) Die Konstruktionsprinzipien von Tests und Fragebogen sind weitestgehend gleich, so dass wir uns in diesem Kurs auf die Fragebogenentwicklung konzentrieren. Besonderheiten der Testentwicklung werden bei Bedarf kurz angesprochen (z.B. bei der Itemschwierigkeit). Daher wird in Abschnitt 3 nur die klassische Testtheorie behandelt, aber nicht die Probabilistische Testtheorie. ISM 2024 · Brandt 12 1.1 Fragebogen Qualität in Abhängigkeit vom Anwendungsgebiet Je nach Anwendungsgebiet werden eher „etablierte“ (publizierte) oder „selbstentwickelte“ Verfahren eingesetzt. Etablierte Fragebögen (oder Tests) werden üblicherweise im universitären Umfeld entwickelt, da hier einerseits hohe Anforderungen an die wissenschaftliche Qualität gestellt werden und andererseits die Entwicklung durchaus mehrere Jahre dauern kann werden i.d.R. in einem Fachverlag (z.B. Hogrefe) publiziert und stehen somit der (wissenschaftlichen) Öffentlichkeit für entsprechende Forschung zum jeweiligen Themengebiet zur Verfügung Selbstentwickelte Fragebögen werden in Unternehmen selbst (von hoffentlich ausreichend qualifizierten Mitarbeitern) oder von externen Dienstleistern entwickelt und werden für einen bestimmten Zweck (z.B. Mitarbeiterbefragung) im Unternehmen eingesetzt sollten ebenfalls grundsätzlich die üblichen Gütekriterien (Objektivität, Reliabilität, Validität) erfüllen, erreichen aber i.d.R. nicht den Anspruch wissenschaftlicher Verfahren ISM 2024 · Brandt 13 1.1 Fragebogen Anwendungsgebiet Eignungsdiagnostik Da Verfahren in der Eignungsdiagnostik besonderen Anforderungen genügen müssen (s. DIN 33430), werden hier üblicherweise anerkannte (standardisierte, validierte und normierte) Verfahren eingesetzt, die i.d.R. an Universitäten entwickelt werden. Jedoch sind auch „Eigenentwicklungen“ möglich und üblich – von externen diagnostischen Dienstleistern (nicht-universitär) – von Unternehmen für den Eigenbedarf (z.B. für ein spezifisches Kompetenzmodell) ISM 2024 · Brandt 14 1.1 Fragebogen Anwendungsgebiet Personal- und Organisationsentwicklung Im Rahmen der Personal- und Organisationsentwicklung wird man nicht immer auf bereits vorliegende Tests oder Fragebögen zurückgreifen können (oder wollen). o Eine Ausnahme sind bspw. Persönlichkeitstests im Rahmen von Persönlichkeitsentwicklungsseminaren. o Auch können bei OE-Projekten, z.B. im Rahmen einer Mitarbeiterbefragung, etablierte Verfahren eingesetzt werden, wenn definierte Konstrukte erfasst werden (z.B. Commitment, Arbeitszufriedenheit, psychische Beanspruchung, …) ▪ In der PE müssen häufig projektspezifische Kompetenzen erfasst werden. Hierfür müssen meist spezifische Tests entwickelt werden (z.B. auf ein konkretes Seminar abgestimmter Wissenstest zum Vertriebsverhalten). ▪ In der OE wünschen Unternehmen häufig den Einsatz eines auf ihren konkreten Bedarf zugeschnittenen Fragebogens. Hier sind entweder vorhandene Instrumente an das Projekt anzupassen und/oder ein spezifischer Fragebogen zu entwickeln. ISM 2024 · Brandt 15 1.2 Konstruktspezifikation Konstrukte (Wiederholung) Intelligenz Persönlichkeit Kompetenz Dissonanz Gedächtnis ? Ressource Stress Führungsstil Motiv Obgleich den wissenschaftlichen Methoden die „Dinge an sich“ nicht zugänglich sind, werden zur Erklärung von Phänomenen „gedachte Entitäten“ konstruiert, deren Existenz empirisch nicht belegbar ist, aber theoretisch angenommen wird. „Konstruktionen der Wirklichkeit“ oder Konstrukte sind rein geistiger Natur: Sie besitzen keine beobachtbare Gegenständlichkeit, sondern stellen Strukturen hinter den Beobachtungen dar (latente Variablen). Konstrukte dienen der Findung von Ursachen, der Erklärung von Zusammenhängen sowie der Erstellung von Prognosen. ISM 2024 · Brandt 16 1.2 Konstruktspezifikation Drei Schritte der Operationalisierung (Wiederholung) Konstruktspezifikation Operationalisierung Messung Begriffsklärung: Welche Konkretisierung: Anwendung: Wie können wir Konstrukte benötigen wir, wie Wie können wir die die Messinstrumente benennen wir sie und was Konstrukte auf die empirische definieren und sinnvoll bedeuten sie? Ebene anwenden, d.h. einsetzen, und wie können messbar machen? wir die Gütekriterien Objektivität, Reliabilität und Validität sicherstellen? Analytische Operationale Definition der Qualität der Definition Definition Messung ISM 2024 · Brandt 17 1.2 Konstruktspezifikation Vom vagen Konzept zum spezifischen Konstrukt (Wiederholung) Konzept: Idee oder Begriff ▪ Vage Definition: Keine klaren oder eindeutigen Konturen in der Bestimmung der Merkmale. ▪ Es können große inhaltliche Überschneidungen zwischen unterschiedlichen Konzepten bestehen. Konstrukt: Operationalisierbar ▪ Eindeutige und spezifische Definition: Konstrukte besitzen besondere Merkmale, die nicht mit anderen Konstrukten geteilt werden. ▪ Es existieren empirische Indikatoren, die das Konstrukt abbilden oder beeinflussen. ▪ Operationalisierungsregeln geben vor, auf welche Weise Konstrukte gemessen werden können. ISM 2024 · Brandt 18 1.2 Konstruktspezifikation Messmodell (Wiederholung) Der Zugang zu Konstrukten erfolgt über empirische Indikatoren, sogenannte manifeste Variablen. Manifeste Variablen sind direkt messbar: Ihre Ausprägungen geben Hinweise auf Eigenschaften, Merkmale und Ausprägungen des nicht direkt erfassbaren, zu Grunde liegenden Konstrukts (latente Variable). Zur Erfassung von latenten Variablen werden Messmodelle spezifiziert, die genau definieren, welche Indikatoren das zugrunde liegende Konstrukt beeinflussen oder abbilden. In der empirischen Sozialforschung verwendet man v.a. reflexive Messmodelle: − Das Konstrukt beeinflusst die Indikatoren: Veränderungen im Konstrukt i1 führen zu Änderungen in den Indikatoren − Indikatoren sind Erscheinungsformen des Konstrukts i2 Konstrukt − Indikatoren sind austauschbar − Indikatoren korrelieren hoch miteinander i3 ISM 2024 · Brandt 19 1.2 Konstruktspezifikation Abgrenzung zu anderen (verwandten) Konstrukten (Wiederholung) Beispiel: Abgrenzung der Konstrukte Depression und Burnout Depression Burnout spezifische gemeinsame spezifische Merkmale: Symptome: Merkmale: z.B. z.B. z.B. medikamentöse „emotionale expliziter Behandlung Erschöpfung“ Arbeitskontext Unterschiedliche Operationalisierung (Messung) Depression: z.B. Beck-Depressions-Inventar (BDI) Burnout: z.B. Maslach-Burnout-Inventar (MBI) ISM 2024 · Brandt 20 1.2 Konstruktspezifikation Konstruktspezifikation (Wiederholung) Top-Down: Deduktion Bottom-Up: Induktion Konstrukt ▪ Ausgangspunkt für die Spezifikation ▪ Grundlage für die Definition von sind Theorien. Konzepten sind inhaltliche Aspekte, ▪ Aus der inhaltlichen Eingrenzung die theoretisch oder empirisch eng der Kernbegriffe einer Theorie miteinander zusammenhängen. werden die kennzeichnenden ▪ Aus der „gemeinsamen Varianz“ der Konstrukt-Facetten abgeleitet. inhaltlichen Aspekte werden ▪ Die wesentliche Herausforderung Konzepte extrahiert. besteht in der Findung von ▪ Die Konzeptdefinition erfolgt messbaren Indikatoren, die das anhand der inhaltlichen Aspekte, die theoretische Konstrukt abbilden. zugleich die Kernmerkmale ▪ Wird insbesondere dann darstellen. Indikatoren verwendet, wenn eine Theorie ▪ Wird insbesondere dann relativ ausdifferenziert und angewandt, wenn sich eine Theorie ausgereift ist. noch im frühen Entwicklungsstadium befindet. ISM 2024 · Brandt 21 1.3 Messung psychologischer Konstrukte Arten der Operationalisierung (Wiederholung) Operationalisierungsvariante Beispiel(e) I. Häufigkeit: Auftretenshäufigkeit einer ▪ Anzahl der Vertragsabschlüsse bestimmten Verhaltensweise ▪ Anzahl der richtigen Antworten in einem Leistungstest II. Reaktionszeit: Latenzzeit zwischen Stimulus ▪ Reaktionslatenz nach Auftreten eines und Reaktion unerwarteten Verkehrshindernisses III. Reaktionsdauer: Wie lange reagiert eine ▪ Lösungszeit für eine Mathematikaufgabe Person auf einen Stimulus? ▪ Dauer der Bearbeitung einer Postkorbaufgabe IV. Reaktionsstärke: Intensität der Reaktion auf ▪ Rating-Skala einen Stimulus ▪ Stärke der Hirnaktivitäten V. Wahlreaktionen: Auswahl aus einer Anzahl ▪ Multiple-Choice Aufgaben von Wahlalternativen ▪ Präferenzurteile oder Paarvergleichsurteil ISM 2024 · Brandt 22 1.3 Messung psychologischer Konstrukte Messen (Wiederholung) Messen bedeutet, Objekten Zahlen zuzuordnen, so dass Beziehungen zwischen den Zahlen (numerisches Relativ) Beziehungen zwischen den Objekten (empirischen Relativ) entsprechen. ▪ Objekte können nicht als Ganzes gemessen werden, lediglich deren Eigenschaften sind Farbskala erfassbar ▪ Für die Messung einer Eigenschaftsausprägung muss eine Skala festgelegt werden ▪ Eine Skala stellt eine systematische Zahlenanordnung dar, die jeder Ausprägung eine Zahl zuordnet (a → 1; b → 2; c → 3 etc.) ISM 2024 · Brandt 23 1.3 Messung psychologischer Konstrukte Ratingskala (Wiederholung) □ □ □ □ □ 1 2 3 4 5 Rating-Skalen sind die am häufigsten in der Sozialforschung eingesetzte Operationalisierung. Rating-Skalen können sich auf unterschiedliche Variablenarten beziehen: – Häufigkeit: „Wie häufig überprüfen Sie Ihre Arbeitsergebnisse?“ – Intensität: „Wie stark fühlen Sie sich Ihrem Unternehmen verpflichtet?“ – Zustimmung: „Es sollten keine Boni-Zahlungen an Manager von Unternehmen erfolgen, die vom Staat finanzielle Unterstützung beanspruchen!“ Wenn bei einer Ratingskala der Begriff Likert-Skala verwendet wird, drückt dies aus, dass die Antwortstufen gleiche Abstände haben (so dass ein intervallskaliertes = metrisches Skalenniveau angenommen werden kann) und dass ein Merkmal mit mehreren Indikatoritems gemessen wird. ISM 2024 · Brandt 24 Fragebogenentwicklung 02 Gütekriterien 2.1 Objektivität, Reliabilität und Validität 2.2 Normierung 2.3 Nebengütekriterien ISM 2024 · Brandt 25 2 Gütekriterien Gütekriterien im Überblick Sind es nun 3 oder 4 „Hauptgütekriterien“? Schmidt-Atzert & Amelang (2012), S. 131 ISM 2024 · Brandt 26 2 Gütekriterien Gütekriterien im Überblick (Wiederholung) Objektivität der Messung bzw. des Messinstruments Reliabilität der Messung bzw. des Messinstruments Validität der Messung bzw. des Messinstruments Interne Validität der Untersuchung Externe Validität der Untersuchung in Anlehnung an Neumann (2013), S. 140 ISM 2024 · Brandt 27 2.1 Objektivität, Reliabilität und Validität Objektivität (Wiederholung) Die Objektivität indiziert den Grad, inwiefern die Messergebnisse vom Anwender (z. B. Experimentator in einem Test) unbeeinflusst sind. Eine hohe Objektivität ist gegeben, wenn verschiedene Testanwender bei denselben Personen zu den gleichen Resultaten gelangen. Drei wesentliche Arten der Objektivität – Durchführungsobjektivität – Auswertungsobjektivität – Interpretationsobjektivität ISM 2024 · Brandt 28 2.1 Objektivität, Reliabilität und Validität Arten der Objektivität (Wiederholung) Durchführungsobjektivität – Diese Art der Objektivität bezieht sich auf die Frage, inwiefern die Messung und die Ergebnisse der Messung vom Anwender unabhängig sind. – Eine hohe Durchführungsobjektivität wird durch standardisierte Instruktionen sowie durch Konstanthaltung der Untersuchungsbedingungen sichergestellt. Auswertungsobjektivität – Die Auswertung soll vom Untersuchungsleiter (Auswertenden) unabhängig sein. – Auswertungsobjektivität liegt vor, wenn verschiedene Auswerter eines Tests bei der Auswertung zu dem selben Testwert kommen. Interpretationsobjektivität – Interpretationsobjektivität bezieht sich auf potentielle Einflüsse der subjektiven Einschätzung des Anwenders auf die Deutung des Messwertes. – Durch Verwendung von Normstichproben als Vergleichsmaßstab wird der individuelle Testwert in Bezug zu einer Mehrheit von Personen gesetzt und somit interpretierbar gemacht, inwiefern eine Person von Durchschnitt abweicht. ISM 2024 · Brandt 29 2.1 Objektivität, Reliabilität und Validität Reliabilität (Wiederholung) Reliabilität bezieht sich auf die Genauigkeit (Präzision) eines Tests, Fragebogens oder Erhebungsinstruments. Eine hohe Reliabilität indiziert, dass der gemessene Wert X aus einem hohen Anteil des „wahren“ Konstruktwertes T (VART) und aus einem geringen Fehleranteil (VARE) besteht: VARX = VART + VARE Die Forderung nach einer hohen Reliabilität (Ziel: >.7) impliziert, dass die Messung eines Zielkonstruktes möglichst unabhängig von Störeinflüssen (z. B. Missverständnisse, situative Stimmung der Probanden etc.) sein soll. Es gibt drei Arten der Reliabilitätseinschätzung: – Test-Retest-Reliabilität – Paralleltest-Reliabilität – Split-Half-Reliabilität und die Interne Konsistenz (Erweiterung/Spezialfall von Split-Half) ISM 2024 · Brandt 30 2.1 Objektivität, Reliabilität und Validität Retest-Reliabilität (zeitliche Stabilität des Instruments) Die Retest-Reliabilität ist die Korrelation – zwischen zwei zeitlich versetzten Messungen – durch dasselbe Erhebungsinstrument – an derselben Stichprobe. Je höher die Korrelation, desto größer die Retest-Reliabilität. Nachteile: – Überschätzung der Reliabilität aufgrund von Erinnerungseffekten und Übungseffekten – Schlechte Reliabilität bei zeitinstabilen Konstrukten (z.B. Stress) ISM 2024 · Brandt 31 2.1 Objektivität, Reliabilität und Validität Paralleltest-Reliabilität (Äquivalenz der Instrumente) Die Paralleltest-Reliabilität ist die Korrelation – zwischen zwei verschiedenen Tests, die unterschiedliche Operationalisierungen desselben Konstrukts darstellen – in kurzem zeitlichem Abstand (quasi parallel) – an derselben Stichprobe. Es werden doppelt so viele Items gebildet wie eigentlich benötigt und jeweils zufällig hälftig einem der beiden Tests zugewiesen. Die Durchführung dieser Reliabilitätsmethode ermöglicht Schlussfolgerungen über die Höhe der Reliabilität beider Testformen: Ist die Korrelation hoch, geht man von hoher Reliabilität beider Instrumente aus. Nachteile – Sehr hoher Aufwand der Testkonstruktion – Falls beide Tests gleichermaßen unpräzise messen, führt diese Testmethode zu einer Überschätzung der Reliabilität. ISM 2024 · Brandt 32 2.1 Objektivität, Reliabilität und Validität Split-Half-Reliabilität (Testhalbierungsmethode) Die Split-Half-Reliabilität ist die Korrelation – zwischen zwei Hälften eines Tests – bei der selben Stichprobe. Hierbei werden die Items zufällig einer von zwei Hälften (Subtests) zugewiesen und die Ergebnisse miteinander korreliert. Die Kovarianz der beiden Testhälften repräsentiert die messfehlerfreie „wahre“ Varianz. Nachteil: Diese Methode unterschätzt die Reliabilität des Gesamttests, weil nur die Hälfte der zur Verfügung stehenden Items in die Reliabilitätsschätzung eingeht (Je größer die Zahl der Items, desto größer in der Regel die Reliabilität). Kann durch die Spearman-Brown-Formel korrigiert werden! ISM 2024 · Brandt 33 2.1 Objektivität, Reliabilität und Validität Interne Konsistenz (Cronbachs Alpha) Erweiterung der Testhalbierungsmethode. Das Erhebungsinstrument wird in so viele Elemente zerlegt, wie es Items enthält. Die Korrelationen zwischen den Items spiegeln die „wahre“ Varianz wider. Ist die am häufigsten benutze Reliabilitätsbestimmung (sollte bei der Fragebogenentwicklung durch mindestens eine weitere Reliabilitätsform ergänzt werden) Cronbachs Alpha: Durchschnittliche Testhalbierungsreliabilität eines Tests für alle theoretisch möglichen Testhalbierungen Nachteile: – Mit zunehmender Itemanzahl wird der Cronbachs-Alpha-Wert künstlich erhöht – Bei heterogenen Tests wird die Reliabilität unterschätzt (dann Verwendung von Subtests!) ISM 2024 · Brandt 34 2.1 Objektivität, Reliabilität und Validität Validität (Wiederholung) Validität bezieht sich auf die Gültigkeit bzw. Aussagekraft eines Tests, Fragebogens oder Erhebungsinstruments. Kernfrage des Validitätskriteriums ist, ob und inwiefern ein Test das misst, was er messen soll bzw. was er zu messen vorgibt. Validität stellt das wichtigste Gütekriterium dar (unter der Voraussetzung, dass Objektivität und Reliabilität gegeben sind): durch eine gute Validität wird sichergestellt, dass man durch den Test die für die zugrundeliegende Fragestellung relevanten Informationen erhält. Drei Arten von Validität – Inhaltsvalidität (Augenscheinvalidität) – Kriteriumsvalidität – Konstruktvalidität ISM 2024 · Brandt 35 2.1 Objektivität, Reliabilität und Validität Inhaltsvalidität Die Höhe der Inhaltsvalidität wird nicht numerisch bestimmt, sondern basiert allein auf subjektiver (Experten-)Einschätzung. Strenggenommen handelt es sich bei der Inhaltsvalidität um eine Zielvorgabe, die im Rahmen der Testkonstruktion Berücksichtigung finden sollte. Ein hohe Inhaltsvalidität deutet darauf hin, dass der Inhalt der Fragen oder Aufgaben das messende Konstrukt in seinen wichtigsten Aspekten erfasst. Beispiel: Wissenstest zum Thema Fußball – Inhaltlicher Bezug zu den wichtigsten Merkmalen: Regeln, Spielverlauf, etc. – Fragen zu den wichtigsten Spielen, Spielern, Vereinen und Organisationen ISM 2024 · Brandt 36 2.1 Objektivität, Reliabilität und Validität Augenscheinvalidität (s. Nebengütekriterien) ▪ Augenscheinvalidität gibt an, inwieweit der Validitätsanspruch eines Tests‚ vom bloßen Augenschein her einem Laien gerechtfertigt erscheint. ▪ Vor dem Hintergrund der Akzeptanz von Seiten der Testpersonen kommt der Augenscheinvalidität eines Tests eine ganz erhebliche Bedeutung zu. ▪ Aus der wissenschaftlichen Perspektive ist die Augenscheinvalidität allerdings nicht ausreichend, denn die Validität eines Tests muss auch theoretisch und empirisch belegt werden. Beispiel: „Psycho-Tests“ in (Frauen-) Zeitschriften haben oft eine hohe Augenscheinvalidität, obwohl sie den Kriterien wissenschaftlicher Tests nicht entsprechen – Ursache für die Augenscheinvalidität, bei wissenschaftlich ungenügenden Persönlichkeitstests, ist der sog. „Barnum-Effekt“ ISM 2024 · Brandt 37 2.1 Objektivität, Reliabilität und Validität Kriteriumsvalidität Ein Test weist Kriteriumsvalidität auf, wenn vom Verhalten innerhalb der Testsituation erfolgreich auf ein »Kriterium«, nämlich auf ein Verhalten außerhalb der Testsituation, geschlossen werden kann. Die Enge dieser Beziehung ist das Ausmaß an Kriteriumsvalidität (Korrelationsschluss). Die Kriteriumsvalidität ist definiert als Korrelation zwischen dem Messergebnis und einem „Außenkriterium“, auf das es sich beziehen soll. Das „Außenkriterium“ kann ein Verhaltensmerkmal, aber auch ein anderes Messinstrument sein. Prognostische Validität: Testwert wird zeitlich vor dem Kriteriumswert erhoben; diese Art der Kriteriumsvalidität bezieht sich auf die Güte der Vorhersagbarkeit von Effekten. Übereinstimmungsvalidität: Testwert wird parallel zum Kriteriumswert erhoben Beispiel für Prognostische Validität: Intelligenz (Messung) und Studienerfolg (Kriterium) Beispiel für Übereinstimmungsvalidität: Ein neu entwickelter Test wird mit einem Standardtest (für das gleiche Konstrukt) korreliert ISM 2024 · Brandt 38 2.1 Objektivität, Reliabilität und Validität Konstruktvalidität Ein Test weist Konstruktvalidität auf, wenn der Rückschluss vom Verhalten der Testperson innerhalb der Testsituation auf zugrunde liegende psychologische Merkmale (Konstrukte) wissenschaftlich fundiert ist. Die Enge dieser Beziehung wird aufgrund von testtheoretischen Annahmen und Modellen überprüft. Konstruktvalidität bezieht sich auf die Güte der Wahl der Indikatoren (manifesten, messbare Variablen), die mit dem Zielkonstrukt (latente, nicht direkt messbare Variable) im Zusammenhang stehen und der Messung des Zielkonstrukts dienen. Eine hohe Konstruktvalidität indiziert, dass die zur Operationalisierung verwendeten Indikatoren das Zielkonstrukt hinreichend repräsentieren bzw. abbilden. Bestimmung der Konstruktvalidität: z. B. durch eine Multitrait-Multimethod-Analyse (MTMM) oder mit Hilfe der Faktorenanalyse (explorativ und konfirmatorisch) ISM 2024 · Brandt 39 2.2 Weitere Gütekriterien Normierung Die Normierung eines Tests liefert ein Bezugssystem, um die individuellen Testwerte im Vergleich zu denen einer größeren und meist repräsentativen Stichprobe von Testteilnehmern einordnen zu können. Normen sind wichtig, wenn ein Test zur Individualdiagnostik eingesetzt wird. Wird ein Test aber nur für Gruppenvergleiche (oder Forschungszwecke) verwendet, kann auf Normen verzichtet werden. Um in der Einzelfalldiagnostik beispielsweise beurteilen zu können, was 15 richtige Lösungen in einem Leistungstest bedeuten, muss man wissen, wie viele Aufgaben andere Testteilnehmer lösen. Die Normierung stellt einen Bezugsrahmen zur Verfügung und sagt uns, was die Rohpunktwerte „bedeuten“. Zu diesem Zweck werden die Rohwerte in transformierte Norm-Werte überführt. Bei den Normen unterscheidet man: – Äquivalentnormen – Standardnormen (Variabilitäts- oder Abweichungsnormen) – Prozentrangnormen Da die Normierung v.a. für die Eignungsdiagnostik von elementarer Bedeutung ist, und bei Fragebogen (und der Fragebogenentwicklung) eine eher untergeordnete Rolle spielt, wird hier zur Vertiefung auf die ausführlichen Ausführungen zur Normierung im Kurs „Eignungsdiagnostik“ verwiesen. ISM 2024 · Brandt 40 2.2 Weitere Gütekriterien Nebenkriterien ▪ Skalierung ▪ Zumutbarkeit ▪ Akzeptanz ▪ Unverfälschbarkeit ▪ Fairness ▪ Ökonomie ▪ Nützlichkeit Vertiefung: Schmidt-Atzert et al. (Hrsg.). (2021), Kapitel 2.6.5 https://www.springerprofessional.de/psychologische-diagnostik/19985572?searchResult=4.Psychologische%20Diagnostik&searchBackButton=true ISM 2024 · Brandt 41 Fragebogenentwicklung 03 Klassische Testtheorie 3.1 Grundannahmen und Axiome 3.2 Ableitung der Reliabilität ISM 2024 · Brandt 42 3.1 Grundannahmen und Axiome Annahmen der KTT Von wenigen Ausnahmen abgesehen sind die heute gebräuchlichen Fragebögen (und Tests) nach den Regeln der sog. Klassischen Testtheorie (KTT) konzipiert. Die KTT ist eine Reliabilitätstheorie, liefert also eine theoretische Begründung der Reliabilität (Messgenauigkeit). Die KTT basiert auf einigen wenigen Grundannahmen (Axiomen). – Diese werden a priori angenommen und nicht etwa empirisch durch Untersuchungen begründet. – Sie stellen die Grundlage für mathematische Ableitungen dar, die schließlich zu Formeln führen, mit denen die Messgenauigkeit eines Tests berechnet werden kann. Die Auffassungen, welche Aussagen grundlegende Definitionen, welche Zusatzannahmen und welche bereits Ableitungen darstellen, gehen in der Sekundärliteratur auseinander. Steyer und Eid (2001), denen sich Bühner (2010) anschließt, gehen von nur zwei Grundannahmen aus. ISM 2024 · Brandt 43 3.1 Grundannahmen und Axiome Grundannahmen der KTT 1. Testwerte sind fehlerbehaftet Die grundlegende Annahme ist, dass Testwerte, also die Ergebnisse die Tests und Fragebögen liefern, fehlerbehaftet sind. Wenn jemand in einem Intelligenztest einen IQ von 131 erreicht, muss er nicht unbedingt hochbegabt sein (Hochbegabung ist definiert als IQ über 130). Der IQ von 131 ist nur der beobachtete Wert, der wahre Wert der Person kann tatsächlich niedriger, aber auch noch höher sein. Die Abweichungen kommen durch Messfehler zustande. 2. Der Messfehler variiert von Messung zu Messung Wir stellen uns vor, dass der Intelligenztest wiederholt würde, ohne dass Erinnerungs- und Übungseffekte auftreten. Der beobachtete IQ wäre nun 125. Da sich die Intelligenz der Person nicht verändert hat (ihr wahrer Wert ist gleich geblieben), muss der Messfehler jedes Mal unterschiedlich groß gewesen sein. Damit sind die zentralen Begriffe beobachteter Wert, wahrer Wert und Messfehler eingeführt. ISM 2024 · Brandt 44 3.1 Grundannahmen und Axiome Akzeptiert man neben den beiden Grundannahmen weitere Annahmen (Axiome), lassen sich Formeln zur Schätzung der Messgenauigkeit (Reliabilität) eines Tests herleiten. Wir können damit die Reliabilität eines Tests berechnen und den Bereich bestimmen, in dem der wahre Wert einer Person (mit einer frei wählbaren Sicherheitswahrscheinlichkeit) liegt. Schon diese kurzen Vorbemerkungen weisen darauf hin, dass die KTT ein sehr nützliches Handwerkszeug darstellt. ISM 2024 · Brandt 45 3.1 Grundannahmen und Axiome Axiom: Verhältnis wahrer Wert, beobachteter Wert, Messfehler Jeder beobachtete Wert Xi einer Person i in einem Test setzt sich zusammen aus einem wahren Wert Ti dieser Person i und einem Fehlerwert Ei: Xi = Ti + Ei Fehlerwert oder Messfehler: ▪ Der Fehlerwert oder Messfehler wird somit als eine Größe angesehen, die sich beim Vorgang des Messens über den wahren Wert legt. ▪ Das Pluszeichen bedeutet nicht, dass der beobachtete Wert immer größer ist als der wahre Wert. Man muss sich lediglich vorstellen, dass der Messfehler positive und negative Werte annehmen kann. ▪ Dadurch weicht der beobachtete, durch die Testanwendung erhaltene Wert mehr oder weniger stark nach oben oder unten vom wahren Wert ab. ▪ Das Ergebnis eines Tests (beobachteter Wert) darf also nicht als absolut genaue Messung angesehen werden. ISM 2024 · Brandt 46 3.1 Grundannahmen und Axiome Axiom: Verhältnis wahrer Wert, beobachteter Wert, Messfehler Xi = Ti + Ei wahrer Wert: ▪ Der wahre Wert einer Person im Test ist unveränderlich, er ist bei jeder Durchführung des Tests gleich groß – so die Annahme. ▪ Der Begriff »wahr« ist übrigens missverständlich. Damit ist nicht die wahre Ausprägung eines Merkmals gemeint, sondern nur die Ausprägung des Merkmals, wie sie mit diesem Test gemessen wird. Man stelle sich vor, für Forschungszwecke würden zwei Forschergruppen je einen Intelligenztest entwickeln, der eine extrem hohe Messgenauigkeit erreichen soll. Nun untersucht man eine Person mit diesen Tests und ist erstaunt, dass der eine Test einen IQ von 120 und der andere einen von 130 ergibt! Um ganz sicher zu sein, untersucht man nun 100 Personen. Die beiden Tests korrelieren r=.60 miteinander (Intelligenztests korrelieren in dieser Größenordnung untereinander). Die Erklärung für dieses Phänomen ist einfach: Jeder Test liefert ein anderes Ergebnis, misst also eine etwas andere Art der Intelligenz. Die wahre Intelligenz einer Person wird man nie herausfinden, da es sie nicht gibt. Intelligenz ist ein Konstrukt, und ein Konstrukt kann man auf vielfältige Weise operationalisieren. Der Zusammenhang zwischen unseren beiden Intelligenztests ist eine Frage der Validität dieser Tests! ISM 2024 · Brandt 47 3.1 Grundannahmen und Axiome Axiom: Für jede Person existiert in einem Test ein wahrer Wert Der wahre Wert einer Person ist konstant – zumindest über einen bestimmten Zeitraum. Er könnte theoretisch ermittelt werden, indem man den Test extrem (genau genommen unendlich) oft durchführt und dabei sicherstellt, dass keine Erinnerungs- und Übungseffekte auftreten. Der Mittelwert oder Erwartungswert aller Messergebnisse (also aller beobachteter Werte) wäre dann der wahre Wert: Ti = E(Xi) Axiom: Der Erwartungswert des Messfehlers ist null Für jede Testperson i stellt der Messfehler Ei eine Zufallsvariable mit dem Erwartungswert (Mittelwert bei unendlich vielen Messungen) null dar: E(Ei) = 0 ISM 2024 · Brandt 48 3.1 Grundannahmen und Axiome Axiom: Messfehler als Gesamtheit aller unsystematischen Einflussgrößen Inhaltlich umfasst das Konzept des Messfehlers die Gesamtheit aller unsystematischen Einflussgrößen, die auf das Messergebnis einwirken können. Unsystematisch bedeutet, dass man nicht weiß, welche Fehlerquellen im konkreten Fall wie stark wirken und in welche Richtung. Messfehler führen dazu, dass es bei einer Messung vielleicht zu einer leichten Abweichung vom wahren Wert nach unten kommt, bei einer anderen Messung zu einer starken Abweichung nach oben. Wie entstehen Messfehler? Grundsätzlich sind die Quellen der Fehlervarianz bekannt. Die Messfehler entstehen durch Fehler: ▪ bei der Testkonstruktion, ▪ bei der Durchführung und ▪ bei der Auswertung des Tests. ISM 2024 · Brandt 49 3.1 Grundannahmen und Axiome Weitere Axiome (Annahmen) Die Messfehler sind unabhängig vom wahren Wert: Corr (Ei, Ti) = 0 Die Messfehler zweier Tests A und B sind unkorreliert: Corr (EA, EB) = 0 Die Messfehler in einem Test A sind unabhängig von den wahren Werten in Test B: Corr (EA, TB) = 0 ISM 2024 · Brandt 50 3.2 Ableitung der Reliabilität Definition der Reliabilität Aus den aufgeführten Axiomen lässt sich mathematisch eine Aussage über die Reliabilität (Messgenauigkeit) eines Tests ableiten. 𝑉𝑎𝑟(𝑇) 𝑅𝑒𝑙 = 𝑉𝑎𝑟(𝑋) Diese Formel stellt die wichtigste Ableitung aus den Annahmen der klassischen Testtheorie dar. Definition: Die Reliabilität eines Tests ist der Anteil der Varianz der wahren Werte (T) an der Varianz der beobachteten Werte (X). Ein Reliabilitätskoeffizient von beispielsweise.80 bedeutet demzufolge, dass die beobachtete Varianz der Testwerte zu 80 Prozent auf Unterschiede zwischen den wahren Werten der Testpersonen zurückzuführen ist und zu 20 Prozent auf Fehlervarianz beruht. Die Formel ermöglicht es, die inhaltliche Bedeutung der Reliabilität zu begreifen. Ziel: Reliabilität >.7 (besser.8) ISM 2024 · Brandt 51 3.2 Ableitung der Reliabilität Schätzung der Reliabilität eines Tests 1/3 Um die Reliabilität anhand empirischer Daten bestimmen zu können, müssen wir die Varianz der wahren Testwerte schätzen. Das gelingt so (am Beispiel der Retest-Reliabilität): Der Test t wird erneut unter identischen Bedingungen mit den gleichen Personen durchgeführt. Diesen zweiten (identischen) Test kennzeichnen wir mit t′. Nun bestimmen wir die Kovarianz dieser beiden Tests: Cov(Xt, Xt′) = Cov(Tt , Tt′) + Cov(Tt , Et′) + Cov(Tt′, Et) + Cov(Et , Et′) Die Fehlerwerte zweier Tests (hier t und t′) sind unkorreliert. Die Fehlerwerte eines Tests (Et bzw. Et′) korrelieren auch nicht mit den wahren Werten eines anderen Tests (Tt bzw. Tt′). Damit werden alle Kovarianzanteile, in denen Et oder Et′ enthalten sind, null. Die Gleichung reduziert sich auf die Aussage, dass die Kovarianz der beobachteten Werte gleich der Kovarianz der wahren Werte ist: Cov(Xt, Xt′) = Cov(Tt , Tt′). ISM 2024 · Brandt 52 3.2 Ableitung der Reliabilität Schätzung der Reliabilität eines Tests 2/3 Test t′ stellt lediglich eine Wiederholung von Test t dar. Wir nehmen daher an, dass die wahren Werte Tt und Tt′ der beiden Tests in einer festen Beziehung zueinander stehen. Damit ist die Kovarianz Cov(Tt, Tt′) identisch mit der Varianz der wahren Werte: Cov(Tt, Tt′) = Var(Tt) Fazit ist, dass die Varianz der wahren Werte eines Tests nun geschätzt werden kann, nämlich als Kovarianz der beobachteten Werte Cov(Xt, Xt′), die bei Wiederholung des Tests unter identischen Bedingungen anfallen. In der Formel für die Reliabilität (Rel = Var(T) / Var(X)) können wir nun Var(T) durch Cov(Xt, Xt′) ersetzen und Var(X) durch das Produkt der Standardabweichungen SD von Xt und Xt′: ISM 2024 · Brandt 53 3.2 Ableitung der Reliabilität Schätzung der Reliabilität eines Tests 3/3 Die große Unbekannte „wahrer Wert“ taucht jetzt nicht mehr auf: Wir können die Reliabilität eines Tests über die Korrelation des Tests mit sich selbst (zweiter Wert durch Testwiederholung gewonnen) schätzen. Diese Variante der Reliabilitätsschätzung wird als Retest-Reliabilität bezeichnet. Für die Praxis lassen sich insgesamt vier bedeutsame Methoden der Reliabilitätsschätzung aus den Axiomen der KTT ableiten: Retest-Reliabilität Paralleltest-Reliabilität Split-Half-Reliabilität (Interne Konsistenz) ISM 2024 · Brandt 54 3 Klassische Testtheorie Kritik an der Klassischen Testtheorie Die Klassische Testtheorie ist eine reine Messfehlertheorie. Sie stellt Definitionen zur Verfügung, mit deren Hilfe man ein Reliabilitätsmaß berechnen kann. Problematisch ist v.a., dass die Klassische Testtheorie nur unsystematische Messfehler betrachtet. In der Praxis treten jedoch systematische Messfehler auf und führen dazu, dass das klassische Modell nicht mehr gilt und daher auch die daraus abgeleitete Reliabilität nicht präzise geschätzt wird. Die Reliabilität ist ein Wert, der per Definition (da auf Korrelationen basierend) zwischen null und eins liegt und die Höhe der Messgenauigkeit einer Messung angibt. Dabei bedeutet ein Wert von eins, dass die Messung perfekt genau ist. Aber genau diese kann laut Grundannahme der Klassischen Testtheorie gar nicht passieren. Ebenfalls problematisch ist, dass die Klassische Testtheorie und damit auch die Definition der Messgenauigkeit auf Varianzen und Kovarianzen einer Stichprobe basiert. Das hat zur Folge, dass für jede Stichprobe die Messgenauigkeit oder Reliabilität neu bestimmt werden muss. Bühner (2011), S. 57 ISM 2024 · Brandt 55 Fragebogenentwicklung 04 Praxis der Fragebogenentwicklung 4.1 Konstruktionsprinzipien 4.2 Grundlagen der Itemanalyse ISM 2024 · Brandt 56 4.1 Konstruktionsprinzipien Um einen guten! Fragebogen zu konstruieren, benötigt man folgende Elemente: ▪ Wissen über die psychologische Diagnostik ▪ Wissen über die Klassische Testtheorie ▪ Wissen über die Test- und Fragebogenkonstruktion ▪ eine Pilotstichprobe (und ggf. einer Normstichprobe) ▪ und viel Erfahrung! Denn: Ein Fragebogen ist mehr als ein Bogen mit Fragen! Oder: Wer dumm fragt,... ISM 2024 · Brandt 57 4.1 Konstruktionsprinzipien Grundlegende Entscheidungen ▪ Messgegenstand festlegen (Konstruktspezifikation) – Definition des Merkmals – Präzisierung des Messgegenstandes ▪ Struktur klären – ein- oder mehrdimensionale Struktur ▪ Anwendungsbereich(e), Zielgruppe(n) und ggf. Einsatzbedingungen, klären und festlegen ▪ Anzahl der Items (pro Konstrukt) ▪ Wahl des passenden Antwortformats – ein Item wird aus einer sog. Frage-Antwort-Einheit gebildet – d.h. nicht nur die Formulierung der Fragen, sondern auch die Wahl des Antwortformats entscheidet über die Qualität eines Fragebogens ISM 2024 · Brandt 58 4.1 Konstruktionsprinzipien Antwortformate ▪ völlig freie Antworten (Erzählungen, Berichte) ▪ eingeschränkte freie Antworten (z.B. „Sonstige: …“) ▪ Zuordnungsaufgaben (und Sortieraufgaben) ▪ Multiple-Choice-Aufgaben (und Forced-Choice-Aufgaben) ▪ Aufgaben mit dichotomen Antworten (z.B. ja/nein) ▪ Beurteilungsaufgaben (Rating-Skalen) Bei Rating-Skalen ▪ Skalentyp – Intensitätsskalen bzw. Zustimmungsskala – Häufigkeitsskalen – Wahrscheinlichkeitsskalen – etc. ▪ Anzahl der Antwortstufen – gerade vs. ungerade – Anzahl der Stufen (i.d.R. 4-7) ISM 2024 · Brandt 59 4.1 Konstruktionsprinzipien Unterschiedliche Antwortmodi zur selben Aussage Das Studium macht mir Spaß. 0 1 2 3 4 5 6 trifft über- trifft trifft eher weder/ trifft eher trifft trifft voll haupt nicht zu nicht zu nicht zu noch zu zu und ganz zu Das Studium macht mir Spaß. 0 1 2 3 4 5 6 gar sehr schwach etwas ziemlich stark sehr nicht schwach stark Das Studium macht mir Spaß. 0 1 2 3 4 5 6 nie selten manchmal mehrmals oft sehr oft immerzu ISM 2024 · Brandt 60 4.1 Konstruktionsprinzipien Itemgewinnung: Deduktive Methode (Rationale Konstruktion) ▪ Das Prinzip der deduktiven Methode stellt für viele Testentwickler wohl die ideale Lösung dar. Man verlässt sich auf eine Theorie, die eine gute Beschreibung des Merkmals liefert. ▪ Inhaltsvalidität: Neben der persönlichen Expertise der Testentwickler ist unbedingt auf die entsprechende Fach- und Forschungsliteratur zurückzugreifen, um eine Begründung des zugrundeliegenden Modells liefern zu können (z.B. im Testmanual). ▪ Konstruktvalidität: Bei der deduktiven Methode ist u.a. die Dimensionalität des zu diagnostizierenden Merkmals zu berücksichtigen. Die Dimensionalität wird z.B. mittels explorativer Faktorenanalyse geprüft. ▪ Kriteriumsvalidität: Um sicher zu sein, dass tatsächlich das jeweils interessierende (und nicht ein anderes) Konstrukt gemessen wird, bedarf es trotz einer zugrundeliegenden Theorie stets der strikten Validierung rational entwickelter Fragebögen an eindeutigen Kriterien für die jeweils interessierende Dimension. ISM 2024 · Brandt 61 4.1 Konstruktionsprinzipien Itemgewinnung: Induktive Konstruktion Unklare Vorstellungen über ein Konstrukt oder spezifischer Messgegenstand ▪ Bei der induktiven Entwicklung von Tests stützt man sich im Wesentlichen auf die Korrelationsrechnung (bzw. die explorative Faktorenanalyse). ▪ In diesem Fall ist weder eine bestimmte Theorie notwendig (wie bei der deduktiven Konstruktion), noch die Orientierung an vorfindbaren Personengruppen (wie bei der externalen Konstruktion). ▪ Vielmehr gruppiert man diejenigen Items zu Subtests, die miteinander hoch, aber niedrig mit anderen Items korrelieren (Einfach-Struktur) und damit gemeinsam eine Dimension konstituieren. ISM 2024 · Brandt 62 4.1 Konstruktionsprinzipien Itemgewinnung: Bewertung der Ansätze ▪ Die deduktive Methode ist bei der Testkonstruktion in der Regel das angemessene Vorgehen. Würde ein Testautor im Manual unter der Überschrift »Theoretische Grundlagen« wichtige Theorien und Erkenntnisse über den Messgegenstand ignorieren und sich beispielsweise für ein induktives Vorgehen entscheiden, hätte dies kritische Bewertungen in der Testrezension zur Folge. Letztlich bedeutet der Verzicht auf ein explizit deduktives Vorgehen, dass man den Stand der Wissenschaft ignoriert und versucht, das Rad neu zu erfinden. ▪ Die induktive Konstruktion wird i.d.R. verwendet, wenn das Konstrukt bzw. die Theorie noch relativ unerforscht ist. Auch bei spezifischen Fragebögen, z.B. für Mitarbeiterbefragungen, wird häufig die induktive Methode verwendet (meist im Sinne der Critical-Incident-Technik). Letzt endlich wird jedoch i.d.R. eine Kombination angewendet, wobei jedoch eine der beiden Varianten im Vordergrund steht. – Bei der deduktiven Methode wissen sind die (Teil-)Konstrukte theoretisch hergeleitet und es werden nun geeignete Items gesucht. Üblicherweise prüfen Sie mehr Items als notwendig, um die besten Items auszuwählen. Das Auswählen geeigneter Items bzw. Ausschließen ungeeigneter Items folgt dann eher dem induktiven Ansatz. – Auch bei einer grundsätzlich induktiven Vorgehensweise, haben Sie zumindest ein Grundverständnis der relevanten (Teil-)Konstrukte, die in die Entwicklung der Items mit einfließt. ISM 2024 · Brandt 63 4.1 Konstruktionsprinzipien Testentwurf ▪ Ein Test (bzw. Fragebogen) muss immer eine Instruktion enthalten, die den Auftrag an die Testpersonen klar und verständlich beschreibt. ▪ Nach Festlegung des Item-Formats werden die Items formuliert. Sie müssen selbstverständlich gut zum gewählten Antwortformat passen. ▪ Bei der Formulierung von Items sind einige Regeln zu beachten, die helfen, »gute« Items zu entwerfen. ▪ Ein Testentwurf sollte zumindest an einer kleinen Stichprobe von Personen (mind. 30 bis 50) erprobt werden. So können Unzulänglichkeiten entdeckt und in der Endversion des Tests korrigiert werden. ISM 2024 · Brandt 64 4.1 Konstruktionsprinzipien Checkliste zur Itemformulierung (Auswahl) − Grammatikalisch einfache Sätze/Fragen formulieren. − Präzise Aussagen/Fragen formulieren. − Auf Bedeutung der Begriffe achten und sicherstellen, dass die Bedeutung für alle Antwortenden gleich ist. − Unklare Begriffe sollten präzisiert werden (z.B. mit „z.B.“), dies sollte aber nur in Ausnahmefällen erfolgen. − Seltene/ausgefallene und regionale Begriffe vermeiden. − Aussagen möglichst affirmativ (positiv wertend, bejahend) formulieren, aber komplexe Negationen, insbesondere doppelte Verneinung, vermeiden. − Items sollten Bezug zum Erleben und Verhalten haben. − So verhaltensnah wie möglich formulieren. − Pro Item nur eine Aussage (kein „und“ oder „oder“). Kallus, (2010) ISM 2024 · Brandt 65 4.1 Konstruktionsprinzipien Itemreihung ▪ Oft werden in Fragebogen die Items eines Subtest als Gruppe dargestellt (meist noch mit der Bezeichnung des Subtests als Überschrift). − Dies kann zu systematischen Messfehlern führen, z.B. durch Ermüdung oder Veränderung der Motivation. − Außerdem besteht das Risiko einer konsistenten Beantwortung (insbesondere bei Selbstbeschreibungen, z.B. in einem Persönlichkeitsfragebogen) und ähnlicher Tendenzen zur wechselseitigen Abhängigkeit der Antworten zwischen Itempaaren oder Itemgruppen. − Dass durch ein solches Vorgehen i.d.R. die Reliabilität überschätzt wird, sollte keine Motivation für den Fragebogenentwickler sein, ein solche Vorgehen zu praktizieren. ▪ Anders als bei Leistungstests, bei denen Items oft nach der Schwierigkeit sortiert sind, sollte bei Fragebögen eine zufällige Durchmischung der Items erfolgen. − Von einer vollständig zufälligen Itemreihung für den gesamten Fragebogen sollte jedoch abgesehen werden, da hierbei eine gewisse Wahrscheinlichkeit besteht, dass Items aus demselben Subtest unmittelbar oder knapp hintereinander folgen können und somit wiederum das Problem der positionsinduzierten Abhängigkeit von Items nicht ausgeschlossen ist. − Daher empfiehlt sich für die Festlegung der Reihenfolge der Items das von Kallus (2010) vorgeschlagene Verfahren (s. nächste Folie). Kallus, (2010) ISM 2024 · Brandt 66 4.1 Konstruktionsprinzipien Verfahren zur Itemreihung 1. Die Subtests werden per Zufall gereiht. 2. Aus jedem Subtest wird nacheinander ein Item zufällig gezogen. 3. Nach dieser Ziehung wird die Reihenfolge der Subtests per Zufall neu geordnet. 4. Danach folgt nacheinander wieder die Ziehung der nächsten Items. 5. Anschließend folgt die nächste Zufallsreihung der vorläufigen Subtests und die Reihung der Items. Kallus, (2010) ISM 2024 · Brandt 67 4.1 Konstruktionsprinzipien Fragebogenvarianten ▪ Selbstbeurteilung vs. Fremdbeurteilung ▪ State- vs. Trait-Ansätze ▪ Kurzformen ▪ modulare Fragebogen ▪ Übersetzungen Kallus, (2010) ISM 2024 · Brandt 68 4.1 Konstruktionsprinzipien Fragebogenvarianten: State- vs. Trait-Ansätze Fragebogen unterscheiden sich in der Spezifität der Erfassung von Merkmalen und in der zeitlichen Integration. Zwischen allgemeinen, zeitstabilen Merkmalen (Traits) wie Ängstlichkeit und aktuellen Zuständen (States) wie der aktuell erlebten Angst liegt die situationsspezifische Erfassung von zeitstabilen Merkmalen (situationsspezifische Fragebogen). Spezifität: Validitätsproblem Bspw. beim Merkmal Ängstlichkeit stellt sich die Frage, ob die Tendenz, Angst zu entwickeln, über viele Situationen generalisierbar ist. Die empirische Angstforschung zeigt, dass physische Gefährdung einerseits und Bedrohung des Selbstwertes bzw. Leistungsangst andererseits nicht in ein gemeinsames Konzept „Ängstlichkeit“ passen. Damit sind für die beiden Bereiche separate, d.h. spezifische, Situationsklassen zu erfassen. Zeitliche Stabilität: Reliabilitätsproblem Bei der Erfassung aktueller Zustände ist die konzeptionell geringe zeitliche Stabilität im Fragebogenkonzept zu berücksichtigen. Fragebogen zur Erfassung von States sollten somit änderungssensitiv sein. Viele State- Fragebogen verstoßen jedoch gegen dieses Gebot, da sie einerseits keinen Zeitraum für die Bewertung des jeweilige Merkmal angeben und andererseits wenig änderungssensitive Antwortformate verwenden (z.B. allgemeine Zustimmungsskalen). Kallus, (2010) ISM 2024 · Brandt 69 4.1 Konstruktionsprinzipien Fragebogenvarianten: Kurzformen Kurzformen von Fragebogen eignen sich insbesondere für Gruppenvergleiche oder zur Identifikation von Risikogruppen (s. Organisationsdiagnostik), wenn nur eine erste grobe Analyse durchgeführt werden soll. ▪ Kurzformen sind auf der Ebene von Subtests meist nicht mehr problemlos interpretierbar, da aufgrund der Kürzung die Zuverlässigkeit der einzelnen Subtests sinkt. ▪ Bei einer Kurzform lassen sich deshalb nur Zusammenfassungen von Subtests (Bereichssubtest bzw. Dimensionen, die auf Basis der Faktorenanalyse auf Subtestebene erstellt werden) oder ggf. Gesamtwerte sinnvoll interpretierbar. Die Erstellung von Kurzformen ist relativ einfach, solange keine parallelen Kurzformen entwickelt werden sollen. In der Regel werden die beiden trennschärfsten Items jedes Subtests (im Extremfall sogar nur das trennschärfste Item) beibehalten und die übrigen Items werden eliminiert. Die teststatistischen Kennwerte für den gekürzten Fragebogen führen in der Regel zu guten Ergebnissen, sind aber selbstverständlich zu überprüfen (insbesondere die Reliabilität für die Bereichssubtests bzw. den Gesamtscore). Kallus, (2010) ISM 2024 · Brandt 70 4.1 Konstruktionsprinzipien Fragebogenvarianten: Modulare Fragebogen Unter dem Begriff „Modulare Fragebogen“ können zwei Ansätze betrachtet werden: „echte“ modular entwickelte Fragebogen (s. Kallus, 2010, S. 102ff.) Bisher sind wenige Verfahren nach dem innovativen Konzept der modularen Fragebogen entwickelt (z.B. die EBF-Verfahrensgruppe: Kallus & Kellmann, 2016). Beim EBF wird immer das allgemein einzusetzende Standardmodul mit einem bereichsspezifischen Modul (z.B. für Sportler EBF-sport, für Berufstätige EBF-work oder für Studenten EBF-student) kombiniert. Subtestauswahl Ein anderer Ansatz, der als modular betrachtet werden kann, besteht in der Auswahl fragestellungsspezifischer Subtests aus einem Fragebogen. Hier werden die für eine spezifische Fragestellung relevanten Subtests ausgewählt und bilden eine verkürzte Version des Fragebogens. Dieses Verfahren ist jedoch mit Vorsicht anzuwenden, da hierdurch ggf. das ursprünglich Konzept des Fragebogens gefährdet wird. Bereichssubtests oder Gesamtscores können hier unter Umständen nicht mehr gebildet werden, falls nicht alle Subtests einer Dimension gemeinsam verwendet werden. Kallus, (2010) ISM 2024 · Brandt 71 4.1 Konstruktionsprinzipien Fragebogenvarianten: Übersetzungen Übersetzungen sind, wie jede Form der Fragebogenanpassung (z.B. Kürzung), erst nach einer Prüfung der Qualität der geänderte Fragebogenvariante (Pilotstudie) einsetzbar. Für neue Sprachversionen sind immer zwei Übersetzungen notwendig: ein bilingualer Übersetzer nimmt die erste Übersetzung vor ein anderer bilingualer Übersetzer mach eine „Rückübersetzung“ Prüfung der Übereinstimmung der originalen Version mit der rückübersetzten Version Wenn sich inhaltliche Unterschiede ergeben, ist eine neue Erstübersetzung und entsprechende Rückübersetzung notwendig, bis die beiden Versionen übereinstimmen. Prüfung der testtheoretischen Qualität der neuen Sprachversion Die neue Sprachversion ist dann anhand einer Pilotstudie hinsichtlich ihrer testtheoretischen Übereinstimmung (oder zumindest großen Ähnlichkeit) zur Originalversion zu prüfen. Dabei kommt es weniger auf gleiche Mittelwerte an (interkulturelle Unterschieden). Entscheidend sind die Reliabilitäten und auch die Streuungen bzw. Verteilungen, sowie die Konstruktvalidität und möglichst auch die Kriteriumsvalidität. Kallus, (2010) ISM 2024 · Brandt 72 4.1 Konstruktionsprinzipien Schritte der Fragebogenentwicklung 1. Zusammenstellung von Subtests a) Inhaltliche und formale Prüfung der Subtests b) Erstellung der Erstfassung c) Deckblatt und Instruktion 2. Pretest und Itemselektion a) Testdurchlauf zur Prüfung durch Zielpersonen b) Überprüfung von Subtests durch Itemanalyse und Faktorenanalyse c) Itemselektion d) Einbeziehung von Iteminterkorrelationen, Itemvaliditäten und -reliabilitäten ggf. Überarbeitung des Fragebogens und erneute Prüfung (neue Stichprobe notwendig!) 3. Erstellung der Endversion Kallus, (2010) ISM 2024 · Brandt 73 4.2 Grundlagen der Itemanalyse Grundzüge der Itemanalyse ▪ Eine Zusammenstellung von Items ist noch kein Test und auch kein (psychometrischer) Fragebogen. Einzelne Items könnten ungeeignet oder wenig geeignet sein, das Merkmal zu messen. ▪ Erst durch eine Itemanalyse (=Reliabilitätsanalyse) gewinnt man Informationen über die Qualität eines jeden Items. Allerdings muss man dazu den (vorläufigen) Test erst einmal einsetzen, um empirische Daten über die Items zu gewinnen. ▪ Die Pilotstichprobe sollte so gewählt werden, dass sie der späteren Zielgruppe entspricht. Denn die Kennwerte der Itemanalyse sind stichprobenabhängig. ▪ Die Itemanalyse wird oft mit der Reliabilitätsanalyse gleichgesetzt: Jedoch liefert die Itemanalyse neben der internen Konsistenz (Cronbachs Alpha) zwei weitere wichtige Kennwerte, die voneinander abhängig sind: die Itemschwierigkeit und die Trennschärfe. ISM 2024 · Brandt 74 4.2 Grundlagen der Itemanalyse Itemanalyse: Itemschwierigkeit Die Itemschwierigkeit gibt an, wie groß der Anteil an Personen ist, die das Item im Sinne des Merkmals beantwortet haben. ▪ Die eigentliche Itemschwierigkeit, als der Anteil der richtig gelösten Aufgaben (je mehr Testpersonen die Aufgabe richtig gelöst werden, desto leichter ist das Item!), kann nur bei dichotomen Items (z.B. richtig/falsch) bestimmt werden. ▪ Bei Fragebögen wird i.d.R. anstelle von dichotomen Antworten (z. B. stimmt / stimmt nicht) mehrstufige Antwortskalen verwendet. Die Testperson soll etwa auf einer fünfstufigen Skala ankreuzen, wie sehr eine Aussage auf sie zutrifft. Wenn Gleichabständigkeit zwischen den Stufen angenommen werden kann (Intervallskala / Likertskala), verwendet man das arithmetische Mittel als Itemschwierigkeit. D.h. je höher der Mittelwert, desto „leichter“ ist das Item. ISM 2024 · Brandt 75 4.2 Grundlagen der Itemanalyse Itemanalyse: Trennschärfe Die Trennschärfe einer Aufgabe ist definiert als die Korrelation des Items mit dem Test bzw. dem Subtest, zu dem das Item gehört. Der Testwert wird dabei über alle Items mit Ausnahme des analysierten Items bestimmt. Sie ist ein Kennwert dafür, in welchem Ausmaß die durch das Item erfolgte Differenzierung der Probanden in Löser und Nichtlöser mit dem Test als Ganzes übereinstimmt (Test) bzw. wie hoch der Zusammenhang zwischen dem Item und dem Konstrukt ist (Fragebogen). ▪ Iteminvertierung: Wenn ein Fragebogen einzelne Items enthält, in denen die Antwort »nein« oder »stimmt nicht« für eine hohe Merkmalsausprägung steht, werden diese Items vor Berechnung des Gesamtwerts und der Trennschärfe invertiert (s. Kapitel 5.1). ▪ Die Höhe der Trennschärfe hängt von der inhaltlichen Passung des Items, der Verteilungsform von Itemantworten und Testwerten sowie von der Streuung sowohl des Items als auch der Testwerte ab. ISM 2024 · Brandt 76 4.2 Grundlagen der Itemanalyse Beispiel: Itemanalyse Itemmittelwert kann als Schwierigkeit interpretiert werden Interne Konsistenz Trennschärfe ISM 2024 · Brandt 77 4.2 Grundlagen der Itemanalyse Schema der Itemselektion nach der KTT ja 1. Trennschärfe >.60 Item beibehalten nein ja Itemverteilung und 2. Trennschärfe >.45 Iteminterkorrelationen prüfen, Formulierungen ggf. überarbeiten nein 2a. Trennschärfe-Schwierigkeiten- ja Streuung des Items klein? Problem lösbar? Formulierung überarbeiten nein ja 2b. faktorielle Inhomogenität Subtest kürzen/splitten nein ja 3. Trennschärfe >.35 Item optimieren nein ja 4. Fremdtrennschärfe >.50 Subtest wechseln nein 5. Item eliminieren Kallus, (2010), S. 90 ISM 2024 · Brandt 78 4.2 Itemanalyse Weitere Überlegungen Die Itemanalyse (im Kern die Reliabilitätsanalyse ggf. ergänzt um die Betrachtung der deskriptiven Statistik der Items) dient v.a. dem Aussortieren von unbrauchbaren oder nicht benötigten Items. Es sollte zu Beginn der Fragebogenentwicklung entweder eine bestimmte Itemzahl (z.B. 4) oder eine Spanne von Items (z.B. 4 bis 6) für die gewünschte Anzahl von Indikatoren für jedes im Fragebogen operationalisierte Konstrukt festgelegt werden. Nach dem – per Itemanalyse – Eliminieren von Items kann es sein, dass weniger Items als geplant für ein einzelnes Konstrukt übrig sind: Hier kann dann die „Fremdtrennschärfe“ nützlich sein. o Korrelation der eliminierten (nicht weiterverwendeten) Items mit den Subtests (Mean der Konstruktitems). o Korreliert vielleicht ein – ursprünglich einem anderen (Teil-)Konstrukt zugeordnetes – Item gut mit einem der (anderen) Konstrukte? o Dann noch einmal eine Itemanalyse für den Subtest unter Einschluss dieses Zusatzitems durchführen, vielleicht passt das Item gut (auch inhaltlich?!) in das Konstrukt und kann hier verwendet werden. Unter Umständen müssen jedoch noch weitere Items konstruiert und mit den übernommen Items an einer neuen Stichprobe geprüft werden. ISM 2024 · Brandt 79 Fragebogenentwicklung 05 Datenanalyse 5.1 Itemanalyse 5.2 explorative Faktorenanalyse 5.3 konfirmatorische Faktorenanalyse (Exkurs) 5.4 Berechnung der Subtestwerte 5.5 Anwendung ISM 2024 · Brandt 80 5 Datenanalyse Vorbemerkung Die Grundzüge der Itemanalyse (Reliabilitätsanalyse) wurden in Abschnitt 4.2 dargestellt und werden hier anhand eines Beispiel in SPSS noch einmal illustriert und vertieft. Die Grundlagen der explorativen Faktorenanalyse (EFA) wurden im dritten Semester im Kurs „praxisorientierte Datenanalyse mit SPSS“ vermittelt und werden hier als bekannt vorausgesetzt (ggf. frischen Sie bitte Ihr Wissen mit dem Skript aus dem 3. Semester noch einmal auf). Hier werden die drei wesentlichen Anwendungszwecke der EFA im Rahmen der Fragebogenentwicklung an jeweils einem Beispiel in SPSS illustriert. Die konfirmatorische Faktorenanalyse (CFA) ist nicht Teil der Bachelor-Ausbildung (diese sollten Sie ggf. im Rahmen eines entsprechenden Masterprogramms kennen lernen). Da die CFA jedoch ein wesentlicher Teil der wissenschaftlichen Fragebogenentwicklung ist, soll diese im Rahmen eines Exkurses kurz eingeführt werden. ISM 2024 · Brandt 81 5.1 Itemanalyse Item-Invertierung Bei der Itemanalyse müssen die verwendeten Items (eines Subtests) alle in die gleiche Richtung „gepolt“ sein, sonst kommen keine verwertbaren Ergebnisse heraus. Wenn ein Subtest sowohl „positive“ als „negative“ Items enthält (wie z.B. beim NEO-FFI) müssen vor der Itemanalyse entweder die positiven oder die negativen Items „invertiert“ (umgedreht) werden. Ob die positiven oder negativen Items invertiert werden ist egal. Die Invertierung sollte immer mithilfe neuer Items erfolgen: Es werden nicht die ursprünglichen Items umgepolt, sondern jeweils ein umgepoltes neues Item erzeugt (Originaldaten bleiben erhalten). bspw. bei einer Skala von 1 bis 5: 1->5, 2->4, 3->3, 4->2, 5->1 In SPSS ENTWEDER: Transformierten > Umkodieren in andere Variable > Name: [für neue Variable vergeben, z.B. item01i] > „alte und neue Werte“ [s. Beispiel oben] ODER: einfach per Syntax; für das Beispiel oben COMPUTE item01i = 6-item01. COMPUTE item04i = 6-item04. ISM 2024 · Brandt 82 5.1 Itemanalyse: Beispiel P:\PM\PM_Bachelor\SPSS\Übungsaufgaben\ebf-stud_Selbstbestätigung.sav 1) Menü „Analysieren“ > Metrisch > Reliabilitätsanalyse ISM 2024 · Brandt 83 5.1 Itemanalyse: Beispiel 2) alle fünf Items markieren > nach „Items:“ verschieben; Modell: Alpha; ggf. Skalenbeschriftung 3) Statistiken: a) „Deskriptive Statistik für“ -> Item -> Skala, wenn Item gelöscht 4) Weiter > OK (oder Einfügen -> Syntax) ISM 2024 · Brandt 84 5.1 Itemanalyse: Beispiel Liegen genug gültige Fälle (> 30) vor? Gibt es evtl. viele ausgeschlossen Fälle (wegen fehlender Daten)? Dies kann ein Hinweis auf die inhaltliche Qualität der Items sein. Prüfen der (zusätzlich ausgegebenen) deskriptiven Itemstatistiken: ist nicht unbedingt notwendig, sollte aber (ggf. nachträglich) erfolgen, wenn sich Problem bei der Reliabilität (nächste Folie) zeigen. Weichen die Mittelwerte stark voneinander ab? Wie sind die Standardabweichungen der Items? (zu groß oder zu klein könnte problematisch sein) ISM 2024 · Brandt 85 5.1 Itemanalyse: Beispiel Ist die Reliabilität (Cronbachs Alpha) zufriedenstellend? (mindestens: ,7) Gibt es bei einem Item Auffälligkeiten bei der „Korrigierte Item-Skala- Korrelation“ (Trennschärfe >.45)? Steigt das Cronbachs Alpha an, wenn ein Item entfernt wird? Das Item 030 schein (statistisch) „entbehrlich“ zu sein, da es nur eine Trennschärfe von ,453 hat und das Cronbachs Alpha nicht fällt, wenn dieses Item entfernt wird. Ob es tatsächlich entfernt werden sollte, ist auch anhand inhaltlicher Überlegungen zu entscheiden. (Ist es inhaltlich wichtig für das Konstrukt? Mit wie vielen Items soll das Konstrukt gemessen werden?) ISM 2024 · Brandt 86 5.1 Itemanalyse: Beispiel Itemanalyse ohne das Items 30: Menü „Analysieren“ > Skalierung > Reliabilitätsanalyse Item „ebfs030...konnte ich meine Stärken gezielt einsetzen“ entfernen OK Das Cronbachs Alpha beträgt ,810 (wie auf der vorherigen Folie vorhergesagt) Das Entfernen keines weiteren Items würde weitere Verbesserung des Cronbachs Alpha ergeben. ISM 2024 · Brandt 87 5.1 Itemanalyse: Syntax (Exkurs) RELIABILITY /VARIABLES = ebfs030 ebfs051 ebfs077 ebfs086 ebfs095 /SCALE ('Selbstbestätigung') ALL /MODEL = ALPHA /STATISTICS = DESCRIPTIVE CORRELATIONS /SUMMARY = TOTAL. RELIABILITY: Befehl zur Ausführung der Reliabilitätsanalyse /VARIABLES: Angabe der zu verwendenden Items /SCALE: (optionale Bezeichnung des Subtests/ der Skala), ALL = alle zuvor definierten Items werden verwendet /MODEL = ALPHA: Berechnung von Cronbachs Alpha (Interne Konsistenz) /STATISTICS: (optional) Angabe welche deskriptiv statistischen Kennzahlen ausgegeben werden /SUMMARY = TOTAL: führt zur Ausgabe verschiedenen Werte der Gesamtstatistik Auswahl der Items (/VARIABLES): wenn die Items im Datensatz nicht hintereinander liegen, müssen die Items einzeln angegeben werden (wie im Beispiel) liegen die Items im Datensatz hintereinander, reicht es das erste und das letzte Item mit TO anzugeben, z.B. item01 TO item06 ISM 2024 · Brandt 88 5.2 Explorative Faktorenanalyse (EFA) Zielsetzungen Die explorative Faktorenanalyse (EFA) kann bei der Fragebogenentwicklung für drei Zwecke eingesetzt werden: A) Identifikation von (Teil-) Konstrukten (bei der induktiven Fragebogenentwicklung) -> über alle Items des Fragebogens hinweg B) Prüfung der „Eindimensionalität“ von Konstrukten (bei der deduktiven Fragebogenentwicklung) -> nur für die Items des jeweiligen Konstruktes C) Identifikation bzw. Prüfung der Dimensionalität eines Fragebogens (auf Subtestebene) -> nicht mit Items, sondern mit allen Subtests des Fragebogens D) Identifizieren von zu invertierenden Items ISM 2024 · Brandt 89 5.2 EFA - Anwendung A Identifikation von (Teil-) Konstrukten bei der induktiven Fragebogenentwicklung Bei der induktiven Konstruktspezifikation wird die EFA genutzt, um eine Struktur in die Items zu bekommen und auf diese Weise (Teil-)Konstrukte zu identifizieren, die anschließend über Itemanalysen geprüft werden. Hier liegt zwar ein gewisser Kausalschluss vor, wenn diese Prüfung anhand des gleichen Datensatzsatzes durchgeführt wird. Es kann sich dennoch zeigen, dass eine per EFA identifizierte Itemgruppe nicht gut genug zusammenpasst, um eine ausreichende Reliabilität sicherzustellen (es sind daher ggf. noch Items dieser Itemgruppe zu entfernen). Negative Faktorenladungen zeigen, dass diese Items (vor der Itemanalyse) zu invertieren sind. Dies sind jedoch nicht unbedingt die tatsächlich im Fragebogen zu invertierenden Items: Die Richtung der Ladung (Vorzeichen) wird für jeden Faktor getrennt bestimmt. So ist es möglich, dass bei einem Faktor die positiv formulierten Items negativ laden (wenn die Mehrheit der Items auf diesem Faktor negativ formuliert sind) und bei einem anderen Faktor die negativ formulierten Items (wenn die Mehrheit der Items auf diesem Faktor positiv formuliert ist). Es ist übrigens nicht sinnvoll einfach alle Items eines Fragebogens in eine Faktorenanalyse zu stecken, in der Hoffnung DIE im Fragebogen vorhandenen Konstrukte zu entdecken. Verfahrensbedingt „zieht“ der erste Faktor die meiste Varianz auf sich (also die meisten Items), der zweite Faktor die zweitmeiste Varianz usw., so dass die Items sehr ungleichmäßig auf die Faktoren verteilt werden. Eine gewisse inhaltliche Vorstrukturierung ist also auch bei der induktiven Fragebogenentwicklung zwingend notwendig. Nur sinnvoll, wenn der Fragebogen nicht zu viele Items hat (nicht mehr als ca. 10-15). ISM 2024 · Brandt 90 5.2 EFA - Anwendung A: Beispiel Neubach & Schmidt (2007): Selbstkontrollanforderungen die Kommunalitäten sind in Ordnung (alle >,5) der KMO-Wert ist mit ,907 sehr gut es werden drei Faktoren mit einen Eigenwert > 1 extrahiert diese Faktoren erklären zusammen 72,6% der Gesamtvarianz ISM 2024 · Brandt 91 5.2 EFA - Anwendung A: Beispiel Neubach & Schmidt (2007): Selbstkontrollanforderungen die rotierte Komponentenmatrix zeigt ein sehr gutes Ergebnis: die Items sind den drei Faktoren korrekt zugeordnet, mit Ladungen >.5 (nur drei Items haben Fremdladungn >.3) ISM 2024 · Brandt 92 5.2 EFA - Anwendung B Prüfung der Homogenität („Eindimensionalität“) von Konstrukten Von der Grundidee und Durchführung der Faktorenanalyse unterscheidet sich diese Anwendung nicht von der Identifikation von (Teil-) Konstrukten bei der induktiven Fragebogenentwicklung. Der Unterschied liegt lediglich darin, dass hier bereits vor der Analyse davon ausgegangen wird, dass die Indikatoren eines Konstrukts auch tatsächlich nur einen Faktor bilden. Diese Annahme kann mit der Faktorenanalyse geprüft werden. Dies Anwendung der EFA ist sehr ähnlich der Itemanalyse. ISM 2024 · Brandt 93 5.2 EFA - Anwendung B: Beispiel EBF-student: Selbstbestätigung (mit Item 30) es wird, wie erwartet, nur ein Faktor mit einem Eigenwert > 1 extrahiert dieser erklärt 57% der Gesamtvarianz ISM 2024 · Brandt 94 5.2 EFA - Anwendung B: Beispiel EBF-student: Selbstbestätigung (ohne Item 30) durch das Entfernen von Item 30 erhöht sich die Varianzaufklärung auf 64% ISM 2024 · Brandt 95 5.2 EFA - Anwendung B: Übung Datei: neo_ffi.sav. 1. Explorative Faktorenanalyse: Prüfen Sie, ob die 12 Items zur Offenheit im NEO-FFI mehrere Teilkonstrukte der Offenheit abbilden. Item-Nummern: 03, 08, 13, 18, 23, 28, 33, 38, 43, 48, 53, 58 2. Itemanalyse: Führen Sie für die gefundenen Faktoren Itemanalysen durch. a) Negative Faktorenladungen zeigen, dass diese Items (vor der Itemanalyse) zu invertieren sind. b) „Optimieren“ Sie ggf. die Subtests durch Entfernen „schlechter Items“. ISM 2024 · Brandt 96 5.2 EFA - Anwendung C Identifikation bzw. Prüfung der Dimensionalität eines Fragebogens Bei dieser Anwendung werden nicht die Items eines Fragebogens als Variablen für die Faktorenanalyse verwendet, sondern die zuvor gebildeten Subtests. Bei der deduktiven Fragebogenentwicklung hat der Entwickler bereits eine Annahme über die Dimensionalität bzw. Struktur des Fragebogens, die mit der Faktorenanalyse überprüft wird. Bei der induktiven Fragebogenentwicklung zeigt/identifiziert ggf. erst die Faktorenanalyse die innere Struktur des Fragebogens. Die Dimensionalität eines Fragebogens ist entscheidend für die Auswertung des Fragebogens bzw. dessen Anwendung: Subtests, die einen gemeinsamen Faktor bilden (Dimension), können – je nach Bedarf – bei der Anwendung zu einem Gesamtwert zusammengefasst werden. Es gibt in der Praxis sowohl eindimensionale Fragebögen (z.B. der Teamqualitätsfragebogen TQF), hier kann ggf. EIN Gesamtwert über den gesamten Fragebogen gebildet werden, als auch konzeptionell mehrdimensionale Fragebögen (EBF, NEO-FFI etc.), hier müssen zwingend die einzelnen Konstrukte separat gebildet werden (es kann kein Gesamtwert berechnet werden). Dieses Vorgehen ist aber nur dann sinnvoll, wenn tatsächlich eine Datenreduktion gewünscht ist. z.B. kommen beim NEO-FFI sehr wahrscheinlich keine fünf Faktoren, mit Eigenwert > 1, für die fünf Konstrukte heraus, eine Zusammenfassung der fünf NEO-FFI-Faktoren zu bspw. zwei Dimensionen verbietet sich theoriebedingt ISM 2024 · Brandt 97 5.2 EFA - Anwendung C: Beispiel 1 Teamqualitätsfragebogen (konzeptionell eindimensional) es wird, wie erwartet, nur ein Faktor mit einem Eigenwert > 1 extrahiert dieser erklärt 84% der Gesamtvarianz ISM 2024 · Brandt 98 5.2 EFA - Anwendung C: Beispiel 2 EBF-student (konzeptionell zweidimensional) es werden, wie erwartet, zwei Faktoren mit einem Eigenwert > 1 extrahiert diese erklären 73% der Gesamtvarianz ISM 2024 · Brandt 99 5.2 Explorative Faktorenanalyse: Syntax (Exkurs) FACTOR /VARIABLES neo_01 neo_06 neo_11 neo_16 neo_21 neo_26 neo_31 neo_36 neo_41 neo_46 neo_51 neo_56 /PRINT INITIAL KMO EXTRACTION ROTATION /CRITERIA MINEIGEN(1) ITERATE(25) /FORMAT SORT BLANK(.3) /EXTRACTION PC /CRITERIA ITERATE(25) /ROTATION VARIMAX. /CRITERIA MINEIGEN(1): Extraktionskriterium = Eigenwert > 1 Alternative: /CRITERIA FACTORS (2) = Festlegen der Anzahl der Faktoren (z.B. 2) /FORMAT SORT BLANK(.3): optional, Ladungen sortiert angezeigt und nur Ladungen ≥ ,3 ISM 2024 · Brandt 100 5.3 Konfirmatorische Faktorenanalyse (Exkurs) Einführung Die konfirmatorische Faktorenanalyse (CFA) ist in die Verfahrensgruppe der Strukturgleichungsmodelle (SEM) eingebettet, wobei mit der CFA Messmodelle spezifiziert werden. Die Durchführung ist mit der Software AMOS, einem SPSS-Zusatzprogramm, möglich. Auch hier wird wie bei der EFA eine Datenreduktion vorgenommen, aber im Gegensatz zur EFA erfolgt bei der CFA die Zuordnung der beobachteten Variablen zu den einzelnen Faktoren a priori theoriegeleitet. Die CFA unterscheidet sich u.a. von der EFA darin, dass explizite Hypothesen formuliert werden, hinsichtlich der Anzahl, der den Variablen zugrunde liegenden Faktoren, der Beziehung zwischen den Variablen und den Faktoren sowie der Beziehungen zwischen den Faktoren untereinander. Die CFA ist somit ein hypothesenprüfendes Verfahren. Die theoretische Zuordnung der manifesten, d.h. der beobachteten Variablen zu den Faktoren (latente Variablen) beinhaltet auch, dass die inhaltliche Bestimmung der Faktoren bereits vor der Analyse feststeht und nicht erst gesucht wird (wie bei der EFA). Mit der CFA wird allgemein geprüft, ob eine hinreichende Übereinstimmung (Modellfit) zwischen den empirischen Daten und dem theoretischen Modell besteht oder ob das Modell verworfen werden muss. ISM 2024 · Brandt 101 5.3 Konfirmatorische Faktorenanalyse (Exkurs) Modellevaluation Die Beurteilung des Modellfits, d.h. der Anpassungsgüte eines Modells, erfolgt unter Berücksichtigung der Stichprobengröße mit Hilfe einer Likelihood-Ratio-Statistik, die bei hinreichend großer Stichprobe einer X2- Verteilung folgt. Der Modellfit kann inferentiell über den X2-Wert (nach einer Daumenregel sollte der aus dem Modelltest resultierende X2-Wert möglichst klein und damit nicht signifikant sein) oder deskriptiv über verschiedene weitere Fit-Maße beurteilt werden:. Moosbrugger & Kelava (2012), S. 338 ISM 2024 · Brandt 102 5.3 Konfirmatorische Faktorenanalyse (Beispiel) X2 = 108 df=54 P(X2) = ,000 X2 = 46,6; X2/df = 2,012 df=50 P(X2) = ,67 CFI = ,776 X2/df = 0,90 RMSEA = ,110 CFI = 1,00 RMSEA = ,00 Es zeigt sich, dass ein 4-Faktorenmodell (Definition von vier Teilkonstrukten; rechts) besser an die Daten angepasst ist, als ein 1-Faktorenmodell (links). ISM 2024 · Brandt 103 5.4 Berechnung der Subtestwerte Da die Items im Fragebogen nur „Mittel zum Zweck“ für die Operationalisierung der interessierenden Konstrukte sind, müssen noch die Konstrukte aus den Rohdaten berechnet werden. Üblicherweise erfolgt die Subtestberechnung einfach über die Mittelwerte (arithmetisches Mittel) der jeweiligen Items des Subtests. Alternativ können auch Summenwerte berechnet werden (was jedoch problematisch bei fehlenden Werten ist). Die Subtestwerte können auch als gewichtete Mittelwerte (mit den Koeffizienten aus einer Regression bzw. konfirmatorischen Faktorenanalyse) berechnet werden. Dies ist zwar konzeptionell sinnvoller als das normale arithmetische Mittel, wird jedoch in der Praxis sehr selten angewendet (da zur Bestimmung der Gewichte eine repräsentative Normstichprobe notwendig ist). In SPSS kann die Berechnung über die Dialogsteuerung (s.u.) oder per Syntax erfolgen. Berechnung eines Mittelwerts mit Dialogsteuerung: Transformieren > Variable berechnen Benennung der Zielvariable (Typ & Beschriftung: Label der Zielvariable) Numerischer Ausdruck o Funktionsgruppe: Statistisch (oder Alle) > Mean o Auswahl der Items, durch „,“ getrennt ISM 2024 · Brandt 104 5.4 Berechnung der Subtestwerte: Syntax Tatsächlich ist die Berechnung mit der Syntax einfacher (und deutlich schneller), als mit der Dialogsteuerung. COMPUTE Zielvariable = Ausdruck. z.B. COMPUTE bea = MEAN (sebe, febe, uber, druc). COMPUTE erh = MEAN (erho, frei, sozu, ress). VARIABLE LABELS bea "Beanspruchung" erh "Erholung". Es kann per Syntax auch definiert werden, welche Mindestzahl der Items gültige Werte haben muss, damit für den jeweiligen Fall der Mittelwert berechnet wird, z.B. COMPUTE bea = MEAN.2 (sebe, febe, uber, druc). Schließlich können (wie es auch bei der Dialogsteuerung notwendig wäre) direkt bei der Mittelwertberechnung die notwendigen Invertierungen vorgenommen werden (die Items müssen nicht vorher separat invertiert werden), z.B. COMPUTE n = MEAN.6 (4-neo_01, neo_06, neo_11, 4-neo_16, neo_21, neo_26, 4-neo_31, neo_36, neo_41, 4-neo_46, neo_51, neo_56). VARIABLE LABELS n „Neurotizismus“. ISM 2024 · Brandt 105 5.5 Anwendung Bei der Anwendung der Datenanalyse sind grundsätzlich zwei Einsatzzwecke zu unterscheiden: Fragebogenentwicklung Eine umfassende Datenanalye (Itemanalyse, explorative Faktorenanalyse, konfirmatorische Faktorenanalyse, Analyse der Validität) ist nur bei der Neuentwicklung (oder Anpassungen, z.B. Erstellen einer Kurzversion) eines Fragebogens notwendig. Einsatz bereits vorhande

Fragebogenentwicklung WS24 PDF

Document Details

Tags

Related

Summary

Full Transcript