Lehrbrief Diagnostik IV – Persönlichkeitsdiagnostik PDF
Document Details
Uploaded by RosySage
PFH Private Hochschule Göttingen
2023
Prof. Dr. Peter Borkenau, Prof. Dr. Boris Egloff, Dr. Anja Friedel, Prof. Dr. Stefan C. Schmukle, PD Dr. Uwe Wolfradt
Tags
Summary
This document is a lecture / study guide about personality diagnostics used in psychology. It covers topics such as standard personality questionnaires, indirect assessment methods and psychometric tests. It also features an overview of relevant historical approaches and discusses the role of quality criteria in evaluating these methods.
Full Transcript
Lehrbrief Diagnostik IV – Persönlichkeitsdiagnostik M10268 Lehrbrief Diagnostik IV – Persönlichkeitsdiagnostik M10268 Autoren: Prof. Dr. Peter Borkenau, Prof. Dr. Boris Egloff, Dr. Anja Friedel, Prof. Dr. Stefan C. Schmukle, PD...
Lehrbrief Diagnostik IV – Persönlichkeitsdiagnostik M10268 Lehrbrief Diagnostik IV – Persönlichkeitsdiagnostik M10268 Autoren: Prof. Dr. Peter Borkenau, Prof. Dr. Boris Egloff, Dr. Anja Friedel, Prof. Dr. Stefan C. Schmukle, PD Dr. Uwe Wolfradt Modulverantwortung: Prof. Dr. Yvonne Görlich Herausgeber: PFH Private Hochschule Göttingen Weender Landstraße 3-7 37073 Göttingen Tel.: +49 (0)551 54700-0 Impressum: www.pfh.de/impressum Datenschutz: www.pfh.de/datenschutz Verlag: © 2023 Hogrefe Verlag GmbH & Co. KG Göttingen Bern Wien Oxford Boston Paris Amsterdam Prag Florenz Kopenhagen Stockholm Helsinki São Paulo Merkelstraße 3, 37085 Göttingen Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Coverbild: https://stock.adobe.com Sonderausgabe: Der Lehrbrief basiert auf Kapitel 1 (Standardisierte Persönlichkeitsfragebögen) und Kapitel 2 (Indirekte Verfahren zur Erfassung von Persönlichkeit – „Objektive Persönlichkeitstests“) des Buches „Persönlichkeitsdiagnostik (Enzyklopädie der Psychologie, Serie Psychologische Diagnostik, Band 4)“, herausgegeben von Lutz F. Hornke, Manfred Amelang und Martin Kersting (2011). ISBN 978-3-8017-1525-0. 2. Auflage, Göttingen 2023 | PFH.FLB.763.2308 5 Inhaltsverzeichnis Abbildungsverzeichnis 8 Tabellenverzeichnis 9 Einleitung 11 Einordnung des Lehrbriefes im Rahmen des Studiums 11 Aufbau und Konzeption dieses Lehrbriefes 12 Lernziele dieses Lehrbriefes 12 Kapitel 1 Historisches 13 1 Historisches 14 Kapitel 2 Vor- und Nachteile von Persönlichkeitsfragebögen 15 2 Vor- und Nachteile von Persönlichkeitsfragebögen 16 2.1 Ökonomie 16 2.2 Objektivität 16 2.3 Reliabilität 16 2.4 Validität 17 2.5 Antworttendenzen 18 Reflexionsaufgabe 20 Kapitel 3 Konstruktionsprinzipien psychometrischer Tests 21 3 Konstruktionsprinzipien psychometrischer Tests 22 3.1 Deduktive oder rationale Skalenkonstruktion 22 3.2 Externale Skalenkonstruktion 22 3.3 Induktive oder faktorenanalytische Konstruktion 24 3.4 Mischstrategien 24 3.5 Vor- und Nachteile der drei Konstruktionsprinzipien 25 3.6 Bedeutung von Normen 26 Reflexionsaufgaben 27 6 Kapitel 4 Multidimensionale Persönlichkeitsfragebögen 29 4 Multidimensionale Persönlichkeitsfragebögen 30 4.1 16 Persönlichkeits-Faktoren-Test Revidierte Fassung (16 PF-R) 30 4.2 Freiburger Persönlichkeitsinventar Revidierte Version (FPI-R) 34 4.3 Trierer Integriertes Persönlichkeitsinventar (TIPI) 38 4.4 Das NEO-Persönlichkeitsinventar Revidierte Fassung (NEO-PI-R) 44 4.5 NEO-Fünf-Faktoren-Inventar (NEO-FFI) 50 4.6 Kurzfragebögen zum Fünf-Faktoren-Modell der Persönlichkeit 50 4.7 Das Temperament- und Charakter-Inventar (TCI) 51 4.8 Myers-Briggs Typenindikator (MBTI) 55 Reflexionsaufgaben 56 Kapitel 5 Tests für einzelne Persönlichkeitskonstrukte 57 5 Tests für einzelne Persönlichkeitskonstrukte 58 5.1 Ängstlichkeit 58 5.2 Repression – Sensitization 61 5.3 Depressivität 63 5.4 Ärger und Aggression 65 5.5 Kontrollüberzeugungen 68 5.6 Selbstregulation (Handlungssteuerung) 71 5.7 Lebenszufriedenheit 72 Reflexionsaufgaben 74 Kapitel 6 Klinisch-psychologisch orientierte Verfahren 75 6 Klinisch-psychologisch orientierte Verfahren 76 6.1 Minnesota Multiphasic Personality Inventory: MMPI und MMPI-2 76 6.2 Persönlichkeits-Stil- und Störungs-Inventar (PSSI) 78 6.3 Toronto-Alexithymie-Skala 81 Reflexionsaufgaben 82 Kapitel 7 Organisationspsychologische Verfahren 83 7 Organisationspsychologische Verfahren 84 7.1 Bochumer Inventar zur Berufsbezogenen Persönlichkeits beschreibung (BIP) 84 7.2 Interessentests (BIT, BIT-II, DIT) 85 7 7.3 Leistungsmotivationsinventar (LMI) 87 Reflexionsaufgaben 88 Kapitel 8 Schlussfolgerungen für die Gesellschaft 89 8 Schlussfolgerungen für die Gesellschaft 90 Kapitel 9 Einführung in indirekte Verfahren zur Erfassung von Persönlichkeit 93 9 Einführung in indirekte Verfahren zur Erfassung von Persönlichkeit 94 9.1 Vorbemerkung 94 9.2 Zur Terminologie und Definition 94 9.3 Überblick 96 9.4 Qualitätskriterien zur Beurteilung der Güte indirekter Verfahren 97 Reflexionsaufgabe 97 Kapitel 10 Historische Ansätze 99 10 Historische Ansätze 100 10.1 Übersicht 100 10.2 Objektive Testbatterie nach Cattell 101 Reflexionsaufgaben 103 Kapitel 11 Neuere computergestützte Verfahren in der Tradition Cattells 105 11 Neuere computergestützte Verfahren in der Tradition Cattells 106 11.1 Testbatterie „Arbeitshaltungen“ 106 11.2 Belastbarkeits-Assessment: Computerisierte Objektive Persönlichkeits-Testbatterie – Deutsch (BAcO-D) 109 11.3 Objektiver Leistungsmotivations-Test (OLMT) 111 Reflexionsaufgaben 113 Kapitel 12 Reaktionszeitbasierte („implizite“) Verfahren 115 12 Reaktionszeitbasierte („implizite“) Verfahren 116 12.1 Überblick 116 12.2 Emotionaler Stroop-Task 116 12.3 Dot-Probe-Task 118 8 12.4 Affektives Priming 119 12.5 Implizite Assoziationstests 122 12.5.1 Arten von Impliziten Assoziationstests 122 12.5.2 Reliabilität von IATs 124 12.5.3 Verfälschbarkeit von IATs 125 12.5.4 Validität von IATs 126 12.5.5 Probleme und Perspektiven 130 12.6 Der extrinsische affektive Simon-Task (EAST) 132 Reflexionsaufgaben 136 Kapitel 13 Ausblick 137 13 Ausblick 138 Kapitel 14 Schlussfolgerungen für die Gesellschaft 143 14 Schlussfolgerungen für die Gesellschaft 144 Anhang 145 Literatur 146 Abbildungsverzeichnis Abbildung 1: Illustration einer Kreuzvalidierung bei externaler Skalenkonstruktion 23 Abbildung 2: Die vier Arten von kritischen Durchgängen im Dot-Probe-Task 118 Abbildung 3: Maskiertes affektives Priming zur Messung des impliziten Selbstwerts 120 Abbildung 4: Schematische Darstellung des Ängstlichkeits-IATs 123 Abbildung 5: Schematische Darstellung der extrinsischen Simon- Tasks (EST) zur Erfassung von Ängstlichkeit 134 9 Tabellenverzeichnis Tabelle 1: Einige bei Fragebögen übliche Antwortformate 14 Tabelle 2: Bezeichnungen, Länge und Reliabilität der Skalen des 16 PF-R 31 Tabelle 3: Bezeichnungen, Reliabilität und konsensuelle Validität der FPI-R-Skalen 35 Tabelle 4: Bezeichnungen, Länge, Reliabilität und konsensuelle Validität der TIPI-Skalen 39 Tabelle 5: Bezeichnungen, Reliabilitäten und konsensuelle Validitäten der NEO-PI-R-Skalen 46 Tabelle 6: Skalenbezeichnungen, Itemzahlen und interne Konsis- tenzen des Temperament- und Charakter-Inventars 53 Tabelle 7: Bezeichnungen, Länge und Reliabilität der Basisskalen des MMPI-2 nach Männern und Frauen getrennt 77 Tabelle 8: Bezeichnungen, Länge und Reliabilität der Skalen des PSSI 80 11 Einleitung Psychologische Diagnostik gilt als ein Kernelement psychologischer Me- thodik. Das Ziel diagnostischer Methoden ist die Erhebung und Aufberei- tung von Informationen, um begründete Entscheidungen zu treffen. Das Spektrum der Psychologischen Diagnostik reicht dabei von systemati- schen Ansätzen zur Befragung und Beobachtung bis hin zum Einsatz psychometrischer Tests und physiologischer Methoden. Einordnung des Lehrbriefes im Rahmen des Studiums Der Lehrbrief wirft einen Blick auf ausgewählte Themenbereiche der Per- sönlichkeitsdiagnostik. Standardisierte Persönlichkeitsfragebögen zielen darauf ab, aufgrund der Beantwortung der Items Rückschlüsse auf die Persönlichkeit von Probanden zu schließen. Allen Probanden werden da- bei die gleichen Fragen oder Aussagen vorgelegt, die diese beantworten bzw. zu denen sie das Ausmaß ihrer Zustimmung angeben sollen. Neben den Persönlichkeitsfragebögen spielen auch indirekte Verfahren zur Er- fassung von Persönlichkeit, sogenannte objektive Persönlichkeitstests, eine wichtige Rolle. Indirekte Verfahren zielen darauf ab, Merkmale der zu diagnostizierenden Person zu messen. Die Erfassung sollte ohne Re- kurs auf Selbstbeurteilung, ohne Augenscheinvalidität für den Probanden sowie in einer standardisierten Situation erfolgen. Ein weiteres wichtiges Merkmal ist die Erfüllung der üblichen Gütekriterien psychologischer Tests. Aufbau und Konzeption dieses Lehrbriefes Das erste Kapitel gibt eine Einführung in die Thematik. Im zweiten Kapitel werden die Vor- und Nachteile von Persönlichkeitsfragebögen erläutert. Die Konstruktionsprinzipien psychometrischer Tests werden im dritten Kapitel behandelt. Das vierte Kapitel stellt verschiedene multidimensio- nale Persönlichkeitsfragebögen vor. Im fünften Kapitel wird auf Tests für einzelne Persönlichkeitskonstrukte eingegangen. Klinisch-psychologisch orientierte Verfahren werden im sechsten Kapitel dargestellt – während im siebten Kapitel ein Blick auf organisationspsychologische Verfahren geworfen wird. Der erste Teil schließt im achten Kapitel mit Schlussfolge- rungen für die Praxis ab. Das neunte Kapitel gibt eine Einführung in indirekte Verfahren zur Erfas- sung von Persönlichkeit. Im zehnten Kapitel werden historische Ansätze dargestellt. Neuere computergestützte Verfahren in der Tradition Cattells werden im elften Kapitel behandelt. Das zwölfte Kapitel geht darüber 12 hinaus auf reaktionsbasierte Verfahren ein. Hier werden unter anderem Implizite Assoziationstests vorgestellt. Der Lehrbrief schließt im dreizehn- ten und vierzehnten Kapitel mit einem Ausblick und Schlussfolgerungen für die Gesellschaft ab. Lernziele dieses Lehrbriefes Vor- und Nachteile von Persönlichkeitsfragebögen Konstruktionsprinzipien psychometrischer Tests Multidimensionale Persönlichkeitsfragebögen Klinisch-psychologisch orientierte Verfahren Organisationspsychologische Verfahren Historische Ansätze zu indirekten Verfahren zur Erfassung von Persön- lichkeit Neuere computergestützte indirekte Verfahren in der Tradition Cattells Reaktionszeitbasierte („implizite“) Verfahren Kapitel 1 Historisches Inhaltsübersicht 1 Historisches 14 14 Kapitel 1 1 Historisches Vorschläge zur Diagnose von Persönlichkeitsmerkmalen sind sehr viel älter als standardisierte und validierte Instrumente zu deren Messung. Zu ersteren zählen etwa die um 1800 publizierten Lehren der Phrenologen und Physiognomen, welche Zusammenhänge zwischen Persönlichkeits- merkmalen und der Schädelform bzw. überdauernden Merkmalen des Gesichts postulierten. Der erste standardisierte Persönlichkeitstest, das Personal Data Sheet von Woodworth, wurde demgegenüber erst im Jahre 1918 für die US-Armee konstruiert mit dem Ziel, stressanfällige Rekruten zu identifizieren. Als ein weiterer Meilenstein der Entwicklung psycho- metrischer Fragebögen gilt die Publikation des Minnesota Multiphasic Personality Inventory (MMPI) durch Hathaway und McKinley (1943), wel- ches die klinisch-psychologische Diagnostik in Nordamerika noch heute prägt. Kennzeichnend für das MMPI sind seine konsequent datengestütz- te Konstruktion, die Aufnahme von Kontrollskalen zur Identifikation und Korrektur nicht valider Testprotokolle sowie die Entwicklung elaborierter Auswertungs- und Interpretationsregeln. Die erste deutsche Übersetzung des MMPI, der MMPI-Saarbrücken, wurde von Spreen im Jahre 1963 pub- liziert. Unter den frühen eigenständigen deutschsprachigen Entwicklungen ist insbesondere das Freiburger-Persönlichkeits-Inventar von Fahrenberg und Selg (1970) zu erwähnen. Tabelle 1: Einige bei Fragebögen übliche Antwortformate Frage Antwortmöglichkeiten dichotomes Antwortformat Es würde mir sehr viel ausmachen, immer Ja Nein allein zu sein. Erröten Sie häufig? Ja Nein Ich träume nur selten. Stimmt Stimmt nicht Ratingskala Ich bin aktiv. gar nicht ein einiger- erheblich äußerst bisschen maßen Ich fühle mich anderen starke Ab- Ableh- Zustim- starke oft überlegen. lehnung nung neutral mung Zustim mung Ich bin vergnügt. fast nie manchmal oft fast immer Wahlformat Im Fernsehen würde a) eine Quiz- b) unsicher c) einen ich mir lieber sendung Heimatfilm anschauen: Kapitel 2 Vor- und Nachteile von Persönlichkeitsfragebögen Inhaltsübersicht 2 Vor- und Nachteile von Persönlichkeits- fragebögen 16 2.1 Ökonomie 16 2.2 Objektivität 16 2.3 Reliabilität 16 2.4 Validität 17 2.5 Antworttendenzen 18 Reflexionsaufgabe 20 16 Kapitel 2 2 Vor- und Nachteile von Persönlichkeitsfragebögen 2.1 Ökonomie Persönlichkeitsfragebögen erfreuen sich großer Verbreitung sowohl in der Forschung als auch in den Anwendungsfeldern der Psychologie. Wichtige Gründe hierfür sind ihre vielseitige Einsetzbarkeit und der ge- ringe Erhebungsaufwand, können sie doch zumeist als Gruppentests eingesetzt, mit der Post verschickt oder sogar ins Internet gestellt und am Bildschirm ausgefüllt werden (Cohrs, Kielmann, Maes & Moschner, 2005). Ein gewisses Mindestmaß an kognitiven Fähigkeiten (was Altersgrenzen impliziert) sowie an Motivation zu wahrheitsgemäßen Selbstauskünften seitens der Probanden sind allerdings für ihren sachgerechten Einsatz unabdingbar. Andernfalls sollte auf Interviews (insbesondere bei psychisch gestörten Personen), auf Verhaltensbeobachtungen (insbesondere bei Kindern) sowie auf Einschätzungen durch informierte Außenstehende zurückgegriffen werden. 2.2 Objektivität Ein weiterer Vorteil von Persönlichkeitsfragebögen ist deren hohe Durch- führungsobjektivität, ist doch in der Regel die Instruktion auf der ers- ten Seite des Testformulars abgedruckt und deshalb für alle Probanden identisch. Gleiches gilt für den Wortlaut der Items. Die Rolle des Testlei- ters – falls überhaupt vorhanden – kann und soll sich auf das Austeilen und Einsammeln der Testbögen beschränken. Zudem weisen Fragebö- gen eine nahezu perfekte Auswertungsobjektivität auf, beschränkt sich doch die Rolle des Auswertenden auf das Auflegen von Schablonen, das Auszählen von Punktwerten und deren Vergleich mit Normtabellen bzw. auf die Übertragung der Probandenantworten in eine elektronische Datei. Durch computerbasierte Vorgabe von Fragebögen können zudem Übertragungsfehler bei der Testauswertung völlig ausgeschaltet werden. Dies sind Vorteile gegenüber Interviewverfahren, deren Durchführung und Auswertung erheblich von der Person des Interviewers abhängt. 2.3 Reliabilität Sind Ökonomie und Objektivität von Persönlichkeitsfragebögen unmit- telbar offenkundig, so erschließt sich deren Reliabilität erst aus entspre- chenden Erhebungen. Insbesondere bei 20 und mehr Items pro Skala lassen sich interne Konsistenzen (gewöhnlich Cronbachs ) zwischen.80 und.90 erzielen, sind also die Messwerte der Probanden weitge- hend unabhängig von der spezifischen Itemstichprobe, welche die Skala konstituiert. Allerdings setzt dies homogene Skalen voraus. Solche las- sen sich durch Auswahl besonders trennscharfer Items und/oder durch Vor- und Nachteile von Persönlichkeitsfragebögen 17 Zusammenstellung von Markieritems, welche auf faktorenanalytischem Wege identifiziert wurden, konstruieren. Bei wiederholter Vorgabe von Tests lassen sich zudem Stabilitätskoeffizienten (Retest-Reliabilitäten) bestimmen. Diese bewegen sich bei Eigenschaftsmessungen in ähnlicher Höhe, wenn der Abstand zwischen den Messwiederholungen weniger als ein Jahr beträgt. Dies zeigt, dass bei der Beantwortung von Fragebögen zu Persönlichkeitsmerkmalen die Tagesform eine nur geringe Rolle spielt. Allerdings nehmen die Stabilitätskoeffizienten mit zunehmendem Intervall zwischen den Messzeitpunkten ab (Ostendorf & Angleitner, 2004), was auf die Kumulation zwischenzeitlicher Merkmalsveränderungen zurückgehen dürfte. Bei Verfahren zur Messung vorübergehender Zustände (States) fallen die Stabilitätskoeffizienten hypothesenkonform geringer aus (Steyer, Ferring & Schmitt, 1992). 2.4 Validität Die Validität von Persönlichkeitsfragebögen, also in welchem Ausmaß ihr Messbereich sich mit dem zu erfassenden Konstrukt deckt, ist weniger eindeutig zu bestimmen, lassen sich hypothetische Konstrukte doch nicht direkt beobachten, sondern nur aus Indikatoren erschließen (Herrmann, 1973). Einen relativ guten Anhaltspunkt für die Validität von Persönlich- keitsfragebögen bieten Daten zur sogenannten konsensuellen Validität, der Übereinstimmung zwischen unabhängigen Beurteilern der Eigenschaf- ten von Personen. Derartige Beurteilerübereinstimmungen fallen umso höher aus, je mehr Information den Beurteilern über die Beurteilten zur Verfügung steht (Kenny, Albright, Malloy & Kashy, 1994). Entsprechend werden die höchsten Übereinstimmungen (zwischen r=.50 und r=.60) zwischen Ehepartnern gefunden. Da dieser Wert die Konvergenz zweier unabhängiger Indikatoren desselben latenten Konstrukts angibt, ist die Korrelation zwischen Testwert und latenter Merkmalsausprägung mit der Quadratwurzel aus diesem Wert, also mit etwa.75, anzusetzen. Beurtei- lerübereinstimmung ist nicht identisch mit Akkuratheit, denn verschiedene Beurteiler können in ähnlicher Weise irren. Akkuratheit, definiert als Über- einstimmung zwischen Messwerten und tatsächlicher Merkmalsausprä- gung, wird idealerweise als Übereinstimmung zwischen Testwerten und einem „Goldstandard“ angegeben. Für die tatsächliche Ausprägung von Persönlichkeitsmerkmalen gibt es jedoch in aller Regel keinen derartigen Goldstandard. Häufig behilft man sich deshalb mit der Übereinstimmung der Selbstbeschreibung mit Bekanntenbeurteilungen als Validitätsschät- zung und dem aggregierten Schätzurteil mehrerer unabhängiger Beurteiler als Validitätskriterium (Letzring, Wells & Funder, 2006). Ein weiterer Zugang zur Abschätzung der Validität von Persönlichkeits- fragebögen sind deren Korrelationen mit anderen Persönlichkeitsmaßen. Generell gilt, dass die sogenannten konvergenten Validitäten höher ausfallen sollten als die sogenannten diskriminanten Validitäten. Erstere 18 Kapitel 2 geben die Zusammenhänge zwischen Maßen gleicher Konstrukte (z.B. zwischen zwei Angstmaßen) an, letztere die Zusammenhänge zwischen Maßen verschiedener Konstrukte (z.B. zwischen Angst- und Depressi- onsmaßen). Die konvergenten Validitäten zwischen Maßen identischer Konstrukte erreichen im Idealfall deren Reliabilitäten, wobei allerdings dieses Ideal bei Verwendung unterschiedlicher „Messmethoden“ (wozu auch verschiedene Beurteiler zählen) in der Regel nicht erreicht wird (Bor- kenau et al., 2004). Weniger uniform sind die Erwartungen an die Höhe diskriminanter Validitäten, denn diese sollten sich entsprechend den Be- ziehungen zwischen den zu erfassenden Persönlichkeitsmerkmalen von- einander unterscheiden. So ist z.B. zu fordern, dass verschiedene Maße von Depression miteinander hoch (konvergente Validität) und höher als mit Maßen von Ängstlichkeit (diskriminante Validität) korrelieren. Es kann jedoch nicht erwartet werden, dass Depressions- und Ängstlichkeitsmaße völlig unkorreliert sind. Hingegen ist es durchaus plausibel, Unkorreliertheit zwischen Maßen von Depressivität und Besonnenheit zu erwarten. Ein weiterer Zugang zur Bestimmung der Validität von Fragebögen ist deren Kriteriumsvalidierung mittels der Berechnung von Korrelationen zwischen Testwerten und Validitätskriterien. Dieser Ansatz spielt in diesem Kapitel jedoch nur eine untergeordnete Rolle. Zwar resultiert der gesell- schaftliche Nutzen psychologischer Diagnostik zu einem erheblichen Teil daraus, dass Testwerte sozial bedeutsame Kriterien wie Schulerfolg, Be- rufserfolg und Lebenserwartung vorhersagen. Ein bedeutsamer Nachweis der Validität eines Tests sind derartige Korrelationen aber nur dann, wenn die Vorhersage solcher Kriterien eine zentrale Aufgabe des jeweiligen Testverfahrens ist. So sind bei Berufseignungstests hohe Korrelationen mit späterem Berufserfolg der wichtigste Validitätsnachweis, während hohe Korrelationen zwischen Tests der Leistungsmotivation und Berufserfolg zwar den Nutzen dieser Tests erhöhen, aber lediglich einen Hinweis unter vielen denkbaren auf deren Validität liefern. Da in diesem Kapitel keine Eignungstests, sondern Verfahren zur Erfassung theoretischer Konstrukte besprochen werden, wird vor allem Validitätsinformation in der Form von Beurteilerübereinstimmungen präsentiert und diskutiert. 2.5 Antworttendenzen Ein Problem von Persönlichkeitsfragebögen ist deren Verfälschbarkeit: Sogenannte Faking-Instruktionen, Fragebögen so auszufüllen, dass die Probanden besonders vorteilhaft oder als für eine bestimmte berufliche Tätigkeit besonders geeignet erscheinen, führen zu deutlich anderen Mit- telwerten als die Standardinstruktion, die Fragen ehrlich zu beantworten. So führte eine Instruktion, die Probanden sollten sich vorstellen, die Bear- beitung eines Fragebogens erfolge im Rahmen einer Bewerbung für eine Position als Manager, zu höheren Messwerten in Emotionaler Stabilität und Vor- und Nachteile von Persönlichkeitsfragebögen 19 Offenheit für Erfahrung sowie zu einer Veränderung des Messbereiches: Nunmehr erfasste der Fragebogen primär soziale Kompetenzen, z.B. zu wissen, was von einem Manager erwartet wird (Pauls & Crost, 2005). Da aber soziale Kompetenz den Berufserfolg z.B. von Managern fördert, muss eine derartige Veränderung des Messbereiches des Tests der Prognosti- zierbarkeit des Berufserfolges durch Selbstberichte keineswegs abträglich sein. Andererseits verlangt die hier einschlägige DIN-Norm 33430 unter Ziffer 2.1.2, dass die Ergebnisse der Untersuchung „so wenig wie möglich durch den Kandidaten selbst verfälscht werden können“ (DIN, 2002). Erhebliche Forschungsbemühungen galten der Konstruktion sogenannter Sozialer Erwünschtheitsskalen mit dem Ziel, zwischen sozial erwünscht und ehrlich antwortenden Personen zu differenzieren. Seit Crowne und Marlowe (1960) bestehen derartige Skalen in der Regel aus Fragen nach „unlikely virtues“, nämlich seltenem aber erwünschtem Verhalten (z.B. „Ich habe in meinem Leben noch nie gelogen“) bzw. häufigem aber un- erwünschtem Verhalten (z.B. „Ich sage nicht immer die volle Wahrheit“). Allerdings war Bemühungen, durch den Einsatz derartiger Skalen valide von weniger validen Testprotokollen zu trennen, bisher kaum Erfolg be- schieden (Borkenau & Ostendorf, 1992; Ones, Viswesvaran & Reiss, 1996; Piedmont, McCrae, Riemann & Angleitner, 2000): Weder zeigte sich eine bessere Konvergenz von Selbst- mit Bekanntenbeurteilungen bei statis- tischer Kontrolle der mittels Sozialer Erwünschtheitsskalen erfassten Ant- worttendenz (Suppressoransatz), noch war die Beurteilerübereinstimmung bei solchen Probanden höher, welche in Sozialen Erwünschtheitsskalen geringere Werte aufweisen (Moderatoransatz). Ein wichtiger Grund hierfür dürfte sein, dass Soziale Erwünschtheitsskalen neben Antworttendenzen im Fragebogen auch individuelle Unterschiede im Alltagsverhalten erfas- sen. Dafür spricht, dass die Werte in solchen Skalen nicht nur mit Selbst- berichten sondern auch mit Bekanntenbeurteilungen (z.B. bezüglich des Merkmals Gewissenhaftigkeit) korrelieren (Borkenau & Ostendorf, 1992). Bei der Besprechung einzelner Verfahren wird deshalb das Vorhandensein einer Skala zur Erfassung sozial erwünschten Antwortens zwar erwähnt, aber nicht als Vorteil bewertet werden. Eine andere Antworttendenz ist die Bevorzugung spezifischer Antwortkategorien, z.B. die als Akquieszenz bezeichnete Bevorzugung zustimmender oder ablehnender Antworten unabhängig vom Iteminhalt. Ein Zugang zur Erfassung dieser Antworttendenz besteht darin, extrem schwierige mit „ja“ oder „nein“ zu beantwortende Wissensfragen zu stellen, z.B. ob in der Schweiz mehr Zigarren hergestellt werden als in Dänemark. Hier müssen die Probanden die Antwort nahezu ausnahms- los „blind“ erraten. Stellt man mehrere derartige Fragen, so zeigen sich konsistente individuelle Unterschiede in der Präferenz für zustimmende Antworten (Amelang & Borkenau, 1981), ein Hinweis auf systematische individuelle Unterschiede in der Zustimmungstendenz. 20 Kapitel 2 Ist die Verschlüsselungsrichtung der Items einer Skala nicht ausbalanciert, sind also z.B. stets zustimmende Antworten mit höheren Skalenwerten verbunden, so trägt Akquieszenz zum systematischen Messfehler bei, der sich im Unterschied zum Zufallsfehler bei Erhöhung der Zahl der Items pro Skala nicht reduziert. Die Skala erfasst dann neben individu- ellen Unterschieden im interessierenden Merkmal auch Unterschiede in der Akquieszenz. Hierdurch werden der Messbereich der Skala und ihre Korrelationen mit anderen Skalen systematisch verzerrt (Green, Goldman & Salovey, 1993). Die unerwünschten Effekte von Akquieszenz lassen sich jedoch durch Ausbalancierung der Verschlüsselungsrichtung der Items der Skala reduzieren. Wenn zustimmende und ablehnende Antworten gleich häufig zu höheren Skalenwerten führen, so trägt Akquieszenz nicht zur systematischen Verzerrung des Messbereichs der Skala bei (Piedmont et al., 2000). Dennoch sind zahlreiche Fragebogenskalen (z.B. das Trierer Integrierte Persönlichkeitsinventar von Becker, 2003) bezüglich der Ver- schlüsselungsrichtung ihrer Items nicht ausbalanciert. Nachfolgend wird bei der Besprechung einzelner Verfahren Ausbalancierung der Verschlüs- selungsrichtung der Items als ein Bewertungskriterium diskutiert werden. Erfolgt die Beantwortung eines Fragebogens auf Antwortskalen mit mehr als zwei Antwortkategorien, so sind weiterhin individuelle Unterschiede in der Präferenz für mittlere versus extreme Antwortkategorien zu berück- sichtigen. Zwar ist auch in diesem Falle eine Ausbalancierung der Ver- schlüsselungsrichtung anzuraten, um die Messung des interessierenden Merkmals von der Messung der Akquieszenztendenz zu trennen. Dennoch verbleibt das Problem, dass bei Vermeidung extremer Antwortkategorien keine extremen Skalenwerte auftreten können. Allerdings lassen sich unter sehr spezifischen Voraussetzungen Korrekturen für derartige Effekte auf Basis von Mischverteilungsmodellen der Item-Response-Theorie vorneh- men (Rost, Carstensen & von Davier, 1999). Reflexionsaufgabe 1. Was sind die Vor- und Nachteile von Persönlichkeitsfragebögen? Kapitel 3 Konstruktionsprinzipien psychometrischer Tests Inhaltsübersicht 3 Konstruktionsprinzipien psychometrischer Tests 22 3.1 Deduktive oder rationale Skalenkonstruktion 22 3.2 Externale Skalenkonstruktion 22 3.3 Induktive oder faktorenanalytische Konstruktion 24 3.4 Mischstrategien 24 3.5 Vor- und Nachteile der drei Konstruktions- prinzipien 25 3.6 Bedeutung von Normen 26 Reflexionsaufgaben 27 22 Kapitel 3 3 Konstruktionsprinzipien psychometrischer Tests Psychometrische Tests allgemein und Persönlichkeitsfragebögen ins- besondere können in unterschiedlicher Weise konstruiert werden. Drei Hauptformen werden unterschieden. 3.1 Deduktive oder rationale Skalenkonstruktion Kennzeichnend für diesen Ansatz ist, dass die Datenerhebung erst relativ spät im Verlauf der Skalenkonstruktion erfolgt. Erforderlich ist zunächst eine differenzierte Explikation des zu erfassenden Merkmals, welche zum Beispiel aus einer psychologischen Theorie abgeleitet werden kann. Aus dieser Merkmalsbeschreibung sind sodann Items abzuleiten (daher auch die Bezeichnung dieser Methode als deduktiv), welche sich vermutlich eignen, das Merkmal wie beschrieben zu erfassen. Diese Items werden sodann zu einer oder mehreren Skalen zusammengefasst. So liegt es z.B. nahe, bezüglich des Merkmals Geselligkeit zwischen Kontaktbedürfnis und Kontaktfähigkeit zu unterscheiden und beide mit gesonderten Ska- len zu erfassen (Amelang & Schmidt-Atzert, 2006). Die so konstruierten Skalen werden anschließend Probanden mit dem Ziel der Überprüfung ihrer Reliabilität und Validität sowie ihrer weiteren Optimierung (z.B. durch Eliminierung wenig trennscharfer Items) vorgegeben. Beispielhaft wurde dieses Verfahren bei der Konstruktion der Personality Research Form (PRF) durch Jackson (1984) realisiert, welche die in der Persönlichkeits- theorie von Murray thematisierten psychogenen Bedürfnisse erfassen soll. Ein weiteres Beispiel ist das Beck Depression Inventory (Beck & Steer, 1987), dessen Items aus der Beschreibung depressiver Symptome im Diagnostischen und Statistischen Manual Psychischer Störungen (DSM) abgeleitet wurden. 3.2 Externale Skalenkonstruktion Hierbei wird von in der Gesellschaft vorfindlichen Gruppen ausgegangen (z.B. Berufsgruppen, Alkoholiker, Personen mit diagnostizierten psychi- schen Störungen), und es werden Skalen konstruiert, deren Mittelwerte sich zwischen den Angehörigen jeweils relevanter Gruppen (z.B. Alko- holiker versus Nichtalkoholiker) möglichst deutlich unterscheiden. Zu solchen Skalen gelangt man, indem man Probanden eine größere Zahl von Items heterogenen Inhalts vorlegt und jeweils die Korrelation der Itembeantwortung mit der Gruppenzugehörigkeit bestimmt. Sodann wer- den diejenigen Items, deren Beantwortung mit der Gruppenzugehörigkeit besonders hoch korreliert, zu Skalen zusammengefasst. Weist eine Person einen hohen Wert in einer derartigen Skala auf, so ist zu erwarten, dass Konstruktionsprinzipien psychometrischer Tests 23 sie mit hoher Wahrscheinlichkeit zu der jeweiligen Gruppe (z.B. der der Alkoholiker) gehört. Entscheidend für die Auswahl von Items ist also ihre möglichst hohe Kor- relation mit der Gruppenzugehörigkeit. Daraus resultiert ein statistisches Problem: Aus Gründen der Ökonomie können Korrelationen nur in Stich- proben bestimmt werden und weisen deshalb einen Stichprobenfehler auf. Es werden folglich bei der externalen Skalenkonstruktion vorrangig solche Items ausgewählt, deren Korrelation in der Population durch die Korrelation in der Stichprobe überschätzt wird. Mithin ist zu erwarten, dass die in der Konstruktionsstichprobe ermittelte Korrelation zwischen Skalenwert und Gruppenzugehörigkeit die Korrelation in der Grundge- samtheit systematisch überschätzt. Eine unverzerrte Schätzung der pro- gnostischen Validität einer external konstruierten Skala ist demgegenüber nach einer sogenannten Kreuzvalidierung zu erwarten. Dabei geht man wie folgt vor: Die Itemselektion und somit die Skalenkonstruktion erfolgt auf Basis der Korrelationen der Itembeantwortungen mit der Gruppenzu- gehörigkeit in der sogenannten Konstruktionsstichprobe, wohingegen die Korrelation zwischen dem Skalenwert und der Gruppenzugehörigkeit in einer sogenannten Kreuzvalidierungsstichprobe (d.h. einer anderen nicht überlappenden Probandenstichprobe) bestimmt wird. Eine solcherart kreuzvalidierte Korrelation schätzt die Validität der external konstruierten Skala zwar nicht fehlerfrei, aber erwartungstreu und konsistent, d.h. der Erwartungswert dieser Korrelationen deckt sich mit der Korrelation in der Population. Das Flussdiagramm in Abbildung 1 illustriert eine Kreuzvali- dierung bei externaler Skalenkonstruktion. Bestimmung der Bestimmung Korrelationen Kombination der Validität Vorgabe von zwischen Item- der am höchs- der Skala in Items in einer beantwortungen ten korrelieren- einer Kreuz- Konstruktions- und Gruppenzu- den Items zu validierungs- stichprobe gehörigkeit einer Skala stichprobe Abbildung 1: Illustration einer Kreuzvalidierung bei externaler Skalenkonstruktion Mehrere sehr bekannte Verfahren wurden in dieser Weise konstruiert, da- runter das bereits erwähnte MMPI. Allerdings dient dieses der Diagnose psychischer Störungen, nicht der Erfassung von Persönlichkeitsmerkma- len im engeren Sinne. Hathaway und McKinley (1943) begannen mit der Sammlung hunderter von Items auf Basis verschiedener Quellen. Nach Elimination mehrdeutiger und sehr ähnlicher Formulierungen verblieben davon 504 Items. Diese wurden psychiatrischen Gruppen vorgelegt, wel- che als hypochondrisch, depressiv, hysterisch, psychopathisch, paranoid, 24 Kapitel 3 psychasthenisch, schizophren oder hypoman diagnostiziert worden wa ren. Die Beantwortung der Items durch diese Gruppen wurde verglichen mit der seitens einer Gruppe von 724 Kontrollpersonen, und die besonders gut diskriminierenden Items wurden in die jeweilige Skala aufgenommen. Später wurden eine Maskulinitäts-Femininitätsskala sowie eine Soziale Introversionsskala hinzugefügt, womit sich die Gesamtzahl der Skalen auf 13 (zehn „Klinische“ und drei Kontrollskalen) und die Zahl der Items auf 566 erhöhte. Um einen external konstruierten Persönlichkeitsfragebogen im engeren Sinne handelt es sich hingegen beim California Psychological Inventory von Gough (1957), das auf die Erfassung traditioneller Persön- lichkeitsmerkmale (z.B. Geselligkeit) abzielt. 3.3 Induktive oder faktorenanalytische Konstruktion Induktiv konstruierte Verfahren basieren auf statistischen Analysen der Korrelationen vorgegebener Items untereinander. Besonders hoch mit- einander korrelierende Items erfassen vermutlich das gleiche Merkmal, wohingegen Items, welche nur gering miteinander korrelieren, vermutlich verschiedene Merkmale erfassen. Man gibt deshalb einer Probandenstich- probe eine größere Zahl von Items vor, korreliert die Itembeantwortun- gen, faktorisiert diese Korrelationen und rotiert die Faktoren mit dem Ziel ihrer möglichst klaren Interpretierbarkeit. Zur Interpretation der Faktoren gelangt man, indem man das Verbindende in der Bedeutung solcher Items benennt, welche hohe Ladungen auf dem gleichen Faktor auf weisen. Schließlich werden die sogenannten Markieritems jedes Faktors (dies sind Items mit hohen positiven oder negativen Ladungen auf dem Zielfaktor und geringen Ladungen auf den übrigen Faktoren) zu Skalen zusammengefasst. Beispiele für faktorenanalytisch begründete Persönlichkeitsinventare sind der 16-Persönlichkeitsfaktoren-Test (16 PF) von Cattell, Cattell und Cattell (1993), mehrere von Hans Eysenck entwickelte Verfahren wie das Eysenck Personality Inventory (Eysenck & Eysenck, 1968) und der Eysenck Per- sonality Questionnaire (Eysenck & Eysenck, 1975), sowie auf dem Fünf- Faktoren-Modell der Persönlichkeit basierende Persönlichkeitsfragebö- gen, insbesondere das NEO-Persönlichkeitsinventar-Revidiert (NEO-PI-R; Costa & McCrae, 1992), das NEO-Fünf-Faktoren-Inventar (NEO-FFI; Cos- ta & McCrae, 1989) und das Big Five Inventory (John, Donahue & Kentle, 1991). 3.4 Mischstrategien In der Praxis der Testkonstruktion werden diese drei Konstruktionsprinzipi- en allerdings eher selten in reiner Form realisiert. Zum Beispiel sollte auch Konstruktionsprinzipien psychometrischer Tests 25 bei rational-deduktiver Skalenkonstruktion nicht darauf verzichtet werden, die postulierte Dimensionalität der Skala empirisch, z.B. durch Verfahren der konfirmatorischen oder exploratorischen Faktorenanalyse zu bestäti- gen. So leidet etwa die rational-deduktiv konstruierte Self-Monitoring Skala von Snyder (1974) darunter, dass sie zwar ein eindimensionales Konstrukt erfassen soll, sich in Faktorenanalysen jedoch als mehrdimensional er- weist. Und sowohl bei rational-deduktiv als auch bei external konstruierten Skalen liegt es nahe, die weniger trennscharfen Items zu eliminieren, um das Verhältnis von Skalenlänge zu Skalenreliabilität zu optimieren. Dabei ist zu beachten, dass auch Trennschärfekoeffizienten einen Stichproben- fehler aufweisen und deshalb nach einer solchen Skalenbereinigung die Reliabilitätsschätzungen in der Konstruktionsstichprobe systematisch überhöht sind. Kreuzvalidierte Koeffizienten schätzen hingegen die Reli- abilitäten der modifizierten Skala erwartungstreu und konsistent. Hingegen kommen bei induktiv-faktorenanalytisch konstruierten Verfahren rational-deduktive Aspekte ins Spiel, wenn auf der Basis faktorenana- lytischer Untersuchungen zunächst Strukturmodelle der Persönlichkeit postuliert und dann Items formuliert werden, welche die in dem Struktur- modell postulierten Dimensionen erfassen. Dies gilt zum Beispiel für das NEO-FFI (Costa & McCrae, 1989), welches mit dem Ziel der Erfassung von Dimensionen konstruiert wurde, welche sich bei Faktorenanalysen von Adjektivskalen (Goldberg, 1990) mit hoher Regelmäßigkeit fanden. 3.5 Vor- und Nachteile der drei Konstruktionsprinzipien Koexistieren mehrere wissenschaftliche Ansätze nebeneinander, so ist in der Regel keiner den anderen in jeder Hinsicht überlegen. Dies gilt auch für die Konstruktionsprinzipien psychometrischer Tests. Zwar sind keine systematischen Unterschiede in der Validität deduktiv, external und internal konstruierter Skalen festzustellen. Das rational-deduktive Vorgehen ist aber ökonomischer, setzen doch die empirischen Erhebungen erst spät ein und sind die so konstruierten Skalen relativ kurz (Burisch, 1984). Ein Nachteil rational konstruierter Skalen ist jedoch ihre relativ große Durchschaubarkeit und deshalb Verfälschbarkeit. Zudem gibt es Legitimationsprobleme, falls bei theoretisch abgeleiteten Konstrukten nachgebessert werden muss, um den Fit des Modells mit den Daten zu verbessern. Die Self-Monitoring- Skala von Snyder (1974) ist hierfür ein prototypisches Beispiel. Ein Vorteil der externalen Vorgehensweise ist eine geringe Verfälschbar- keit der so konstruierten Skalen, erfolgt doch die Zuordnung von Items zu Skalen nicht auf intuitiver, sondern auf empirischer Basis. Nachteile des externalen Ansatzes sind jedoch ein hoher Aufwand bei der Skalen- konstruktion sowie eine relativ zur Skalenlänge geringe interne Konsis- tenz (Burisch, 1984). Letztere resultiert aus dem Umstand, dass hier die 26 Kapitel 3 Korrelationen der Items mit der Gruppenzugehörigkeit optimiert werden, nicht jedoch die der Items untereinander. Als Vorteil der induktiv-faktorenanalytischen Vorgehensweise ist zu nen- nen, dass diese zu homogenen Skalen führt, welche zudem nur relativ gering miteinander korrelieren, was die Präzision von Verhaltensvorhersa- gen fördert. Nachteile sind ein hoher Konstruktionsaufwand sowie mitunter schwer interpretierbare und kommunizierbare Dimensionen, werden diese doch aus Faktorladungsmustern, nicht aus Theorien oder der Alltagsspra- che abgeleitet. Am deutlichsten wird dies in den Arbeiten Raymond B. Cattells (1944), welcher Faktorenbezeichnungen wie Premsia und Har- ria und eine Benennung der sogenannten source traits of personality durch Buchstaben vorschlug. In jüngerer Zeit orientiert man sich bei der Benennung von Persönlichkeitsfaktoren allerdings wieder stärker an der Alltagssprache. 3.6 Bedeutung von Normen Immer dann, wenn die Testwerte einzelner Probanden mit einem Stan- dard zu vergleichen sind, sind Normen unverzichtbar. Dies dürfte bei Diagnostik im Kontext von Beratung und Therapie meistens der Fall sein. Anders verhält es sich mit dem Einsatz von Fragebögen im Rahmen von Forschungsprojekten sowie in Kontexten, in denen verschiedene in der- selben Institution getestete Personen untereinander verglichen werden, um zum Beispiel die leistungsmotiviertesten Bewerber zu ermitteln. Dann ist das Fehlen geeigneter Normen von untergeordneter Bedeutung. Nor- men erweitern somit den Einsatzbereich von Persönlichkeitsfragebögen, aber nicht befriedigend normierte oder gar nicht normierte Verfahren sind keineswegs wertlos. In diesem Kapitel werden deshalb auch (noch) nicht befriedigend normierte Verfahren vorgestellt. Welche Anforderungen sind an Normen zu stellen? Für eignungsdiagnos- tische Fragestellungen besagt die DIN 33430, dass soweit Vergleiche mit Normwerten vorgesehen sind, diese der Fragestellung und der Referenz- gruppe der Kandidaten entsprechen müssen (DIN, 2002). Daraus folgt, dass Normen wünschenswert sind, welche zumindest bezüglich Alter und Geschlecht differenzieren. Weiterhin wird in dieser DIN-Norm hoher Wert auf die Aktualität der Normen gelegt. Bei der Besprechung einzelner Testverfahren wird deshalb auf diese Aspekte eingegangen. Auswahlgesichtspunkte für die hier besprochenen Verfahren. Die Auswahl zu besprechender Verfahren für diesen Artikel erfolgte im Hinblick auf mehrere Kriterien. Zum einen sollten sowohl multidimensionale Persön- lichkeitsinventare als auch Verfahren zur Erfassung einzelner Konstrukte, klinisch-psychologisch orientierte Verfahren und organisationspsycholo- Konstruktionsprinzipien psychometrischer Tests 27 gisch orientierte Verfahren Berücksichtigung finden. Da die Vereinigungs- menge aller dieser Verfahren aber sehr groß ist, werden hier durchgängig nur solche Verfahren besprochen, welche bereits im deutschen Sprach- raum als Tests publiziert sind, und für die somit ein deutschsprachiges Manual vorliegt. Selbstverständlich war es nicht möglich, alle Verfahren, welche dieses Kriterium erfüllen, hier zu besprechen, und die von uns vorgenommene Auswahl ist nicht völlig frei von Willkür. Reflexionsaufgaben 1. Was versteht man unter deduktiver Skalenkonstruktion? 2. Wie können Skalen external konstruiert werden? 3. Vergleichen Sie die induktive Konstruktion mit der faktoranalytischen Konstruktion. Welche Mischstrategien sind darüber hinaus möglich? Kapitel 4 Multidimensionale Persönlichkeitsfragebögen Inhaltsübersicht 4 Multidimensionale Persönlichkeitsfragebögen 30 4.1 16 Persönlichkeits-Faktoren-Test Revidierte Fassung (16 PF-R) 30 4.2 Freiburger Persönlichkeitsinventar Revidierte Version (FPI-R) 34 4.3 Trierer Integriertes Persönlichkeitsinventar (TIPI) 38 4.4 Das NEO-Persönlichkeitsinventar Revidierte Fassung (NEO-PI-R) 44 4.5 NEO-Fünf-Faktoren-Inventar (NEO-FFI) 50 4.6 Kurzfragebögen zum Fünf-Faktoren-Modell der Persönlichkeit 50 4.7 Das Temperament- und Charakter-Inventar (TCI) 51 4.8 Myers-Briggs Typenindikator (MBTI) 55 Reflexionsaufgaben 56 30 Kapitel 4 4 Multidimensionale Persönlichkeitsfragebögen 4.1 16 Persönlichkeits-Faktoren-Test Revidierte Fassung (16 PF-R) Dieses Verfahren beruht auf Arbeiten von Cattell (1943) zur Faktoren- struktur der Temperamentsmerkmale. Cattell gelangte zu dem Schluss, es gebe 16 per Fragebögen erfassbare Persönlichkeitsfaktoren. Als ein Ergebnis dieser Arbeiten erschien im Jahre 1949 die erste amerikanische Auflage des 16 PF-Tests zur Messung der Ausprägung von Personen auf diesen Faktoren. Der 16 PF umfasst 15 Fragebogenskalen zur Erfassung von Temperamentsmerkmalen und einen Leistungstest zur Erfassung der Intelligenz (vgl. Tab. 2). Cattell nahm an, die Primärfaktoren der Per- sönlichkeit seien untereinander korreliert, und dies trifft auch auf die so- genannten Primärskalen des 16 PF zu. Dies eröffnet die Möglichkeit der Berechnung von Sekundärfaktoren, welche die Korrelationen zwischen den Primärfaktoren aufklären. Cattell postulierte fünf Sekundärfaktoren, welche jedoch nicht mit den im Fünf-Faktoren-Modell der Persönlichkeit postulierten Faktoren (vgl. Abschnitte 4.4 und 4.5) identisch sind. Ent- sprechend ist eine Auswertung des 16 PF-Tests sowohl auf der Ebene von 16 Primär- als auch auf der Ebene von fünf Sekundärskalen möglich. Die Werte in den Sekundärskalen ergeben sich dabei aus der (teilweise mit negativem Vorzeichen versehenen) Addition der Werte in jeweils zwei bis sechs Primärskalen. Beim 16 PF-R von Schneewind und Graf (1998) handelt es sich um eine Revision der ersten deutschen Ausgabe des 16 PF aus dem Jahre 1983. Die Revision ging einher mit erheblichen Veränderungen von Itemformu- lierungen, um diese zeitgemäß und nicht geschlechtsdiskriminierend zu gestalten. Auch gab es Änderungen bezüglich der Anzahl der Items pro Skala sowie der Skalenbenennungen. Zudem wurde eine Kontrollskala zum Impression Management hinzugefügt. Hingegen blieb es bei der Erfassung von 16 Primär- und fünf Sekundärfaktoren. Zwischenzeitliche Fortschritte in der faktorenanalytischen Persönlichkeitsforschung sind somit im 16 PF-R nicht berücksichtigt. Das Verfahren umfasst 171 Fragebogen- und 13 Leistungsitems. Letztere stehen am Schluss des Testhefts. Durchgängig sind drei Antwortmöglich- keiten je Item vorgesehen: Bei den 171 Fragebogenitems handelt es sich bei der mittleren Antwortkategorie „b“ durchgängig um ein Fragezeichen, welches „unterschiedlichste Gründe, nicht ‚a‘ oder ‚c‘ zu wählen abdecken kann“ (Schneewind & Graf, 1998, S. 8). Dies ist messtheoretisch nicht unproblematisch (Rost et al., 1999). Bei den 13 Leistungsitems handelt es sich um Mehrfachwahl-Aufgaben mit drei Antwortalternativen, von denen genau eine als richtig gewertet wird. Die Wahrscheinlichkeit, bei fehlender Kenntnis der Lösung die richtige Antwort zu wählen, ist also substanziell. Multidimensionale Persönlichkeitsfragebögen 31 Die Entwicklung und Evaluation des Verfahrens erfolgte in zwei annä- hernd bevölkerungsrepräsentativen Stichproben, einer Analysestichprobe (N=618) und einer Normierungsstichprobe (N=1.209). Weiterhin erfolgte die Bestimmung der Stabilität der Messwerte in einer studentischen Stich- probe (N=111), welche im Abstand von einem Monat zweimal getestet wurde. Tabelle 2 gibt einen Überblick über die Bezeichnungen, Itemzahlen und Reliabilitäten der 16 Primär- und fünf Sekundärskalen. Tabelle 2: Bezeichnungen, Länge und Reliabilität der Skalen des 16 PF-R Interne Retest- Item- Skalenbezeichnung Konsistenz Reliabilität zahl (N=1.209) (N=111) Primärskalen: A: Wärme 9.68.84 B: Logisches Schlussfolgern 13.79.60 C: Emotionale Stabilität 11.72.72 E: Dominanz 11.73.84 F: Lebhaftigkeit 9.71.87 G: Regelbewusstsein 11.66.79 H: Soziale Kompetenz 12.89.92 I: Empfindsamkeit 11.76.89 IM: Impression Management 10 k.A. k.A. L: Wachsamkeit 10.66.80 M: Abgehobenheit 11.66.81 N: Privatheit 11.74.88 O: Besorgtheit 11.78.84 Q1: Offenheit für Veränderung 11.71.75 Q2: Selbstgenügsamkeit 11.76.87 Q3: Perfektionismus 11.75.82 Q4: Anspannung 11.78.84 32 Kapitel 4 Tabelle 2 (Fortsetzung): Bezeichnungen, Länge und Reliabilität der Skalen des 16 PF-R Interne Retest- Item- Skalenbezeichnung Konsistenz Reliabilität zahl (N=1.209) (N=111) Sekundärskalen: Extraversion (63).87.90 Ängstlichkeit (33).84.83 Selbstkontrolle (22).76.86 Unabhängigkeit (42).81.89 Unnachgiebigkeit (22).73.78 Anmerkungen: Die Buchstaben vor den Skalenbezeichnungen geben Cattells Bezeich- nungen der Primärskalen an. Die Itemzahlen der Sekundärskalen ergeben sich als Summe der Itemzahlen der beteiligten Primärskalen. k.A.: keine Angabe. Die internen Konsistenzen der Primärskalen variieren von.66 bis.89 bei einem Median von.74. Höher sind die Retest-Reliabilitäten mit einem Median von.84 sowie die Reliabilitäten der Globalskalen. Schneewind und Graf (1998) vertreten die Auffassung, die Globalskalen des 16 PF-R erfassten die Dimensionen des Fünf-Faktoren-Modells der Normalpersön- lichkeit, „wobei der 16 PF-R durch seine Auffächerung in 16 Primärskalen zusätzlich die Möglichkeit einer differenzierten Analyse der Persönlichkeit bietet“ (Schneewind & Graf, 1998, S. 22). Allerdings sind angesichts der insgesamt eher mäßigen internen Konsistenzen der Primärskalen die kri- tischen Differenzen erheblich, ab denen sich die wahren Standardwerte zweier Skalen mit einer Wahrscheinlichkeit von mindestens 95% unter- scheiden. Und auch wegen der substanziellen Korrelationen zwischen den Skalen eines Globalbereiches (sie bewegen sich zwischen r=–.55 und r=.50) dürften diese kritischen Differenzen nur selten erreicht wer- den. Eine Auswertung auf der Ebene der Primärskalen ist deshalb nicht unproblematisch, und für die Erfassung der fünf Globalbereiche gibt es deutlich kürzere Instrumente (vgl. Abschnitt 4.5), soweit denn überhaupt die Globaldimensionen des 16-PF-R mit den Dimensionen des Fünf- Faktoren-Modells der Persönlichkeit gleichgesetzt werden können. In ihren Analysen zur Konstruktvalidität des 16 PF-R zeigen Schneewind und Graf (1998), dass dessen Globaldimensionen ein breiteres Persön- lichkeitsspektrum erfassen als zum Beispiel das Freiburger Persönlich- keitsinventar (FPI-R), die PRF und der Trierer Persönlichkeitsfragebogen (TPF). Weiterhin zeigen sie, dass die Skalen des 16 PF-R eher geringe Multidimensionale Persönlichkeitsfragebögen 33 Beziehungen zu den Skalen des MMPI-2 aufweisen, welches ja nicht auf die Erfassung der „Normalpersönlichkeit“, sondern auf die Identifikation klinischer Gruppen zielt. Der 16 PF-R umfasst neben seinen 16 Primär- und fünf Globalskalen auch drei Kontrollskalen. Die Impression-Management-(IM)-Skala be- steht aus zehn gesonderten Items und wurde entsprechend den von Crowne und Marlowe (1960) vorgeschlagenen Prinzipien konstruiert. Es wird mitgeteilt, welcher Wert auf dieser Skala von 5% der Normierungs- stichprobe überschritten wird, wobei aber letztlich unklar bleibt, ob es sich bei diesen Personen um „Heilige“ oder um „Lügner“ handelt. Die Testautoren empfehlen, Gründe für hohe IM-Werte im Einzelfall zu eruieren und gegebenenfalls eine erneute Testung vorzunehmen. Weiterhin kann ein Akquieszenzwert basierend auf den Beantwortungen der Items ge- bildet werden, bei denen die Antwortoptionen „stimmt“, „?“ und „stimmt nicht“ lauten. Auch hierzu werden Vergleichsnormen mitgeteilt und dazu angemerkt, die Interpretation hoher Akquieszenzwerte bleibe der/dem professionellen Testanwender/in überlassen. Akquieszenz ist allerdings beim 16-PF-R ein untergeordnetes Problem, weil maximal 73% der Items einer Inhaltsskala in die gleiche Richtung verschlüsselt sind. Schließlich kann noch ein Infrequenzwert gebildet werden, indem die Zahl der von einem Probanden gewählten Antwortoptionen ausgezählt wird, die we- niger als 5% der Mitglieder der Normierungsstichprobe gewählt haben. Durchgängig handelt es sich hierbei um Wahlen der Mittelkategorie, sodass hohe Werte in der Infrequenzskala entweder auf eine nicht instruk- tionsgemäße Bearbeitung des Tests oder auf ein unklares Selbstkonzept hinweisen können. Insgesamt sind diese Hinweise zur Verwendung der Kontrollskalen für den Anwender wenig hilfreich. Die Normen basieren auf einer annähernd bevölkerungsrepräsentati- ven aber nicht besonders umfangreichen (N=1.209) Stichprobe. Neben Normen für die Gesamtstichprobe werden auch geschlechtsspezifische Normen sowie getrennte Normen für die Altersgruppen 17 bis 29, 30 bis 49 und ≥ 50 Jahre mitgeteilt. Sie werden in der Form von Sten-Werten angegeben, was angesichts der Skalenreliabilitäten und der Stichpro- benumfänge angemessen erscheint. Dabei wurde eine Flächentrans- formation der Rohwerte vorgenommen, sodass aus den Sten-Werten die Prozentränge der Probanden erschlossen werden können. Weiterhin enthält das Manual Tabellen zu den Vertrauensintervallen der Skalenwerte, zu kritischen Differenzen zwischen beobachteten Skalenwerten und zu signifikanten Unterschieden zwischen Persönlichkeitsprofilen. Insgesamt handelt es sich beim 16 PF-R um ein sorgfältig konstruiertes und dokumentiertes Verfahren, welches durch seine Revision gegenüber der vorangegangenen deutschen Version deutlich gewonnen hat. Prob- 34 Kapitel 4 lematisch ist aber seine Orientierung am Persönlichkeitsstrukturmodell von Raymond B. Cattell, welches dem aktuellen Stand der faktorenana- lytischen Persönlichkeitsforschung nicht mehr Rechnung trägt. Die meis- ten Schwächen des Verfahrens (z.B. mäßige interne Konsistenzen und erhebliche Korrelationen der Primärskalen) folgen aus diesem Umstand. 4.2 Freiburger Persönlichkeitsinventar Revidierte Version (FPI-R) Beim Freiburger Persönlichkeitsinventar (FPI) handelt es sich um eine frühe eigenständige Entwicklung im deutschen Sprachraum, die breite Resonanz in Forschung und Anwendung fand: So verzeichnete die Litera- turdatei PSYNDEX am 18. April 2006 unter „FPI“ 1.520 Einträge und weitere 359 Einträge unter „FPI-R“. Entsprechend zahlreiche Forschungsbefunde liegen zu FPI und FPI-R vor. Weiterhin erfuhr bei einer Befragung berufs- tätiger Psychologen, welche bis zu 15 handelsübliche Testverfahren die Teilnehmer am häufigsten verwendeten, das FPI die mit Abstand meisten Nennungen (Roth, Schmitt & Herzberg, 2010). Das Verfahren liegt mittlerweile in der 8. Auflage vor. Im Jahre 1982 erfolgte zunächst eine Evaluation des FPI in einer bevölkerungsrepräsentativen Stichprobe Westdeutschlands und – auf der Basis dieser Daten – eine Revision des Verfahrens, welches seit 1983 als FPI-R publiziert wird. Im Jahre 1999 erfolgte dann eine weitere Evaluation in einer bevölkerungs- repräsentativen Stichprobe von 3.740 Bewohnern Ost- und Westdeutsch- lands, welche der hier besprochenen 8. Auflage (Fahrenberg, Hampel & Selg, 2010) zugrunde liegt. Weil die dort berichteten Statistiken auf der Erhebung im Jahre 1999 beruhen und es sich somit um durchgängig kreuzvalidierte Werte handelt, welche zudem auf der umfangreichsten Stichprobe beruhen, stehen diese hier im Vordergrund. Das FPI-R umfasst insgesamt zwölf Skalen, welche in Tabelle 3 mit ih- ren internen Konsistenzen, Retest-Reliabilitäten und Korrelationen mit Bekanntenbeurteilungen aufgeführt sind. Zehn dieser Skalen, welche „aus den theoretischen Interessen der Autoren an bestimmten Persön- lichkeitseigenschaften entstanden sind“ (Fahrenberg et al., 2010, S. 19), umfassen jeweils zwölf Items. Weiterhin enthält das FPI-R Skalen zur Erfassung von Extraversion und Emotionalität (Neurotizismus) mit jeweils 14 Items, welche teilweise auch bei anderen Skalen ausgewertet werden. Insgesamt umfasst das Verfahren 148 Items mit einem zweikategorialen Antwortformat („stimmt“/„stimmt nicht“). Das erste dieser Items „Ich habe die Anleitung gelesen und bin bereit, jeden Satz offen zu beantworten“ ist ein Kontrollitem und geht in keine Skala ein. Außerdem umfasst das FPI-R eine Offenheitsskala des von Crowne und Marlowe (1960) vorge- schlagenen Typs, welche sowohl ein Persönlichkeitsmerkmal erfassen als auch als Kontrollskala verwendet werden soll. Multidimensionale Persönlichkeitsfragebögen 35 Tabelle 3: Bezeichnungen, Reliabilität und konsensuelle Validität der FPI-R-Skalen Korrelationen Retest- Interne mit Bekann- Reliabi- Skalenbezeichnung Konsistenz tenbeurtei- lität (N=3.740) lungen (N=103) (N=235) Lebenszufriedenheit.76.77.52 Soziale Orientierung.73.63.39 Leistungsorientierung.78.65.40 Gehemmtheit.77.85.26 Erregbarkeit.77.80.39 Aggressivität.75.72.33 Beanspruchung.83.67.42 Körperliche Beschwerden.79.71.40 Gesundheitssorgen.78.68.31 Offenheit.75.73.01 Extraversion.81.77 k.A. Emotionalität.82.78 k.A. Anmerkung: k.A.: keine Angabe. Bei der Entwicklung des FPI-R fanden Faktorenanalysen, itemmetrische Analysen und Clusteranalysen Verwendung. Die Differenzierung in die zehn Skalen erfolgte jedoch überwiegend hypothetisch-deduktiv. „Die Faktorenanalyse war nur ein Hilfsmittel, um die Prägnanz der theoretischen Konstrukte und Skalenentwürfe zu verbessern“ (Fahrenberg et al., 2010, S. 185). Die Autoren des FPI-R lehnen nämlich die Konstruktion von Persön- lichkeitsfragebögen auf der Basis von faktorenanalytisch etablierten Ge- samtsystemen der Persönlichkeit explizit ab: „Jene Auseinandersetzung über die gültige Anzahl und Bezeichnung der basalen Persönlichkeitsfak- toren leidet offensichtlich an der willkürlichen Abgrenzung des Itempools, der ja repräsentativ für das Universum der Deskriptoren sein müsste. Die Beliebigkeit solcher Festlegungen wurde bei der lexikalischen Methode oft nicht genügend reflektiert“ (Fahrenberg et al., 2001, S. 119). Nun ist aber gerade der lexikalische Ansatz durch ein (mit hohem Aufwand verbunde- nes) Bemühen gekennzeichnet, vor der Faktorenextraktion zunächst einen repräsentativen Satz von Eigenschaftsdeskriptoren zu etablieren (Cattell, 36 Kapitel 4 1943; de Raad & Barelds, 2008; Goldberg, 1990; Ostendorf, 1990). Zwar kommen hierbei sicherlich bisweilen subjektive Aspekte ins Spiel, aber es ist zu fragen, ob es ein Fortschritt ist, diese sehr eingeschränkte Willkür durch eine – wie bei der Konstruktion des FPI-R geschehen – viel weiter- gehende Willkür bei der Konstruktauswahl zu ersetzen. Die in Tabelle 3 berichteten kreuzvalidierten internen Konsistenzen der Skalen variieren von.73 bis.83 bei einem Median von.78, und die Retest- Reliabilitäten variieren von.63 bis.85 bei einem Median von.73. Letztere stammen aus einer Studie, in der 103 männliche Herz-Kreislauf-Patienten zu Beginn und am Ende eines stationären Rehabilitationsverfahrens das FPI-R zweimal im Abstand von 4 Wochen ausfüllten. Diesen Probanden wurde zudem das FPI-R ein Jahr später ein drittes Mal vorgelegt. Die Kor- relationen zwischen der ersten und der dritten Messung variieren zwischen.47 und.72 bei einem Median von.62, sind also nur geringfügig niedriger. Ebenfalls werden in Tabelle 3 Korrelationen zwischen den FPI-R-Werten von 235 Personen und Bekanntenbeurteilungen bezüglich der erfassten Merkmale mitgeteilt. Lässt man die Offenheitsskala unberücksichtigt, so variieren diese Selbst-Bekannten-Übereinstimmungen von.26 bis.52 bei einem Median von.38, ein für derartige Untersuchungen üblicher Wert (Borkenau et al., 2004). Die Skalen des FPI-R sind untereinander substanziell korreliert, was nicht überrascht angesichts des Umstandes, dass mehrere der erfassten Kon- strukte dem Bereich der emotionalen Labilität zuzuordnen sind. So zeigt denn auch die Emotionalitätsskala in der Kreuzvalidierungsstichprobe Korrelationen mit den Skalen Lebenszufriedenheit (r=–.65), Erregbarkeit (r=.62), Beanspruchung (r=.65) und Körperliche Beschwerden (r=.64), welche kaum unter den internen Konsistenzen der FPI-R-Skalen liegen. Allerdings gehen diese sehr hohen Korrelationen teilweise auf überlap- pende Items zurück. Aber auch Skalen ohne überlappende Items wie Lebenszufriedenheit und Erregbarkeit (r=–.44), Lebenszufriedenheit und Körperliche Beschwerden (r=–.41), Erregbarkeit und Beanspruchung (r=.41) sowie Aggressivität und Offenheit (r=.54) sind hoch miteinander kor- reliert. Die Autoren diskutieren denn auch eine Fünf-Faktoren-Struktur der FPI-Skalen von der sie (S. 20 des Manuals) meinen, diese Konfiguration habe Ähnlichkeiten mit dem Fünf-Faktoren-Modell, welches von McCrae und Costa postuliert werde. Hinsichtlich ihrer Verschlüsselungsrichtung sind die Skalen des FPI-R nicht ausbalanciert: Bei 130 von 148 Kodierungen führt eine „stimmt“-Antwort zu einer Erhöhung des Skalenwertes, hingegen bei nur 18 Kodierungen eine „stimmt-nicht“-Antwort. Dies bedeutet, dass sowohl Unterschiede im erfassten Merkmal als auch solche in der Akquieszenz in die Skalen- werte, die internen Konsistenzen der Skalen und deren Interkorrelationen Multidimensionale Persönlichkeitsfragebögen 37 eingehen. Die Autoren schreiben hierzu, ursprünglich formulierte negativ gepolte Items wären psychologisch und sprachlich unbefriedigend ge- wesen. In der Tat ist es gerade bei Skalen zur Erfassung von Aspekten emotionaler Labilität schwierig, Items zu finden, bei denen eine „stimmt- nicht“-Antwort eine hohe Merkmalsausprägung indiziert. Nichtsdesto weniger ist im Vergleich zwischen verschiedenen multidimensionalen Persönlichkeitsinventaren die nicht ausbalancierte Verschlüsselung der Items des FPI-R als Manko zu bewerten. Nicht unerwähnt bleiben sollte auch, dass zwei Items des FPI-R nicht von allen Probanden sinnvoll beantwortbar sind. Dies gilt für Item drei: „Ich habe (hatte) einen Beruf, der mich voll befriedigt“, mit dem Schüler und Studierende Schwierigkeiten haben dürften, und für Item 131: „Meine Partnerbeziehung (Ehe) ist gut“, welches für Singles problematisch ist. Zwar dürften diese beiden Items die psychometrischen Kennwerte nur unwesentlich beeinträchtigen, sind aber der Akzeptanz des Verfahrens nicht gerade förderlich. Das Problem der Mehrdeutigkeit hoher Werte in Skalen zur Erfassung sozialer Erwünschtheit bzw. niedriger Offenheit wird im Manual des FPI-R mit dem Ergebnis diskutiert, dass „trotz fortbestehender begrifflicher Un- klarheiten und der Unsicherheit der praktischen Handhabung … für FPI-R eine Offenheitsskala beibehalten“ wurde (S. 48). Für die Praxis empfehlen die Autoren, Tests mit geringen Offenheitswerten „vorsichtig und erst nach Einholen zusätzlicher Informationen zu interpretieren“ (S. 51). Es stellt sich die Frage, ob es angesichts so vager und ungesicherter Empfeh- lungen weise ist, zwölf Items auf die Erfassung des Merkmals Offenheit zu verwenden. Dies ist selbstverständlich kein spezifisches Problem des FPI, sondern aller Inventare, welche derartige Kontrollskalen umfassen. Hingegen ist die Normierung des FPI-R als mustergültig zu bewerten. Die Normierungsstichprobe ist groß und bevölkerungsrepräsentativ, und es werden zahlreiche Analysen zur Begründung erfolgter Differenzierungen (Alter und Geschlecht) bzw. Nichtdifferenzierungen (z.B. zwischen West- und Ostdeutschen) der Normen mitgeteilt. Normtabellen mit flächentrans- formierten Stanine-Werten werden für die Gesamtstichprobe (N=3.740) sowie geschlechtsspezifisch für sieben separate Altersgruppen (16 bis 19, 20 bis 29, 30 bis 39, 40 bis 49, 50 bis 59, 60 bis 69 und >70 Jahre) bereitgestellt. Die Größe der Teilstichproben bewegt sich zwischen 128 und 404 Personen, und der Überrepräsentation von Ostdeutschen in der Normierungsstichprobe wurde durch entsprechende Gewichtungsproze- duren Rechnung getragen. Weiterhin enthält das FPI-R-Manual Tabellen zu den Vertrauensintervallen einzelner Skalenwerte, zu den kritischen Differenzen zwischen Skalenwerten und zur Signifikanz von Unterschieden zwischen Persönlichkeitsprofilen. 38 Kapitel 4 Das Manual ist sehr ausführlich und faktenreich. Seine Lesbarkeit insbe- sondere bezüglich der mitgeteilten Korrelationskoeffizienten würde aber vermutlich gesteigert, wenn höhere Merkmalsausprägungen (z.B. in Tabel- le 8) und „stimmt“-Antworten (im Vergleich zu „stimmt-nicht“-Antworten) stets durch höhere numerische Werte kodiert würden. Der Leser müsste dann weniger häufig „um die Ecke“ denken, was das Vorzeichen einer Korrelation psychologisch bedeutet. So ist denn die Gesamtbewertung des FPI-R zwiespältig. Einerseits wurde mit der Entwicklung dieses Verfahrens Pionierarbeit im deutschen Sprach- raums geleistet, was zu der sehr starken Beachtung von FPI und FPI-R beitragen dürfte. Zudem wurde es sehr sorgfältig konstruiert und normiert. Gewinnbringend sind auch die zahlreichen zum FPI vorliegenden und im Manual ausführlich dargestellten Forschungsbefunde. Die Struktur des FPI-R stammt jedoch in ihren Grundzügen aus dem Jahre 1970, im Detail aus dem Jahre 1983. Zwischenzeitlich gab es wichtige Entwicklungen in der persönlichkeitspsychologischen Grundlagenforschung, welche in die Konstruktion von FPI und FPI-R bisher nicht eingegangen sind. 4.3 Trierer Integriertes Persönlichkeitsinventar (TIPI) Beim TIPI (Becker, 2003) handelt es sich um eine eigenständige deutsch- sprachige Entwicklung neueren Datums mit 254 Items. Seine theoretische Basis ist ein Vier-Faktoren-Modell der Persönlichkeit. Mit einer gewissen Berechtigung interpretiert nämlich Becker (2003) den Forschungsstand zur Struktur von Persönlichkeitsbeschreibungen dahingehend, dass zwar ein Fünf-Faktoren-Modell der Persönlichkeit gegenwärtig in der wissen- schaftlichen Diskussion dominiere, sich aber nur vier dieser Faktoren als hinreichend replizierbar erwiesen hätten (De Raad & Van Heck, 1994). Entsprechend umfasst das TIPI vier Globalskalen. Diese werden als Neu- rotizismus/geringe Seelische Gesundheit, Extraversion/Offenheit, Unverträglichkeit und Gewissenhaftigkeit/Kontrolliertheit bezeichnet. Die Bereiche Extraversion und Offenheit für Erfahrung im Fünf-Faktoren- Modell der Persönlichkeit von Costa und McCrae werden also im Vier- Faktoren-Modell von Becker zu einer Dimension zusammengefasst und die Dimension Verträglichkeit umgepolt. Becker (2003) vertritt die Auffassung, diese vier globalen Dimensionen erlaubten keine hinreichend differenzierte Beschreibung von Persönlich- keit insbesondere für klinisch-psychologische Zwecke. Deshalb umfasst das TIPI auch 34 Skalen spezifischeren Inhalts, sogenannte Primär- oder Facettenskalen. Das TIPI weist also eine hierarchische Struktur auf. Eine Serie von Faktorenanalysen zeigt gute Übereinstimmung der postulierten mit der empirischen Faktorenstruktur. Einen Überblick über die Global- und Primärskalen des TIPI mit Angaben zur Skalenlänge, Reliabilität und konsensuellen Validität gibt Tabelle 4. Multidimensionale Persönlichkeitsfragebögen 39 Die dem TIPI zugrunde liegende Eigenschaftskonzeption beinhaltet, dass individuelle Unterschiede in Persönlichkeitseigenschaften sich in unterschiedlichen Wahrscheinlichkeiten manifestieren, der Eigenschaft entsprechende Reaktionen zu zeigen. Dies ist konsistent mit der gän- gigen Auffassung von Persönlichkeitseigenschaften als Dispositionen. Spezifisch für das TIPI jedoch ist, dass daraus Konsequenzen für die Itemformulierungen gezogen werden, welche durchgängig nach Wahr- scheinlichkeiten fragen. So lautet zum Beispiel Item 1: „Wenn andere Leute lachen, lasse ich mich von ihrer Fröhlichkeit (in … von 5 Fällen) gerne anstecken“. Als Antwortmöglichkeiten stehen die Ziffern 0 bis 5 zur Ver- fügung. Durchgängig führen dabei höhere Wahrscheinlichkeitsangaben zu höheren Skalenwerten. Somit gehen in die Messwerte der Probanden auch systematische individuelle Unterschiede bezüglich der Verwendung der Antwortskala ein, welche als stilistische Varianz zu werten sind. Auch erwies es sich bei zwölf Skalen wegen nicht geordneter Schwellen als erforderlich, Rekodierungen der Probandenantworten dahingehend vor- zunehmen, dass mehrere Antwortkategorien zu einer zusammengefasst werden. Dieser Umstand weckt Zweifel an den Messeigenschaften des von Becker (2003) gewählten Antwortformates. Tabelle 4: Bezeichnungen, Länge, Reliabilität und konsensuelle Validität der TIPI-Skalen (kur- siv: Primärfaktoren) Interne Korrela- Konsis- Retest- tion mit Item- Skalenbezeichnung tenz Reliabilität Bekann- zahl (N= (N=134) tenurteil 1.026) (N=108) Neurotizismus 48.94.85 k.A. Ablehnungssensibilität 6.88.83.43 Grübeln 6.71.70.52 Unselbstständigkeit 6.79.75.42 Ungerechtigkeits- 6.85.76.41 gefühl Körperliche 8.84.83.57 Beschwerden Nachgiebigkeit 6.80.71.45 Konzentrations- 6.81.82.42 störungen Starke Gefühls- 6 76 82 62 schwankungen 40 Kapitel 4 Tabelle 4 (Fortsetzung): Bezeichnungen, Länge, Reliabilität und konsensuelle Validität der TIPI-Skalen (kursiv: Primärfaktoren) Interne Korrela- Konsis- Retest- tion mit Item- Skalenbezeichnung tenz Reliabilität Bekann- zahl (N= (N=134) tenurteil 1.026) (N=108) Verlassensangst 7.75.67.47 Suizidalität 6.90.78.55 Nachtragend sein 8.86.73.46 Verbale Aggressivität 7.84.79.42 Magisches Denken 7.82.74.51 Gehemmte Gefühle 8.78.79.61 Selbstvertrauen 9.83.76.47 (umgepolt) Extraversion/ 31.91.85 k.A. Offenheit Geselligkeit 7.73.79.53 Offenheit für Neues 7.75.82.58 Fröhlichkeit 9.85.84.55 Streben nach 7.77.81.53 Aufmerksamkeit Tatendrang 9.71.74.43 Hedonismus 8.73.77.45 Risikobereitschaft 7.76.85.55 Geldausgeben 6.84.86.62 Selbstbehauptung 9.79.85.49 Unverträglichkeit 26.89.88 k.A. Gewissenlosigkeit 8.71.75.36 Rechthaberische 8.80.82.48 Arroganz Falschheit 6.79.84.28 Misstrauen 9.83.82.34 Multidimensionale Persönlichkeitsfragebögen 41 Interne Korrela- Konsis- Retest- tion mit Item- Skalenbezeichnung tenz Reliabilität Bekann- zahl (N= (N=134) tenurteil 1.026) (N=108) Gewalttätigkeit 14.81.80.28 Einfühlsamkeit 8.68.73.41 (umgepolt) Gewissenhaftigkeit 21.87.89 k.A. Ausdauer/Sorgfalt 7.81.81.65 Planung 5.80.75.52 Ordnungsstreben 7.72.81.62 Arbeitsorientierung/ 8.73.82.59 -sucht Anmerkung: k.A.: keine Angabe. Eine weitere Besonderheit des TIPI ist die Konformität seiner 38 Skalen mit Rasch-Modellen für ordinale Daten (vgl. Rost, 2004). Bei Rasch-Kon- formität weisen Skalen eine Reihe von wünschenswerten Eigenschaften auf, unter anderem, dass es sich bei den Skalenwerten der Probanden um erschöpfende Statistiken handelt. Es fehlen allerdings genauere An- gaben zu den durchgeführten Tests zur Gültigkeit des Rasch-Modells für die TIPI-Skalen und den darin erzielten Kennwerten. Die im Manual sowie bei Becker (2002) erwähnten informationstheoretischen Kennwerte „Baye- sian Information Criterion“ und „Consistent Akaike’s Information Criterion“ dienten wohl vor allem dem Vergleich verschiedener Rasch-Modelle für ordinale Daten untereinander, wobei ja die Passung auch des am besten geeigneten Modells gering sein kann. Zudem erfolgte die letzte im Ma- nual berichtete Überprüfung der psychometrischen Eigenschaften des TIPI in der Normierungsstichprobe von 1.026 Personen, wobei auf der Basis der in dieser Stichprobe gewonnenen Daten noch Veränderungen an den Skalen vorgenommen wurden. Somit stehen Modelltests in einer Kreuzvalidierungsstichprobe noch aus, und es ist damit zu rechnen, dass die im Handbuch mitgeteilten internen Konsistenzen der Skalen deren tatsächliche Reliabilitäten systematisch überschätzen. Wegen der vielen Skalen und komplexer Auswertungsalgorithmen (Maxi- mum-Likelihood-Schätzung von Personenparametern) ist eine manuelle Auswertung des TIPI – etwa mittels Schablonen – nicht vorgesehen: Entweder können die Antworten vom Testleiter manuell in eine Eingabe- 42 Kapitel 4 maske eingegeben, oder das Verfahren kann von den Probanden direkt am Computer ausgefüllt werden. Als Personenkennwerte werden vom Programm Skalensummenwerte sowie auf der Basis des Rasch-Modells geschätzte Personenparameter ausgegeben. Letztere differenzieren stär- ker in den Randbereichen der Merkmalsverteilungen. Die Entscheidung für eine der beiden Statistiken hat zwar keine Auswirkung auf den Prozen- trang eines Probanden, wohl aber für das mit dem Testwert verbundene Vertrauensintervall. Bei der Auswertung hierarchisch strukturierter Fragebögen werden übli- cherweise die Items aller Subskalen niederer Ebene zu einer Globalskala kombiniert. Nicht so beim TIPI, da dies zu sehr langen Skalen geführt hätte, welche nicht Rasch-konform gewesen wären. Stattdessen wurde nach Untermengen von Items in den dem gleichen Globalbereich zugeordne- ten Primärskalen gesucht, welche sich als konform mit dem ordinalen Rasch-Modell erwiesen. Diese Rasch-konformen Itemcluster bilden die Globalskalen. Eine weitere Besonderheit des TIPI besteht darin, dass für die Schätzung der internen Konsistenzen der Skalen neben Cronbachs auch eine aus dem Rasch-Modell abgeleitete Reliabilitätsstatistik mitgeteilt wird, und dass sowohl auf der Basis der Skalensummenwerte als auch auf der Basis der Personenparameter berechnete Retest-Reliabilitäten über einen Zeitraum von einem Jahr mitgeteilt werden. In Tabelle 4 werden die (in der Regel höheren) nach der klassischen Methode berechneten Kennwerte berichtet, um eine bessere Vergleichbarkeit mit den Kennwer- ten anderer hier besprochener Tests zu gewährleisten. Das TIPI enthält keine Skala zur Erfassung sozialer Erwünschtheitstenden- zen. Als Gründe hierfür werden testökonomische Gesichtspunkte sowie der Umstand ins Feld geführt, dass sich derartige Skalen bisher nur sehr begrenzt bewährt haben. Dies ist nachvollziehbar. Die Korrelationen zwi- schen den Globalskalen bewegen sich zwischen –.18 und.42. Sie sind besonders hoch zwischen Unverträglichkeit einerseits und Neurotizismus (r=.42) sowie Extraversion (r=.35) andererseits. Die internen Konsistenzen der – allerdings recht langen – Globalskalen variieren von.87 bis.94, ihre zeitlichen Stabilitäten über einen Zeitraum von einem Jahr von.85 bis.89. Sie sind somit als gut zu bezeichnen. Aber auch die Primärskalen sind angesichts ihrer geringen Itemzahl erfreulich reliabel: Ihre internen Konsistenzen und Retest-Reliabilitäten erreichen jeweils einen Median von.79. Dabei mag die bisher fehlende Kreuzvalidierung zu den hohen internen Konsistenzen beitragen, nicht jedoch zu den vergleichsweise hohen Retest-Reliabilitäten. Möglicherweise wirken sich hier die Art der Frageformulierungen sowie das (wegen möglicher Akquieszenzeffekte problematische) Antwortformat reliabilitätssteigernd aus. Zur Konstruktvalidität werden vor allem Korrelationen mit anderen multidi mensionalen Persönlichkeitsinventaren sowie gemeinsame Faktorenana- Multidimensionale Persönlichkeitsfragebögen 43 lysen der TIPI-Skalen mit den Skalen dieser Inventare berichtet. Stets geht es dabei auch um die Angemessenheit des von Becker postulierten Vier-Faktoren-Modells, welches in den meisten Fällen als mit den Ergeb- nissen eines Scree-Tests am besten vereinbar bewertet wird. Hier wäre eine Bestätigung mittels objektiverer Verfahren zur Bestimmung der Zahl der Faktoren wünschenswert, insbesondere durch Vergleichbarkeitsko- effizienten oder Parallelanalysen (Zwick & Velicer, 1986). Weiterhin liegen Daten von 108 Personen zur Übereinstimmung ihrer Werte in den 34 TIPI-Primärskalen mit dem gemittelten Urteil dreier Bekannter vor. Diese Korrelationen bewegen sich zwischen.28 und.65 bei einem Median von.48 (vgl. Tab. 4). Die Normierung erfolgte anhand der bereits erwähnten Normierungsstich- probe von 1.026 Personen: Orientiert an den Angaben des Statistischen Bundesamtes wurde ein Schlüssel entworfen, der die Einwohnerzahlen aller Bundesländer sowie die Größe und Verteilung von Städten und Ge- meinden in den Bundesländern berücksichtigt. Auf Basis dieses Schlüs- sels wurden Orte ausgewählt und die Zahl der pro Ort zu rekrutierenden Personen bestimmt. Sodann wurde eine entsprechende Zahl von Perso- nen telefonisch kontaktiert und um Mitarbeit gebeten. Von den angespro- chenen Personen erklärten 51% ihre Bereitschaft zur Teilnahme. In sozio- demografischer Hinsicht (Alter, Geschlecht, Bundesland etc.) dürfte somit die Stichprobe annähernd repräsentativ, die Bereitschaft zur Teilnahme an der Untersuchung jedoch mit den erfassten Persönlichkeitsmerkmalen korreliert sein. Mittelwerte und Standardabweichungen sind im Manual für insgesamt zehn Gruppen angegeben: (a) die Gesamtstichprobe, (b) getrennt für Männer und Frauen, (c) getrennt für Personen unter 35, ab 35 und ab 55 Jahren, sowie (d) getrennt für Männer und Frauen unter und ab 35 Jahren. Allerdings schrumpfen bei den letztgenannten differenzierten Normen einige Stichprobengrößen auf unter 200 Personen. Das Manual ist informativ und gut strukturiert. Es enthält vielfältige und nützliche Informationen zur Skalenkonstruktion, zur Interpretation von Testprotokollen sowie zu den psychometrischen Kennwerten einschließ- lich Vertrauensintervallen für einzelne Testwerte und Differenzen zwischen Testwerten. Wünschenswert wären allerdings zusätzliche Informationen zu den bei der Bestimmung der Rasch-Konformität verwendeten Methoden sowie numerische Angaben zu den dabei erzielten Befunden. Insgesamt handelt es sich beim TIPI um ein zeitgemäßes Verfahren, wel- ches dem aktuellen Stand der Persönlichkeitspsychologie und -messung Rechnung trägt. Die Konformität seiner Skalen mit dem ordinalen Rasch- Modell ist zu begrüßen, geht diese doch mit einer höheren Dignität der Messungen einher. Schwächen des Verfahrens sind insbesondere die feh- lende Kontrolle formaler Antworttendenzen, seine lediglich partielle Kreuz- validierung sowie die vergleichsweise kleine Normierungsstichprobe. 44 Kapitel 4 Diesbezüglich sind weitere Entwicklungsschritte sowohl wünschens- als auch lohnenswert. 4.4 Das NEO-Persönlichkeitsinventar Revidierte Fassung (NEO-PI-R) Beim NEO-PI-R von Ostendorf und Angleitner (2004) handelt es sich um die deutsche Adaptation eines von Costa und McCrae publizierten Verfahrens zur Erfassung der Dimensionen des Fünf-Faktoren-Modells der Persönlichkeit. Eine Quelle dieses Modells sind lexikalische Studien (z.B. Goldberg, 1990; Ostendorf, 1990), in denen Personen bezüglich einer repräsentativen Auswahl von Adjektivskalen beschrieben und diese Einschätzungen Faktorenanalysen unterzogen wurden. Dabei zeigten sich in germanischen Sprachen unabhängig von der Probandenstichprobe und Details der faktorenanalytischen Prozedur fünf wiederkehrende Faktoren, die sogenannten Big Five, nämlich Extraversion, Verträglichkeit, Gewis- senhaftigkeit, Emotionale Stabilität und Intellekt. Eine zweite Variante des Fünf-Faktoren-Modells ist das sogenannte NEO- Modell von Costa und McCrae, welches zunächst die Bereiche Neuroti- zismus, Extraversion und Offenheit für Erfahrung unterschied – deshalb der Name NEO – welche in jeweils sechs Facetten untergliedert waren. In Berücksichtigung der Befunde lexikalischer Studien erweiterten Costa und McCrae später dieses NEO-Modell um die Bereiche Verträglichkeit und Gewissenhaftigkeit. Sie blieben jedoch bei ihrer Benennung eines Faktors als Neurotizismus (als Gegenpol zur Emotionalen Stabilität) und eines anderen Faktors als Offenheit für Erfahrung (als alternativer Kon- zeptualisierung des Faktors Intellekt). Das Ergebnis ist das gegenwärtig dominierende, sogenannte Fünf-Faktoren-Modell der Persönlichkeit, wel- ches die Bereiche Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit und Gewissenhaftigkeit unterscheidet. Im NEO-PI-R werden innerhalb jedes dieser Bereiche sechs Facetten unterschieden. Das Verfahren umfasst somit fünf Bereichsskalen und 30 Facettenskalen. Jede Facettenskala besteht aus acht und jede Bereichs- skala aus 48 Items, nämlich allen Items der zugehörigen sechs Facetten. Entsprechend umfasst das NEO-PI-R 240 Items. Hinzu kommen drei Kon-