Diagnostik: Grundlagen, Prozesse, Methoden PDF
Document Details

Uploaded by DurableTrumpet7289
RPTU
Tags
Summary
Dieses Dokument behandelt die Grundlagen und einen Überblick über die psychologische Diagnostik, einschließlich Prozessen und Anwendungsbereichen. Es werden verschiedene Arten von Tests, sowie diagnostische Methoden beschrieben. Das Dokument soll einen Einblick in die verschiedenen Schritte der Diagnostik geben.
Full Transcript
Diagnostik Grundlagen & Überblick diagnostischer Prozess Griechisch: diagignoskein Kognitive Funktion: gründlich kennen lernen, entscheiden, beschließen Gegenstand psychologischer Diagnostik immer Menschen Aber auch Beachtung situativer Faktoren -> nicht nur...
Diagnostik Grundlagen & Überblick diagnostischer Prozess Griechisch: diagignoskein Kognitive Funktion: gründlich kennen lernen, entscheiden, beschließen Gegenstand psychologischer Diagnostik immer Menschen Aber auch Beachtung situativer Faktoren -> nicht nur Eigenschaften, auch konkretes Verhalten in konkreten Umwelten Aufgabe der Diagnostik: Informationen sammeln & verwerten Diagnostik nicht um ihrer selbst willen, sondern zur Beantwortung einer Fragestellung Definition: Dient der Beantwortung von Fragestellungen, die sich auf Beschreibung, Klassifikation, Erklärung oder Vorhersage menschlichen Verhaltens & Erlebens beziehen Gezielte Erhebung von Informationen über Verhalten/ Erleben sowie relevanter Bedingungen Interpretation erhobener Informationen Verwendung von Methoden, die wissenschaftlichen Standards genügen Ziele der Diagnostik: Beschreiben: exakte Beschreibung des Problems -> durch Verhaltensbeobachtung und diagnostisches Interview Klassifikation: in der Klinischen Psych. V.a. durch Klassifikationssysteme (ICD- 10/11 & DSM-V) -> erfüllt das Problem die Kriterien für eine bestimmte psychische Störung? Ist jemand geeignet für eine Stelle oder nicht -> Kategorisierung Erklären: Ursachenfindung des Problems -> v.a. durch diagnostisches Interview & Aktendurchsuchung, Erfassen der Vorgeschichte Identifikation von aufrechterhaltenden Bedingungen: welche Bedingungen erhalten Fehlverhalten aufrecht? Erfassen der Vorgeschichte Prognostizieren: z.B. späterer Berufserfolg oder Verlauf einer psychischen Störung -> von vielen Faktoren abhängig, daher schwer pauschal zu sagen Immer Wahrscheinlichkeitsaussagen!!! Eigenschaften der Diagnostik: Diagnostik nur möglich, wenn eindeutige prinzipiell beantwortbare Fragestellung vorliegt Zielorientiert Untersuchte Konstrukte & verwendete Methoden sollten wissenschaftlich fundiert & evaluiert sein Anwendungsfelder: Vor jeder psychologischen Entscheidung wird Diagnostik betrieben Nötig um danach für Person individuell angemessene Maßnahmen einzuleiten Forensische Psychologie zur Beurteilung der Glaubwürdigkeit von Zeugen & Schuldfähigkeit von Tätern Verkehrspsychologie zur Überprüfung der Fahreignung Pädagogische Psychologie zur Messung des Leistungsstands und Erkennung von Verhaltensproblemen Gesundheitspsychologie zur Erfassung von Stress- und Krankheitsbewältigung Klinische Psychologie zur Diagnostik psychischer Störungen Beispiel: Klinische Psychologie anhand des Konstrukts der Depression: Depressive zeigen schlechtere kognitive Leistungen als Gesunde (Forschungsergebnis) Implikation: bei Demenzdiagnostik auch damit rechnen, dass Leistungsdefizite evtl. auf eine Depression zurückzuführen sind Modellannahmen Eigenschaftskonzept: Menschl. Erleben & Verhalten lässt sich in Form von Eigenschaften beschreiben Verhalten wird durch eine begrenzte Anzahl von Traits (Eigenschaften) bestimmt, wie z.B. Intelligenz Transsituativ konsistent Verhalten als Indikator für Eigenschaften -durch Verhalten kann werden auf Eigenschaften geschlossen ↳ verhalten wird durch Eigenschaften beeinflusst Messung von Verhalten, welches repräsentativ für bestimmte Eigenschaft ist Ziel: Vorhersage von Verhalten derselben Person in anderen Verhaltenssituationen, aber mit denselben Eigenschaften Befunde für dieses Konzept: Persönlichkeitseigenschaften korrelieren mit Verhalten Persönlichkeitseigenschaften sind überwiegend stabil (abgesehen von typischen Veränderungen, wie in der Jugend oder im hohen Alter) Intelligenz korreliert mit Leistungen im Leben (Berufserfolg, Einkommen usw.) Intelligenz ist stabil (verändert sich nicht signifikant im Alter) Beispiel Eigenschaftsmodell: Gute Leistungen eines Schülers zeigen uns, dass er sehr intelligent zu sein scheint Gute Leistungen als Indikator für hohe Intelligenz Verhaltenskonzept: Verhalten wird durch Situation bestimmt ohne den Einfluss von Eigenschaften Beobachtbares Verhalten und situative Bedingungen von Verhalten (Auslöser & Konsequenzen) werden gemessen Hier v.a. Reliabilität wichtig, anstatt von Validität (möglichst genaue Messung des ↳ ↳ wie genau wird gemessen wird gemessen Verhaltens für hohe Reliabilität) , was gemessen werden soll Geht mit behavioristischen Ansätzen einher -> nur direkt beobachtbare Verhalten von Bedeutung + beobachtbare situative Bedingungen Beide Ansätze ergänzen einander: führen zu erklären gemeinsam Situation & Eigenschaft rufen gewissen State hervor (z.B. Angst), der wiederrum zu Verhalten führt (z.B. Schreien) Verhalten wird durch Situationen beeinflusst, ABER auch durch verschiedenes Verhalten in derselben Situation (wird mit PK-Eigenschaften erklärt) Arten von Diagnostik Passung zwischen Personen und Bedingungen Selektion: Selektion von Personen: Vorauswahl der Personen, die die größte Passung mit Bedingungen aufweisen Selektion von Bedingungen: Auswahl spezifischer diagnostischer Kriterien, Tests usw. Modifikation: Manchmal keine gute Passung von Person und Bedingung Änderung der Fragestellung in sofern, dass Merkmale der Person oder Bedingungen Passung aufweisen Modifikation der Person oder Bedingung, da zuvor gescheiterte Selektionsfragestellung (z.B. wenn in Auswahl nicht genug Bewerber sind) Modifikation der Person: scheinbar ungeeignete Bewerber können mit Personalentwicklungsmaßnahmen so verändert werden, dass sie zu Arbeitsplatz passen Modifikation der Bedingung: z.B Veränderung der Bedingungen des Arbeitsplatzes -> Verringerung der Arbeitsaufgaben, um Motivation der Person aufrechtzuerhalten für bessere Passung Statusdiagnostik: Auch „Eingangsdiagnostik“, um im Vorhinein festzustellen, ob Intervention erforderlich ist wie ist der aktuelle Status ? ↑ Ziel: Feststellung des IST-Zustands -> Sind bestimmte Maßnahme indiziert? Diagnostiziertes Merkmal ist über Zeit und Situationen hinweg stabil Meist einmalige Messung Voraussetzung für Selektions- und Modifikationsdiagnostik > Z -. B. Ausprägung einer Depression vor der Therapie Prozessdiagnostik: während der Therapie Milderung ?. Verlauf der Depressions ausprägung - -Z B. Ziel: Feststellung von Veränderungen in psychologischen Variablen -> verändert sich das Merkmal in die gewünschte Richtung? Wiederholte Messungen -> Veränderliche Merkmale werden kontinuierlich erfasst So ist es möglich Intervention ggf. an Veränderungen anzupassen Voraussetzung für Modifikationsdiagnostik Gesetzliche Rahmenbedingungen & ethische Richtlinien Psychologische Diagnostik unterliegt rechtlichen Bestimmungen Ein gesetz Rechtl. Rahmenbedingungen sind unterschiedlichen StGb & Hierarchieebenen zugeordnet -> Normpyramide (EU- BGB Recht -> Grundgesetz -> StGB/ BGB) Ein Recht, das in der Pyramide über einem anderen steht, hat Vorrang Jeder hat das Recht auf Wahrung des Privat- und Familienlebens, sowie ihrer Wohnung und Korrespondenz (EU-Menschenrechtskonvention) Die Würde des Menschen ist unantastbar (Grundgesetz) Schweigepflicht, Offenbarungspflicht(StGB) Beispiel: Gutachten und Untersuchungsberichte Sorgfaltspflicht: Gutachter sollte alle Maßnahmen berücksichtigen, sodass Gutachten vollständig ist Transparenz für Adressaten: Gutachter sollte darauf achten, dass betreffende Person(en) Gutachten klar verstehen können Einsichtnahme gewähren: Betreffende müssen Zugang zu jeglichen ihnen zugeschriebenen Unterlagen haben Keine Gefälligkeitsgutachten: Gutachten, die im Interesse des Auftragsgebers manipuliert werden z.B. gegen bestimmte Geldsumme DEr diagnostische Prozess 1 Der diagnostische Prozess im Überblick Abfolge von Maßnahmen zur Gewinnung diagnostisch relevanter Informationen Planungsphase, Durchführungsphase, Integrationsphase 1. Planungsphase: Auftragsklärung: Vereinbarung einer globalen Fragestellung mit dem Auftraggeber Aspekte: Wer steht im Fokus der Frage? Was ist die Konsequenz der Diagnose? Welche zeitl. Stabilität sollte die Diagnose haben? Ist die Frage ethisch vertretbar & prinzipiell beantwortbar? Ausreichende Kompetenz des Diagnostiker? Wann Ablehnung der Fragestellung? Dem Diagnostiker fehlt die Fachkunde -> z.B. Psychologe überweist dann an psychologischen Psychotherapeut Auftrag nicht ethisch/ gesetzlich tragbar -> z.B. Bitte um Gefälligkeitsgutachten Diagnostiker ist nicht neutral Erkenntnisgewinn über Frage gemessen an der Ökonomie (Relation von Kosten & Nutzen) zu gering Daher oft Modifizierung der Fragestellung z.B. im Sinne einer Wahrscheinlichkeitsprognose Konsequenz der Diagnose: Selektionsdiagnostik: Individuum: Auswahl der geeignetesten Person (z.B. Personalauswahl) Umwelt: Auswahl der geeignetesten Umwelt ( z.B. Berufsempfehlung) Erfassung zeitlich relativ stabiler Eigenschaften Ziel: Prognose Modifikationsdiagnostik: Ziel: Status (Ist-Zustand) feststellen & Veränderung zum Soll-Zustand abbilden Erfassung konkreten Verhaltens einer Person oder relevanter Bedingungen einer Umwelt Statusdiagnostik mit anschließender Prozessdiagnostik (Verlaufskontrolle) Zum Gespräch mit Auftraggeber gehört auch: Hinweisen auf Grenzen der Diagnostik -> nie Vorhersage mit Vorhersagen 100 % iger Eintretenswk , sondern prognostische Begutachtung ist ergebnisoffen Entscheidung ist mit mehr oder weniger hoher Sicherheit verbunden Ergebnis der Auftragsklärung sollte schriftl. Vereinbarung mit konkreter Fragestellung, erforderlichen Mitteln & dem erwarteten Endprodukt sein Beispiele: Ist Joschka mindestens durchschnittlich intelligent? (beantwortbar) Wird Felix das Gymnasium schaffen? (fehlende WK-Aussage, nicht beantwortbar) Wird Annika eine gute Vorgesetzte sein? (nicht beantwortbar) 2. Planungsphase Ausdifferenzierung der Fragestellung: Globale Fragestellung oftmals sehr abstrakt -> Ausdifferenzierung in spezifischere Fragestellungen (Gesamtheit dieser erlaubt Beantwortung der globalen Fragestellung) Modelle zur Ausdifferenzierung der globalen Fragestellung: 1.Verhaltensgleichung: Alle relevanten Themenfelder zur Beantwortung der globalen Fragestellung werden systematisch nach Informationen abgesucht Klassifikation der Themenfelder mithilfe Verhaltensgleichung: V = fI( U, O, K, E, M, S) Verhalten ist die Funktion aus den Variablen und deren Interaktion U(Umgebungsvariablen) -> z.B. finanzielle Situation O(Organismusvariablen) -> körperliche Beeinträchtigungen K(kognitive Variablen) -> z.B. Intelligenz, Leistung E(emotionale Variablen) -> Emotionsregulation, Belastbarkeit, emotio. Stabilität M(motivationale Variablen) -> z.B. Leistungsmotivation S(soziale Variablen) -> z.B. soziale Kompetenzen 2.KSA´s + P Knowledge, Skills, Ability + Personality -> aus der Personalauswahl/-entwicklung Anforderungsanalyse für eine Stelle wird unterteilt in notwendige Eigenschaften nach Wissen, Fertigkeiten, Fähigkeiten & PK-Eigenschaften Stark überlappend mit Themenfeldern der Verhaltensgleichung 3.Klinische Klassifikationssysteme ICD10/11 & DSM-5 Beispiel: Minderbegabung nach ICD10, wenn IQ im Bereich von 50-69 liegt + Lernschwierigkeiten in der Schule Beispiel: Globale Fragestellung: Ist Constanze hochbegabt? Spezifische: Entspricht Constanzes allgemeine Intelligenz in 2 Intelligenztests dem Kriterium für Hochbegabung (IQ > 130) -> immer 2 Tests bei der Messung + Ergebnis in beiden überdurchschnittlich für „Diagnose“ Hypothesenformulierung: Hypothese zu jeder spezifischen Fragestellung Aspekte der Hypothesenformulierung: 1. Ein einziger Sachverhalt/ Hypothese 2. Hypothese als Frage formulieren (kann mit ja/nein beantwortet werden) 3. Trennscharfe Hypothesen (nicht beide sollten das gleiche Merkmal eines Konstrukts messen) 4. Bezug zur globalen Fragestellung 5. Normbezug (mit welcher Normgruppe soll Person verglichen werden?) 6. Richtung/Cut-off Setzung -> wie ist Person ausgeprägt im vgl. zu anderen, z.B. durch ICD10 Entscheidungsregeln: Vor Untersuchung muss festgelegt werden anahnd welcher Regeln die einzelnen Hypothesen & globale Fragestellung beantwortet werden soll Kompensatorische Regel, Oder-Regel, Konjunktive Regel, Mischformen Einschub Normenwerte: Es gibt verschiedene Normwerte, mit denen eine Einordnung der Ausprägung einer Person im Vgl. zu einer Referenzgruppe vorgenommen werden kann Dazu zählen IQ-Werte, Standardwerte und T-Werte Verteilung IQ-Werte: M = 100, SD = 15 Um Hochbegabung zu diagnostizieren z.B: mind. 2 SD über dem Mittel (also 130) Verteilung T-Werte: M= 50, SD= 10 Kompensatorische Regel: Schwächen in einem Bereich können durch Stärken in einem kompensiert anderen Bereich ausgeglichen werden = + Z. B IQ 70. , aber GH nur 40 -trz. Positive Entscheidun mindumPositi ein · Informationen zu verschiedenen Konstrukten/Verfahren werden dann zu Gesamtwert zusammengefügt durch verschiedene Merkmalskombinationen Beträgt der gemittelte T-Wert aus beiden Bereichen mind. 50, wird positiv entschieden Beispiel Schulabschluss: Vorhersage: Schüler schafft Gymnasium erfolgreich Annahme: Gute Noten benötigen Intelligenz und Gewissenhaftigkeit Gewichtung: Das Verhältnis zwischen Intelligenz und Gewissenhaftigkeit ist egal, der Durchschnitt muss ein Mindestmaß überschreiten Kriterium erfüllt, wenn beide Werte mittelhoch sind. Ein niedriger Wert in einem Bereich kann durch einen sehr hohen Wert im anderen Bereich kompensiert werden Oder-Regel (disjunktive Regel): Keine Addierung/ Verrechnung der Werte, sondern reicht in einem der Bereiche die Anforderungen zu erfüllen (z.B. T-Wert von 50) Vorhandensein eines Mindeswerts in einem Bereich kann den anderen Bereich vollständig abdecken Merkmale sind nicht kompensierbar In jedem Merkmalsbereich müssen bestimmte Mindestanforderungen erfüllt sein Z.B. in beiden Bereichen muss T-Wert von mind. 50 erreicht werden Beispiel hier: Wenn in einem Konstrukt (Intelligenz & Gewissenhaftigkeit) Werte über 50 auftreten, wird positiv entschieden Ein Merkmal wird durch ein anderes kompensiert, sollte aber nur wenn es dafür empirische Evidenz gibt Mindestmaß an Gewissenhaftigkeit würde somit Intelligenz obsolet (nicht erforderlich) machen Beispiel klinische Diagnostik einer psychischen Störung: Mindestanforderung: 5 von 9 Symptomen müssen erfüllt sein Welche Symptome das sind, ist prinzipiell egal Ein fehlendes Symptom wird nicht durch ein anderes ausgeglichen (nicht kompensierbar) Konjunktive Regel: -auch UND-Regel Annahme: Merkmale sind nicht kompensierbar In jedem Merkmalsbereich müssen bestimmte Mindestanforderungen erfüllt werden Sparsame Einsetzung, da Entscheidungsprozesse durch Anforderungen schnell verkompliziert werden Beispiel hier: Positive Entscheidung nur, wenn T-Werte beider Konstrukte mind. 50 sind Ein Bereich (Intelligenz) mit niedrigem Wert kann nicht durch einen hohen Wert im anderen Bereich (Gewissenhaftigkeit) ausgeglichen werden Mischformen: Schwach konjunktive Entscheidungsregel: Alle Merkmale müssen in Mindestmaß vorhanden sein Oberhalb der Grenze werden Werte kompensatorisch verrechnet Z.B. in beiden Bereichen mind. T-Wert von 50 & insgesamt mind. Durchschnittl. T-Wert von 60 Schwache Oder-Regel: Überschreiten 1 Mindestwerts in einem Bereich führt zu positiver Entscheidung, unabhängig der Werte in den anderen Bereichen Bei Unterschreiten des Mindestwerts gibt es Bereich, in dem sich Merkmale kompensieren können Z.B. mind. T-Wert von 60 in 1 der Bereiche oder durchschnittl. T-Wert von 50 Tabellarische Ausfuhrung: Fall 1: Nur 1 Verfahren wird eingesetzt zur Beantwortung der Hypothese Hypothese: liegt die Ausprägung des Merkmals X im Vergleich zur Norm Y mind. Im Bereich Z? Hypothese bezieht sich auf konkrete Schwelle: z.B. mind. 50 Verwendung der konjunktiven Entscheidungsregel Auch möglich bei ungerichteter Hypothese: Liegt die Ausprägung des Merkmals X im Vergleich zur Norm Y außerhalb des Durchschnittsbereichs? Fall 2 und 3: Ziel: Ergebnisse innerhalb einer Hypothese integrieren -> z.B. Fragebogen & Verhaltensbeobachtung zur Erfassung von Extraversion Kompensatorisch: der aus Verfahren … UND … gemittelte Normwert muss mind. Über … liegen Oder-Regel: der Normwert aus Verfahren … ODER … muss mind. Über … liegen Konjunktiv: Normwert aus Verfahren … und … muss mind. Über … liegen Mischung: der aus Verfahren … und … gemittelte Normwert muss mind. Über … liegen oder der Normwert aus… muss mind. Über … liegen Fall 4 und 5: Ziel: Ergebnisse mehrere Hypothesen integrieren Hypothesen beziehen sich auf unterschiedliche Merkmale -> Anwendung kompensatorischer/Oder-Regel muss gut begründet sein Konjunktiv: jede Hypothese muss positiv beantwortet werden, um globale Fragestellung auch positiv zu beantworten Zur Beantwortung globaler Frage Mischung aus kompensatorischer & konjunktiven Entscheidungsregeln Bei Selektionsdiagnostik oft Unterscheidung zwischen KO-Kriterien und „nice-to- haves“ -> Achtung vor subjektiven Vorurteilen Operationalisierung 1. Auswahl geeigneter Verfahren zur Beantwortung der Fragestellungen -> orientiert sich an den Gütekriterien Ist Verfahren geeignet zur Beantwortung der Fragestellung? (Anwendungsbereich, Validitätsbefunde mit Bezug zur Fragestellung, angemessene Normen) Passung zwischen diagnostischem Kontext & dem Anwendungsbereich für den das diagnostische Instrument entwickelt wurde Ist das Verfahren angemessen für die zu untersuchende Person? (Passung hinsichtl. Alter, Behinderung? Testerfahrung? Gefahr der Verfälschung?) 2. Arten von Verfahren: Leistungstests, Psychometrische Persönlichkeitstests, Persönlichkeitsentfaltungs-Verfahren, Verhaltensbeobachtung, Diagnostisches Interview 3. Multimethodales Vorgehen -> immer 2 Verfahren anwenden (verschiedene Perspektiven & Fehler ausgleichen) Diagnostische Verfahren Leistungstests Eindeutig richtige/ falsche Antworten Speedtests (Zeitbegrenzung) vs. Powertests (eher höheres Aufgabenniveau) Arten: Intelligenztests, Entwicklungstests, Eignungstests, Schultests Intelligenztests: Erfolgreichste diagnostische Verfahren Unterscheiden sich im zugrundeliegenden Intelligenzmodell und der erfassten Intelligenzkomponenten z.B. Berliner Intelligenzstrukturmodell und BIS-Test Entwicklungstests: Ziel: Feststellen, ob sich ein Kind allgemein oder in einem speziellen Bereich altersgemäß entwickelt z.B. Wiener Entwicklungstest Schultests: Schuleingangstests: Erfassen Fähigkeiten & Fertigkeiten, die eine Voraussetzung für das Erbringen schulischer Leistungen sind Schulleistungstests: Erfassen den Leistungsstand von Schülern in einem bestimmten Bereich Psychometrische Personlichkeitstests Persönlichkeitsstrukturtests: Referenzmodell: Big Five, HEXACO Z.B. NEO-PI-R Einstellungstests Interessentests: v.a. in der Berufsberatung, z.B. AIST-3 Klinische Tests Verhaltensbeobachtung Einsatz z.B. in Assessment Centern & der klinischen Diagnostik Grundregel: Verhaltensbeobachtung sollte ein konkretes Messziel haben Durch Beobachtungsplan und 3 Schritten der Verhaltensbeobachtung Zu klärende Fragen: Aus den Antworten auf diese Fragen ergibt sich der Beobachtungsplan 1.Was wird beobachtet? Starken Einfluss auf die Wahl der Beobachtungsmethode Offenes Verhalten: z.B. verbale Äußerungen, motorische Aktivitäten etc. -> Fremdbeobachtung Inneres Erleben: z.B. gedankliche Prozesse, Stimmungen etc. -> Selbstbeschreibung (Ergänzung durch Fremdbeobachtung) Objektive körperliche Zustände (Anspannung, Muskeltonus, Herzfrequenz) -> angemessene Technik 2.Wo wird beobachtet? Labor oder Feld (Arbeitsplatz, Treffen mit Freunden…) 3. Wer beobachtet? B Interviewer z.. Aktiv-teilnehmend Passiv-teilnehmend (Person in Situation präsent, aber nimmt keine direkte Rolle ein, z.B. Schulpsychologin im Hintergrund) Nicht-teilnehmend (im Nachhinein, z.B. auf Video beobachtet) 4. Wann wird beobachtet? Direkt: gleichzeitig mit dem zu erfassendem Verhalten Indirekt: zeitversetzt > - z B.. über mehrere Schulbegleitung Tage 5. Womit wird beobachtet? Unvermittelt: Urteil eines Beobachters basierend auf einer verhaltensverankerten Skala Vermittelt: mit technischen Hilfsmitteln (Video-Aufzeichnungen) 6. Wie wird beobachtet? Unstrukturiert Keine/ sehr allgemeine Regel (kein konkreter Vorgehensplan, explorativ) Intuitive Festlegung der Beobachtungsmerkmale in der Beobachtungssituation nur empfohlen, wenn relevante Verhaltensweisen für bestimmte Fragestellung noch nicht bekannt sind strukturiert fester Beobachtungsplan -> welches Verhalten soll zu weöchem Zeitpunkt in welcher Form registriert werden? Standardisierte Bewertungsbögen -> ermöglichen objektive Vergleiche i.d.R. vorzuziehen Beobachtungsprozess: 3 Phasen der Verhaltensbeobachtung: Wahrnehmen -> Registrieren -> Beurteilen 3 Phasen sollten getrennt voneinander ablaufen Beurteilung & Wertung des Beobachteten erst am Ende 1.Wahrnehmen: Beobachtungsziel festlegen Indikatoren genau festlegen Unterscheidbarkeit von anderen Merkmalen sicherstellen (keine Überlappung mit anderen Konstrukten) Nur das wird wahrgenommen, was relevant ist für Messziel Gute Wahrnehmung setzt voraus, dass genau definiert wird, was beobachtet wird Wahl der Indikatoren: Verhalten muss eindeutig auf Eigenschaft zugeordnet werden Situationsabhängigkeit 2.Registrieren: Intensität vs. Häufigkeit des Verhaltens wird geprüft Ereignis bei bestimmtem Erfassung ↑ Häufigkeit: event sampling oder time sampling ( Auftreten des Verhaltens -> Pause -> Verhalten erneut) Intensität: ↓ + Dauer Dauer des Verhaltens, z.B. anrempeln mittel des Verhaltens aggressiv vs. Umschubsen hoch aggressiv ist Standardisierungsgrad (vorgegebenes Protokoll vorhanden) Hilfsmittel: Videoaufzeichnung, Protokollbögen, freie Mitschrift, Stoppuhr) 3.Beurteilen: Zusammenführung vieler einzelner Hinweisreize zu einer Beurteilung der Merkmalsausprägung Gewichtung der einzelnen Informationen vs. Aufsummieren Bedeutsamkeit vs. Häufigkeit des Auftretens des Verhaltens Viele/bedeutsame Hinweisreize, die für das Merkmal sprechen bzw. wenige/unbedeutende Hinweisreize sprechen gegen das Merkmal (hohe Ausprägung) Wenige/unbedeutende Hinweisreize, die für das Merkmal sprechen bzw. viele/bedeutsame Hinweisreize, die gegen das Merkmal sprechem (niedrige Ausprägung) Entsprechende Urteilsschemata müssen vor Verhaltensbeobachtung festgelegt werden Qualitative Wenn-Dann-Regel Quantitative Wenn-Dann-Regel (Entscheidungsregeln) Mittel zur Erhöhung der Messgenauigkeit: Aggregation über verschiedene Situationen & über verschiedene Indikatoren in einer Situation Beteiligung von und Absprache mit Experten Workload (Verhinderung der Überbelastung von Beobachtern) Beobachtungsfehler- und verzerrungen: Sind experimentell gut erforscht, trotzdem ist eine wirksame Fehlervermeidung sehr schwierig Beobachtungsfehler: Verhalten, das Reaktivität fördert Geflüster, non-verbale Kommentierung des Geschehens, wie Lächeln, Kopf schütteln etc. Beobachtete Person reagiert darauf und ändert ihr Verhalten Angemessen ist neutrales, zurückhaltendes Verhalten Beobachterdrift: Genauigkeit der Beobachtung lässt über Beobachtungsphase nacht& (oder nimmt zu) ohne tatsächliche Verhaltensänderung werden zunehmend immer mehr/weniger relevante Ereignisse entdeckt Ermüdung, nachlassende Aufmerksamkeit (Abnahme) Mangelnde Übung (Zunahme) Gegenmaßnahmen: angemessen lange Beobachtungsphasen, ausreichendes Beobachtertraining Beobachtungsverzerrungen: Haloeffekt: hervorstechende Eigenschaft „überstrahlt“ andere -> erklärt möglicherweise die Tatsache, dass Ratings stark unterschiedlicher Eigenschaften oft mittelstark zusammenhängen z.B. wirkt Person sehr freundlich und dahingehend werden auch andere Merkmale positiver wahrgenommen Gegenmaßnahmen: Beobachtertraining, mehrere Beobachter, Auswahl der zeitlgeich zu beurteilenden Merkmale Logische Fehler: zur Beurteilung werden Hinweise herangezogen, die nicht passen -> falsche Schlussfolgerungen, implizite Persönlichkeitstheorien Z.B. Verknüpfung von Brille mit Intelligenz Gegenmaßnahmen: Beobachtertraining, mehrere Beobachter, standardisierte & verhaltensbasierte Beurteilungsinstrumente/-richtlinien Primacy & Recency Effekt: Primacy: Informationen, die zu Beginn aufgenommen werden, haben besonderen Einfluss auf Urteile Recency: zuletzt gewonnene Informationen werden stärker gewichtet Effekte schließen sich nicht aus Gegenmaßnahmen: Beobachtertraining, kontinuierliche Verhaltensaufzeichnung, standardisierte & verhaltensbasierte Beurteilungsinstrumente, Workload der Beobachter, Ratings mitteln Mildeeffekt: Verzerrung zum Positiven -> Gegenteil: besondere Strenge Gegenmaßnahmen: Beobachtertraining, Verhaltensanker für alle Kategorien, Ratings mitteln Zentrale Tendenz: mittlere Ratings werden bevorzugt gewählt (häufig Ausdruck von Unsicherheit/Überforderung) -> Gegenteil: Extremurteile (sehr selten) Gegenmaßnahmen: Verwendung unipolarer Skalen, Verhaltensanker für alle Kategorien, Workload, Antwortkategorie „Nicht beobachtbar“ Fazit: Beobachtertraining, Einsatz mehrere Beobachter Ablauf standardisieren & auf Workload achten Konkreten Beobachtungsplan erstellen, der den gesamten Prozess mit allen Details abbildet Diagnostisches Interview Überbegriff für Methoden zur Erhebung von diagnostisch relevanten Informationen mittels Gespräch Unterschiedliche Verwendungszwecke: Anamnese, Exploration, Auswahlgespräch Einteilung nach dem Grad der Strukturiertheit: 1. Unstrukturiert (keine Hinweise zur Druchführung) 2. Teilstrukturiert (alle Testenden bekommen z.B. dieselben Fragen) - 3. Völlig strukturiert (feststehende Fragen, aber Reihenfolge egal) -> z.B. Interview nach der DSM-IV 4. Standardisiert (feststehende Fragen, Antwortalternativen festgelegt, Reihenfolge steht fest) Freie oder gewschlossene Fragen lanken bestimmte Richtung Fragen , die in doch gut oder ? * 4 z B.. Ihnen geht es Mögliche Fehler aufseiten des Interviewers: Suggestivfragen, zu hoher eigener Redeanteil, fehlender Einsatz von Gesprächsverstärkern, mangelndes Antworten der Testperson Worten eigenen in Paraphrasieren -Wiedergabe der Fragetypen: Biografische Fragen: Vergangenes Verhalten ist der beste Prädiktor für zukünftiges Verhalten Z.B. „wie haben Sie sich auf Ihre Prüfungen vorbereitet?“ Können auch komplexer & sequenziell sein Auswertung nach vorher festgelegten Regeln Situative Fragen: Schilderung einer kritischen Situation „wie würden Sie sich in dieser Situation verhalten“ Auswertung: „richtige“ Antworten werden vorher festgelegt und in eine Reihenfolge gebracht Strukturierung des Interviews: Festlegung von Regeln für Planung, Durchführung & Auswertung Interviewleitfaden erstellen: Fragen, Einleitungen, Überleitungen, Zusammenfassungen; Reihenfolge; Auswertungsregeln Funktionen des Leitfadens: Ermöglicht standardisierte Durchführung Keine wichtigen Informationen werden vergessen Entlastet Interviewer während dem Gespräch Erhebungsstrategien Multimethodale Diagnostik Verwendung mehrerer Instrumente/Methoden zur Erfassung eines Konstrukts Z.B. Kombination aus Tests, Interview und Assessment Center Ziele: umfassende Beurteilung, Kontrolle von Methodeneffekten Zur Feststellung der Eignung für bestimmte Tätigkeit vorteilhaft Verschiedene Arten von Verfahren kommen zum Einsatz -> z.B. Persönlichkeitsfragebogen und Interview (statt 2. PK-Fragebogen) umfassendere Beurteilung der Eignung einer Person Multimethodales Vorgehen in der Eignungsdiagnostik: Trimodaler Ansatz: 3 Kategorien werden von Anforderungen unterschieden, die Stellenbewerber erfüllen soll Anforderung an: Aufgaben & Ergebnisse, Verhalten, Eigenschaften Zur Feststellung, wie gut diese erfüllt werden 3 Gruppen von Verfahren: Biografieorientierte Verfahren: Geeignet alle 3 Arten von Anforderungen zu überprüfen Auswertung der Bewerbungsunterlagen Biografischer Fragebogen Interview Dienen der Überprüfung formaler Voraussetzungen (Qualifikationen etc.) Eigenschaftsorientierte Verfahren: Intelligenztests Andere Leistungstests Persönlichkeitstests Interessentests Simulationsorientierte Verfahren: Verhaltens-, sowie Aufgaben- und Ergebnisanforderungen werden gemessen Assessment Center Computersimulationen Arbeitsproben Ziel: Person dabei zu beoabchten wie gut sie bestimmte Dinge umsetzen kann Computerbasierte(s) Diagnostik (Assessment): = Nutzung eines Computers zur Diagnostik (auch Handys, Tablets, Uhren usw.) kognitiver Fähigkeiten/ Kompetenzen Nutzung des Computers zur Präsentation von Items, Steuerung der Abfolge, Registrierung von Interaktionen der Testperson mit der Aufgabe und Auswertung Sammeln von empirischen Informationen mit Computern Auf Grundlage gesammelter Informationen können Schlussfolgerungen über Gruppen- und/oder Individualunterschiede getroffen werden Vorteile: Volle Standardisierung der Durchführung, Auswertung & Interpretation Objektivität oft besser durch Instruktion durch Computer anstatt Versuchsleiter Zusatzdaten (Bearbeitungszeiten, Korrekturen) = Prozessdaten Geringere Kosten Unmittelbare Verfügbarkeit der Ergebnisse Laufende Normierung möglich (z.B. Hinzufügen neuer Normstichproben zu bestehenden) Nachteile: Geringere Kontrolle über Erhebungsbedingungen Ggf. Benachteiligung von bestimmten Gruppen -> z.B. Ältere Menschen weniger vertraut mit Computern Item- und Testgestaltung: Computerbasierte Diagnostik ermöglicht neuartige Operationalisierungen von Verhaltensindikatoren für Konstrukte auf Ebene des Stimulus und des Antwortformats Höhere Interaktivität Multimediale Anreicherung Ziel: Verbesserung der Konstruktrepräsentation durch größere Authentizität (Realistischere Darstellung des Konstrukts anhand Multimedia) Dimensionen computerbasierter Items: 1.Antwortformat Allgemeine Taxonomie -Systematische Kategorisierung der Antworten Geschlossene Antwortformate (Sortier-und Zuordnungsaufgaben mit Drag-and- Drop, Markieraufgaben) Offene Antwortformate (gesprochene Textantworten, automatisierte Auswertung) 2.Komplexität: Anzahl und Vielfalt von Elementen, die eine Testperson für die Antwortabgabe berücksichtigen muss Z.B. Informationen im Text und Bild, Hyperlinks, Abspielen von Medien usw. Komplexität hängt mit Dimensionen „Wiedergabetreue“ und „Interaktivität“ zusammen Umso höher die Komplexität, desto höher der Schwierigkeitsgrad Zusätzl. Anforderungen müssen konstruktrelevant sein (Elemente brauchen Bezug zum Konstrukt) Benutzerfreundliche Handhabung sollte gewährleistet sein 3.Wiedergabetreue: Wie realistisch und genau werden durch das Item konstruktrelevante Objekte, Aufgaben und Umgebungen reproduziert? Z.B. Messung von Computerfertigkeiten mit simulierter Software für Email- Programm Leute, die Erfahrung darin haben, sollten keinen Vorteil gegenüber anderen haben, Zeitliche Konsistenz (keine ständigen Updates) Höhere Wiedergabetreue geht mit höherem Aufwand bei der Itementwicklung einher (Rechtfertigung dafür hängt vom diagnostischen Ziel ab) 4.Interaktionsgrad: Ausmaß, in dem ein Item auf Aktionen der Testperson reagiert, indem sich Bestandteile des Stimulus ändern oder neue Informationen dargeboten werden Zuordnungsaufgabe mit Drag- and-Drop hat höheren Interaktionsgrad, als Multiple-Choice Aufgabe Hoher Interaktionsgrad bei simulationsbasierter Diagnostik -> z.B. Messung von Computerfertigkeiten mit simulierter Software für Email-Programm (inwieweit reagiert Person darauf, bzw. inwieweit reagieren Items auf Aktionen der Person) Höherer Interaktionsgrad ist mit höherem Aufwand bei der Itementwicklung verbunden Potenzielle Gefahr interaktiver Items: Testpersonen verbringen viel Zeit mit falschen Schritten 5.Medienverwendung: Einbindung von Medien, wie Audio, Video und Animation Audiomaterial z.B. zur Standardisierung von Instruktionen und Erhöhung der Wiedergabetreue von simulierten Situationen Videos zur Darstellung dynamischer Prozesse mit hohem Realitätsbezug Interaktive Multimediaelemente können auch genutzt werden, um konstruktirrelevante Barrieren abzubauen 6. Antworthandlung: Erforderliche physische Aktion zur Abgabe einer Antwort -> z.B. Umgang mit Tastatur, Maus, Touchscreen Hinreichende Vertrautheit der VPN mit dem Eingabegerät muss vor Beginn der Diagnostik sichergestellt werden 7.Antwortbewertung Automatische Antwortbewertung ist zentraler Mehrwert computerbasierter Diagnostik nach automatisierte Bewertung direkt Antwortabgabe beeinflusst weitere Testgestaltung , Ermöglicht adaptives Testen ↳ Fragen ↳ Z B Angabe keine Kinder.. zu haben - Aussparung von dazu & automatische Weiterleitung Beurteilung der Korrektheit der Angaben bereits während der Testbearbeitung Ermöglicht Erstellung von Testberichten und Rückmeldungen direkt im Anschluss an die Testung & Beeinflussung des weiteren Testablaufs Testgestaltung: Testzusammenstellung: Manuell oder automatisiert Automatisiert v.a., wenn aus vielen Aufgaben („Itempool“) ein oder mehrere Tests erstellt werden sollen Automatisiert vor Durchführung des Tests: „automated test assembly“ -> z.B. aus 100 Mathematikitems werden 20 ausgewählt, die bestimmte Kriterien am besten erfüllen Automatisiert während der Testdurchführung: Adaptives Testen Wenn für Testzusammenstellung jeweils gegebenen Antworten der Testpersonen mitberücksichtigt werden Navigation: Möglichkeit zwischen Items zu wechseln, Items zu überspringen, bereits bearbeitete Items wieder aufzurufen Navigation zu vorherigen Items wird oft technisch unterbunden Sequenzierung -> z.B. Filterfragen und Branching (z.B. Auslassen irrelevanter Fragen bei Verneinung von Kinder haben) Daten und Analysepotenzial: Neben Ereignisdaten stehen auch Daten zur Interaktion der Testperson mit dem System zur Verfügung -> Prozessdaten Prozessdaten umfassen Bearbeitungszeiten und Bearbeitungsschritte inklusive ihrer Sequenzen (Klicks, Texteingaben etc.) Prozessdaten werden automatisch generiert und in Logfiles abgespeichert Prozessdaten erlauben in Abhängigkeit vom Interaktionsgrad potenziell Rückschlüsse auf zugrunde liegende kognitive Prozesse -> z.B. Personen mit zu schnellen Bearbeitungszeiten können so herausgefiltert werden Z.B. multiple-choice Aufgaben : Bearbeitungszeit, Antwortänderung Z.B. Simulationen: detailierte Informationen über individuellen Bearbeitungsprozess -> Rückschluss auf verwendete Lösungsstrategien Rückmeldung von Testdaten: Computerbasierte Diagnostik & Auswertung erlaubt die automatische, zeitnahe und individuelle Rückmeldung von Ergebnissen an VPN, Diagnostikern usw. Z.B. Online-Self-Assessments für Beratungszwecke oder formative Assessments im Bereich des Lernens Adaptives Testen: Hem basierend auf Antwort , dann leichteres/schwereres Hem bis bestimmte Messgenauigkeit oder bestimmtes Kriterium erfüllt ist Start mit mittelschwerem solange - , > - Auswahl von Items, die an das individuelle Leistungsniveau angepasst sind Auswahl der vorzugebenden Items orientiert sich am vorher gezeigten Antwortverhalten Voraussetzung: Pool aus Items, die mit einem Modell der Item Response Theorie kalibriert wurden (Itemparamter sind bekannt) -> Itemeigenschaften- und Schwierigkeit muss bekannt sein In der Regel computerbasierte Anwendung -> computeradaptives Testen (CAT) Itemauswahl: Zu Beginn der Testung: durchschnittl. Oder leichtes Item Während der Testung: Grundregel: richtige Lösung -> schwereres Item, falsche Lösung -> leichteres Item Von den unterschiedlichen Strategien zur Umsetzung dieser Grundregel wird heute die mehrstufige maßgeschneiderte Strategie am meisten eingesetzt Jeweils das Item wird ausgewählt und vorgelegt, das unter der aktuellen Schätzung der Personenfähigkeit optimale Eigenschaften aufweist Ende der Testung wenn ein vorher definiertes Abbruchkriterium erfüllt ist: Bestimmte Anzahl von Items (z.B: immer nach 20 Items Abbruch) Genauigkeit der Schätzung der Personenfähigkeit (z.B: statistisches Maß) Maximale Testzeit Kombination der Kriterien sinnvoll Mehrstufige maßgeschneiderte Strategie: Hem > Adaption in Blöcken und nicht nach jedem denselben Frageblock mit 4 - ↳ anfangs bekommen VPN Z B alle.. Fragen Ablauf eines adaptiven Tests:. Fehler 1 Y 4 Fehlern nach richtig wieder ↑ Itemschwierigkeit steigt an, bis falsch gelöst wird, dann Anpassung (leichteres Item) Schätzer für die Fähigkeit pendelt sich in dem Bereich dann ein Vorteile adaptiven Testens: Computer-adaptives Testen basierend auf Modellen der Item Response Theorie ermöglicht: Flexible Itemauswahl, die dem Leistungsniveau angepasst ist Flexibles Vorgehen je nach Anwendungszweck (Personalauswahl vs. Personalentwicklung) Effizienteres Testen -> geringere Kosten Internetbasierte Methoden Gosling et al.: Vergleich von Internet und traditionellen Stichproben Internetstichproben sind heterogener als traditionelle Stichproben bezüglich Geschlecht, sozio-ökonomischer Status, geografische Region und Alter Befunde mit Internetstichproben sind konsistent mit Befunden aus klassischen Laborstudien Varianten der Testadministration: Unkontrollierte Durchführung (unproctored testing) Kontrollierte Durchführung Überwachte bzw. angeleitete Durchführung (proctored testing) Überprüfung der Äquivalenz: Wichtige Aspekte bei Überprüfung der Äquivalenz zwischen computerbasierter und Paper-Pencil Version: Vergleichbare Reliabilitäten Korrelationen zwischen Versionen erwartungsgemäß Vergleichbare Korrelationen mit anderen Tests und externen Kriterien Vergleichbare Verteilungen der Testwerte Beispiele für Anwendungen in psychologischer Diagnostik: Online-Tests zur Vorauswahl in der Personalauswahl Online-Tests zu Berufsberatung/Studienwahl Ambulantes Assessment Ziel: Erhebung von Verhalten unter natürlichen Bedingungen Arten: Selbstberichtsdaten, Beobachtungsdaten, physiologische/ biologische Daten z.B. Dynamic Studie (Jacobsen & Prestele 2023) Tägliche Messungen: State-Narzissmus, wichtigstes Ereignis des Tages & Einschätzung (wie angenehm vs. Stressig), weitere 1. Fragebogenerhebung, 2. Ambulatory assessment Phase (6 Messungen pro Tag für 7 Tage), 3. Online-Fragebogen zur Trait-Erfassung Unterschiede zwischen ambulantem Assessment & traditionelleren Erhebungsmethoden: nicht nomothetisch , denn da nur auf allgemeine Gesetzmäßigkeiten Idiografischer Fokus (intraindividuelle Unterschiede) Erhebung von Daten in natürlicher Umgebung (höhere ökologische Validität) Fokus auf aktuelle/ kürzlich vergangene Zustände/ Verhaltensweisen in multiplen Assessments Kann kontinuierlich, ereignis-basiert, zeit-basiert oder zufällig sein Arten: Selbstbericht: Personen antworten auf Fragen, füllen kurze Fragebögen aus etc. Mögliches Problem: Reaktivität > - durch Auseinandersetzung mit Thematik wird Verhalten beeinflusst Beobachtung: Erfassung von Umgebungsgeräuschen, Gesprächen, Aktivitäten, Ort & Kontexte durch Geräte Geräte: EAR (Aufnahmegerät), Smartphones Physiologische & biologische Daten: Z.B. elektrodermale Aktivität, EKG, Herzratenvariabilität, physische Aktivität Spezielle Geräte oder/ und Smartphone, Smartwatch Smartphone Forschung: Forschung mithilfe von „psych apps“ -z. B. Ernährungstagebuch bei Essstörungen App steuert gesamte Datenerhebung Vorteile: Globale Rekrutierung von Probanden Potenzial für sehr große Stichproben Feldforschung mit hoher ökologischer Validität Geringer Aufwand/Belastung für Probanden Beispiele für nutzbare Daten: getriggertes Ausfüllen von Items Anzahl der Bluetooth Geräte als Proxy für Anzahl der Personen in der Nähe GPS Barometer Verbindung zu Biosensoren Kamera Limitationen: V.a. technischer Natur: Akku, unterschiedl. Betriebssysteme, Stören von anderen Funktionen Herausforderungen: Selektive Stichproben: Personen, die an psych app Studien teilnhemen, könnten sich systematisch von Nicht-Teilnehmern unterscheiden Probandenverhalten (z.B. Vergessen Akku aufzuladen) Fehlende Programmierkenntnisse bei Forschenden Datenmanagement & Datenanalyse Ethik: Informed consent, Anonymität und Privatsphäre Gesetze in verschiedenen Ländern unterscheiden sich Beispiele für Anwendungen in der psychologischen Diagnostik: V.a. im Rahmen der Modifikationsdiagnostik App zum Symptom-Monitoring App für Therapie-Hausaufgaben App als Essenstagebuch während/nach der Therapie einer Essstörung Beispiel für AA mit Psych Apps: Sliwinski et al.: Reliability and validity of ambulatory cognitive assessments 219 VPN füllten über 14 Tage 5x am Tag einen 3-minütigen kognitiven Test aus Aufgaben: Symbol search, dot-memory, n-back Smartphones wurden zur Verfügung gestellt Vor Beginn des AA machten VPN kognitive Tests in einer Laborsitzung und erhielten Training zur App Kriteriumsvalidität: Korrelationen mit Alter und fluider Intelligenz: Erfasste Konstrukte: Wahrnehmungsgeschwindigkeit (C) und Arbeitsgedächtnis (d,e) Stimmen die Korrelationen mit Alter und fluider Intelligenz zwischen Ambulant Assessment/ AA (fett gedruckt) und Labor ca. überein= Konstruktvalidität: Korrelationen Labor-AA Korrelation der Verfahren untereinander Das, was auf dem Smartphone gemessen wird, ist ähnlich zu dem was ich im Labor gemessen habe, aber auf dem Handy 3min vs. 30min im Labor -Vorteil vom Handy Bei der Wahrnehmungsgeschwindigkeit gibt es eine höhere Übereinstimmung mit dem Smartphone und Labor, im Gegensatz zum Arbeitsgedächtnis (nicht so konvergent valide) Schwankungen in der Reliabilität der durchschnittl. Testwerte über den Studienverlauf: Treten Übungseffekte auf? Misst man mit der Zeit reliabler? Übungseffekte sind erwartet worden bei Dauer von 2 Wochen Reliabilität relativ ähnlich/stabil über Zeit (kein systematischer/auffallender Anstieg) Der diagnostische Prozess 2 Üntersuchungsplanung Im Untersuchungsplan wird festgelegt, in welcher Reihenfolge die Verfahren zum Einsatz kommen (wo werden z.B. Pausen benötigt? Zu welcher Zeit wird z.B. am besten ein IQ-Test durchgeführt?) Einstufige vs. Mehrstufige Untersuchungspläne Einstufige Untersuchungspläne: in einer Stufe > - alle diagnostischen Verfahren durchgeführt Es werden erst Entscheidungen gefällt, wenn alle geplanten Verfahren -7. B. Stelle einer Führungsposition : alle Bewerber durchlaufen Assessment-Center mit Inter durchgeführt worden sind und alle Informationen vorliegen -> Views , PK-Tests , Leistungstests usw. Entscheidungsregeln Formen: für eine Stell Single screen: Einsatz eines einzigen Verfahrens Eignung als Intelligenztest > z -. B nur. Nicht-sequenzielle Untersuchungsbatterie: Einsatz mehrerer Verfahren, Entscheidung resultiert aus der Verrechnung aller Informationen Interview PK-Tests usW. Personalauswahl : , B 1 7 durchgeführt & > werden -.. verrechnet Mehrstufige Untersuchungspläne: An verschiedenen Stellen im Laufe der Untersuchung werden bereits Entscheidungen getroffen (ob Person im Auswahlprozess bleibt oder „aussortiert“ wird) - Kategorischer > 7 B.. Ausschluss mit IQ von Personen z -. B. Personen in Vorentscheidungs-Untersuchungsplan (pre-select): sehr gut abschneiden Eingangsinterview > - Z B.. Personen, die im , genommen werden direkt Terminale Aufnahme von Personen anhand der Ergebnisse eines/mehrerer erster Verfahren Vollständig sequenzieller Untersuchungsplan: abschneiden werden direkt genomme sehr gut schlecht Personen , die Kombination aus pre-reject und pre-select -z. B. weiteren Tests en/abgelehnt mitt. Unterlaufen , Einteilung in 3 Gruppen: terminaler Ausschluss, terminale Aufnahme und sonstige Mehrstufige Untersuchungspläne: Haben eine Reihe von Vorteilen im Vergleich zu einstufigen Untersuchungsplänen: Ökonomie, Vielzahl unterschiedlicher Methoden kann eingesetzt werden Wie sollte Reihenfolge der Verfahren in einem mehrstufigen Untersuchungsolan ausgewählt werden? Zusammenspiel zwischen 3 Faktoren: Selektionsquote, Grundquote, Kriteriumsvalidität Cut-off: Szenario Personalauswahl anhand IQ-Test negativ) FN(falsch ↑ RP crichtig positiv) ↑ > - FP(falsch positiv) / RN (richtig negativ Ergebnisse: eingestellt vs. Nicht eingestellt Leute, die einen Umsatz über 43k machen sind geeignet, Leute darunter nicht (cut-off) Kriteriumsvalidität: wie eng hängt mein Prädiktor mit einem Kriterium zusammen bzw, wie gut kann mein Prädiktor ein Kriterium vorhersagen -> hier positive ↳ gut Einkommen SW-Wert wie kann vorhersagen Korrelation (Ellipse) Selektionsquote: Anteil der Leute, die eingestellt wurden anhand der Gesamtheit des Bewerberpools Richtige Entscheidung bei c und d: korrekt abgelehnt, da sie im Test unter dem cut-off sind (IQ-Ergebnis zu niedrig) Falsche Entscheidung: Leite, die erst als geeignet gelten, aber sich als nicht geeignet herausstellen & Leute die trotz Eignung abgelehnt wurden durch Testergebnis Selektionsquote: (Ausgewählte Geeignete + ausgewählte Ungeeignete) /Alle Anteil der Eingestellten in Bezug auf gesamten Bewerberpool Trefferquote: Ausgewählte Geeignete / (ausgewählte Geeignete + ausgewählte Ungeeignete) Grundquote: (ausgewählte Geeignete + nicht ausgewählte Geeignete) / Alle Anteil der Geeigneten an Allen Beispiel Studierendenauswahl: Unter denen, die ausgewählt wurden sind mehr geeignete (Trefferquote steigt), aber dafür ist die Situation bei der Ablehnung von Geeigneten schlechter (mehr Leute werden abgelehnt, die geeignet gewesen wären) Je höher die Grundquote (mehr Geeignete verfügbar), umso höher der Anteil Geeigneter an den Ausgewählten Unter denen, die ausgewählt wurden sind weniger geeignete und mehr ungeeignete (schlechtere Trefferquote), aber Leute die tatsächlich ungeeignet sind, wurden mehr abgelehnt Je geringer die Grundquote (weniger Geeignete verfügbar), desto geringer ist der Anteil Geeigneter an den Ausgewählten Bei höherer Kriteriumsvalidität sind mehr Geeignete unter denen, die ausgewählt wurden und unter denen, die abgelehnt wurden ist ein höherer Anteil die tatsächlich ungeeignet waren (Trefferquote steigt bei beiden) Je höher die Validität einer Auswahlmethode, desto höher die Wahrscheinlichkeit geeignete Bewerber auszuwählen Taylor-Russell Tafeln: Trefferquote gibt den Wert eines Auswahlverfahrens an (wie hoch der Anteil der Geeigneten) wurden ↳ die auch ausgewählt Grundquote: zu erwartende Trefferquote ohne weiteres Auswahlverfahren -> z.B. randomisierte Zuteilung von Studienplätzen, dann ist Trefferquote = Grundquote Differenz zwischen Trefferquote & Grundquote = Maß für den inkrementellen Wert des zusätzlichen Auswahlverfahrens inkrementeller Wert Trefferquote-Grundquote Annahmen: Individuen innerhalb der Gruppen Geeignet oder Ungeeignet unterscheiden sich nicht in ihrer Kriteriumsleistung (alle sind geeignet vs. Tatsächlich nicht geeignet) Falsch positive sind wichtiger als falsch negative Mit den Taylor-Russell Tafeln kann abgeschätzt werden, ob sich der Einsatz eines - Auswahlverfahrens lohnt Rolle der Selektionsquote: Wert Nahe 1 -> Testen ergibt keinen Sinn Wert geht gegen 0-> Testen wird immer wichtiger Wenn man z.B. zu den besten 2% der am Geeignetesten auswählen will, umso wichtiger Rolle der Grundquote: Grundquote hoch -> viele Geeignete -> korrekte Entscheidungen auch ohne Auswahlverfahren Grundquote niedrig -> wenig Geeignete -> Verfahren muss sehr valide sein, um die wenigen Geeigneten zu finden Umso schwieriger unter allen Leuten diejenigen auszuwählen, die tatsächlich geeignet sind Wann sollte also ein Auswahlverfahren eingesetzt werden: Trefferquote – Grundquote > 0 Auswahlverfahren erreicht mehr korrekte Entscheidungen als aufgrund der Grundquote zu erwarten wäre wenn durch Auswahlverfahren mehr geeignete Personen eingestellt werden würden, als man durch die Grundquote erhalten würde -> deshalb wird Differenz betrachtet Beispiel: TQ = abgelesener Wert-Grundquote Kriteriumsvalidität Grundquote =.50 & Selektionsquote =40% Kriteriumsvalidität =.30 Z.B. Gewissenhaftigkeitstest zur Vorauswahl mit r =.30 & .62-.50 =.12 -> Trefferquote ist 12% höher im vgl. zur Grundquote Unter denen die eingestellt werden sind 62% geeignete Personen Wenn r =.50, dann Trefferquote 20% höher Bei geringerer Grundquote z.B. =.20 ist der Zuwachs der Trefferquote geringer, da generell auch weniger Leute geeignet sind (nur 20%) Bei höherer Grundquote ist es schwerer Verbesserung zu erzielen, da ziemlich nah am Maximum Trefferquoten für Kriteriumsvalidität von r =.50 Mit steigender Grundquote steigt die Trefferquote unabhängig von der bestimmten Selektionsquote Je höher die Selektionsquote, umso geringer wird die Trefferquote (man würde sehr valide Verfahren benötigen, um überhaupt Leute auszuwählen) Hohe Selektionsquote = fast alle werden eingestellt Trefferquote -niedrigere Ausgewählten , da unter mehr FP'S sind Probleme der Taylor-Russell Tafeln: Kosten werden nicht berücksichtigt (Modelle die Nützlichkeit berücksichtigen) Monetärer Mehrwert kann nicht ausgedrückt werden Eingestellte werden nur nach geeignet vs. Nicht geeignet unterschieden Tragen alle Geeigneten im gleichen Maße zum Unternehmenserfolg bei? (keine Berücksichtigung von Personen, die sich darin unterscheiden, wie geeignet sie sind) Wenn Trefferquote – Grundquote > 0 , wurden mehr Geeignete ausgewählt, aber um wie viel mehr erfolgreich sind sie in der Leistung Wenn angenommen werden kann, dass höhere cut-off Werte beim Prädiktor auch zu höherer Kriteriumsleistung führen, unterschätzen Taylor-Russell Tafeln den Wert eines Auswahlinstruments Selektionsquote, Grundquote & Kriteriumsvalidität Mit Taylor-Russell Tafeln können mögliche Trefferquoten vor dem Festlegen eines Untersuchungsplans abgeschätzt werden Bei mehrstufigen Untersuchungsplänen ist das Zusammenspiel aus Selektionsquote, Grundquote & Kriteriumsvalidität wichtig, um Verfahren v.a. für die Vorauswahl auszuwählen Hat Verfahren geringe Kriteriumsvalidität, sind hohe Selektionsquoten empfehlenswert, um nicht bereits am Anfang zu viele Personen fälschlicherweise auszuschließen Neben der Kriteriumsvalidität spielen auch Kosten-Nutzen Überlegungen eine Rolle Z.B. sollten aufwändige Verfahren zu Beginn eines mehrstufigen Untersuchungsplans nur eingesetzt werden, wenn zu erwarten ist, dass sie die Trefferquote substanziell erhöhen Üntersuchungsplanung Allgemeine Hinweise: Vorbereitung von Testleitern und Protokollanten Training Sicherstellen, dass keine Informationen verloren gehen Vorbereitung des Versuchsleiter Nie durch persönliche Sympathie/ Antipathie leiten lassen Im Laufe der Untersuchung immer wieder über eigenes Vorgehen und Ansichten reflektieren Weitere Entscheidungen: Vorab Informationen zuhause erheben lassen? (z.B. Online- Test zur Vorauswahl) Einzel- oder Gruppentestung? Computerbasiert oder Paper-Pencil? Durchführung der Untersuchung Aufklärung der Testperson Über wichtige Aspekte: Wozu? Wer? Welche Verfahren? Wie lange? -> Informed consent Dient der Testfairness und der Reduktion von Testangst Gute Arbeitsbedingungen sicherstellen (alle Bewerber sollten gleiche Bedingungen haben) Standardisierung der Untersuchungsbedingungen Datenauswertung Bei Paper Pencil Verfahren oft mit Schablonen Vorsicht: Manuelle Auswertung ist fehleranfällig Ggf. unabhängige Auswertung durch 2 Personen Bei Computerbasierten Verfahren i.d.R. automatisiert Vorgehen bei der Datenauswertung hängt davon ab, ob man den Testwert normorientiert oder kriteriumsorientiert interpretieren möchte Normorientiert: Ausprägung der Person auf dem Konstrukt wird relativ zu einer relevanten Bezugsgruppe bestimmt Kriteriumsorientiert: Interpretation des Testwerts in Bezug auf ein spezifisches inhaltliches Kriterium Datenauswertung für normorientierte Testwertinterpretation: 1.Testwertermittlung: Testwert einer Person wird nach bestimmten Regeln aus ihren Itemantworten gebildet Vorgehen: Kodierung jeder einzelnen Itemantwort nach einer bestimmten Regel (z.B. 0= falsch, 1= richtig), Ermittlung des Testwerts über alle Items hinweg (z.B. Summenscore) Regeln können unterschiedlich komplex sein Z.B. NEO-FFI: Berechnung von Summenscores für jeden Big Five Faktor Summenscore = Testwert Testwerte haben einen Range von 0-48 Beispiel Testwertermittlung beim Konzentrationstest d2: GZ= Gesamtzahl der bearbeiteten Zeichen (Bearbeitungsmenge) F1= Anzahl Auslassungsfehler F2= Anzahl Verwechslungsfehler KL= Anzahl richtig durchgestrichener Zeichen – F2 Testwertermittlung: Testwert erstmal als Rohwert, der zwar Antwortverhalten der Person widerspiegelt, aber allein nicht sehr aussagekräftig ist Daher werden Testwerte anhand eines Vergleichsmaßstabs interpretiert 2 Möglichkeiten: Normorientierte Testwertinterpretation: Bezugsgruppe -Normtabellen Kriteriumsorientierte Testwertinterpretation: psychologisch-inhaltliche Kriterien Beide Arten der Testwertinterpretation können auch integriert werden & sich ergänzen Datenauswertung für eine normorientierte Testwertinterpretation: 1. Testwertermittlung 2. Transformation des Testwerts (Rohwerts) in einen Normwert 3. Berechnung des Konfidenzintervalls zum Normwert 4. Testung der diagnostischen Hypothese 5. Interpretation & Schlussfolgerung bezüglich der Ausprägung der Person Normwerte: Unterschiedliche Arten von Normwerten -> z.B. Prozentränge, T-Werte, IQ-Werte, Standardwerte Für validierte Tests stehen i.d.R. Normtabellen zur Verfügung, aus denen man den zum Testwert der Person gehörenden Normwert ablesen kann Verteilungen gangiger Normwerte: M Bsp. NEO-FFI: Diagnostische Hypothese: Ist Amelie im Vergleich zu anderen Frauen mind. Durchschnittlich extravertiert ( T >= 50)? Schritt 1: Berechnung des Summenscores für Extraversion ( PP mit Schablone oder computergestützt) -> Amelies Rohwert für Extraversion: 24 Schritt 2: Umwandlung des Rohwerts in einen Normwert mithilfe der passenden Normtabelle im Testmanual > - T = 44 Normtabellen im NEO-FFI: In diesem Beispiel: A.3.1-A.3.5 = Bevölkerungsrepräsentative Quotenstichprobe, nur Frauen Umwandlung des Rohwerts in einen Normwert mithilfe der Normtabelle, hier A.3.2 Amelies Normwert : T=44 Der diagnostische Prozes 3 Konfidenzintervalle Messwert ist nur ein zufälliger Wert aus der intraindividuellen Messwerteverteilung und damit ein Punktschätzer für den wahren Wert Wahrer Wert schwankt aufgrund des Messfehlers Um Messfehler zu berücksichtigen, sollte ein Konfidenzintervall um den Normwert berechnet werden Testwerte,diebeiwiederholten Messunge eine KI ist Bereich um den Testwert/ Normwert, in dem andere Test/-Normwerte liegen, die für die Person auch infrage kommen (Werte, die auch in der hypothetischen Verteilung liegen) KI verdeutlicht, dass unsere Messung nicht vollständig präzise, sondern mit Messfehlern behaftet ist > - Intervall möglicher Werte Bei Interpretation diagnostischer Ergebnisse sollte das KI berücksichtigt werden, damit der Unsicherheit bei der Messung Rechnung getragen wird Diagnostische Hypothesen werden daher oft mit Konfidenzintervallen getestet Da diagnostische Hypothesen sich i.d.R. auf Normwerte beziehen, werden KI i.d.R. um die Normwerte herum berechnet Zusammensetzung: Test-/Normwert (X) Standardmessfehler Z-Wert zu (1- Konfidenzkoeffizient) Standardmessfehler: Maß für die Präzision der Messung Gibt an wie stark die Messfehler um die wahren Werte streuen Berechnung: se= SDx 1 − 𝑅𝑒𝑙(𝑥) SDx: Standardabweichung der Test-/Normwerte Rel(x): Reliabilität der Test-/Normwerte Beispiel Narzissmus-Test: Se= 14.16 √1 − 0.91 = 4.25 i.d.R. werden Normwerte verwendet, z.B. T-Werte mit M=50 und SD= 10 se= 10 √1 − 0.91 = 3 Streuung der Messfehler ist hier 3 Reliabilitätsschätzer: Bei prognostischen Fragestellungen verwendet man zur Berechnung des KI die Retest-Reliabilität Soll mit der Fragestellung eine Statusdiagnose erfolgen, verwendet man interne Konsistenzschätzer (z.B. Cronbachs Alpha) Reliabilitätsschätzer wird dem Testmanual entnommen -> muss zur Bezugsgruppe/ verwendeten Normstichprobe passen Reliabilitäten in der Gesamtnormstichprobe und der Normstichprobe der 20-25- jährigen können unterschiedlich ausfallen Bsp. NEO-FFI: Konfidenzkoeffizient: Wahrscheinlichkeit, mit der die Schätzung zu einem Konfidenzintervall führt, das den wahren Wert enthält („Sicherheitswahrscheinlichkeit“) WK mit der wir ein KI auswählen, das richtig ist Konfidenzkoeffizient = 1- α (oft 90, 95 oder 99) Wahrer Wert = 110 Beobachteter Wert = 112 +/- 3.92 Hier richtiges KI, da der wahre Wert im Intervall liegt Bei 3. Messung falsches KI, da wahrer Wert nicht im KI liegt = 3. Testung außerhalb K Wahl von α hängt davon ab, welche Konsequenzen die diagnostische Entscheidung hat und ob der α-Fehler oder der β-Fehler wichtiger ist Bei falsch negativer Entscheidung eher Reduzierung des β-Fehler Bei falsch positiver Entscheidung eher Reduzierung des α-Fehler Reliabilität sollte berücksichtigt werden Bei geringer Reliabilität & hoher Sicherheitswahrscheinlichkeit kann das KI sehr breit werden Gewünschte Sicherheit, dass das KI zu den richtigen zählt, wird bei der Berechnung des KI berücksichtigt, indem der passende z-Wert aus der Standardnormalverteilung mit dem Standardmessfehler multipliziert wird Konfidenzintervalle: Einseitige & zweiseitige Konfidenzintervalle Gerichtete Hypothese => einseitiges KI = oder Ungerichtete Hypothese => zweiseitiges KI oder> Berechnung eines zweiseitigen Konfidenzintervalls: Angabe im Text: [44;52] Berechnung eines einseitigen Konfidenzintervalls: Obere Grenze: KIo = X + zα * SDx * 1 − 𝑅𝑒𝑙(𝑥) Untere Grenze: KIu = X - zα * SDx * 1 − 𝑅𝑒𝑙(𝑥) Angabe im Text : KI= [44; +∞] [- D; 44] z-Wert: Der Wert, der von der Standardnormalverteilung einen bestimmten Anteil abschneidet