Diagnostik I Zusammenfassung Kapitel 3 PDF

18.2.2024 3 - Entscheidungsregeln und Operationalisierung (59-103 Was bedeutet eigentlich Operationalisierung?—> geeignete Methoden werden ausgewählt, um über Hypothesen entscheiden zu können 3.1 - Entscheidungsregeln (59-64) In Kapitell hatten wir geschrieben, dass man im Prinzip bei jeder aufgestellten Hypothese festlegen muss, anhand welches Kriteriums die Hypothese ange- nommen oder verworfen werden kann. Ebenso muss auch festgelegt werden, anhand welcher Entscheidungsregel die globale Fragestellung beantwortet werden soll. Dabei ist der Unterschied zwischen einer lnvestigatorischen und einer Terminalen Entscheidung zu berücksichtigen. 3.1.1 - Kompensatorische Regel Was wird hier methodisch benutzt bei der Kompensatorische Regel?—> Methodisch werden hier Anleihen bei der Regressionsanalyse genommen. Dort gibt es in Form der Regressionsgleichung die Möglichkeit, die gewichtete Summe mehrerer Prädiktoren zu bilden, z.B. (Note) ~ 4.77 -.12 x T-Wert Gewissenhaftigkeit -.02 x T-Wert Intelligenztest. Diese gewichtete Summe wird dann als vorhergesagter Kriteriumswert einer Person interpretiert. Wie macht man es dann im diagnostischen Prozess?—> Im diagnostischen Prozess kann man nun dieselbe Vorgehensweise wählen. Um die Antwort auf eine Frage zu nden, werden verschiedene Informationen zu einem Wert zusammengefasst. Das bedeutet dann aber auch, dass ein- und derselbe Gesamtwert durch verschiedene Merkmalskombinationen hervorgerufen werden kann. Nehmen wir einmal an, ein Diagnostiker soll vorhersagen, ob ein Schüler das Gymnasium erfolgreich abschließen kann. Er nimmt nun an, dass es für gute Noten Intelligenz und Gewissenhaftigkeit bedarf. In welchem Ausmaß Intelligenz und in welchem Ausmaß Gewissenhaftigkeit zum Einsatz kommen, sei nicht relevant, Hauptsache der Durchschnitt beider Konstrukte übersteigt ein festzulegendes Mindestmaß. Das bedeutet, das Kriterium gilt als erfüllt, wenn beide Werte zusammen mittelhoch ausfallen, um gerade den Kriteriumswert noch zu übersteigen. Es gilt aber auch als erfüllt, wenn ein niedriger Wert in einem der Bereiche durch einen extrem hohen Wert im anderen Bereich ausgeglichen wird. Wie sieht es gra sch aus?—> Die dunklere Fläche gibt den Bereich der Wertekombinationen an, der zu einer negativen Beantwortung der Frage führen würde. Der hellere Bereich beinhaltet alle Merkmalskombinationen, die zu einer positiven Entscheidung führen. Nehmen wir für das Beispiel der Vorhersage des Schulerfolgs im Gymnasium anhand von Noten einmal an, der Diagnostiker hätte festgelegt, beide Eigenschaften in Form von TWerten zu bestimmen und anschließend zu mitteln. Eine positive Entscheidung würde er treffen, wenn dieser Mittelwert mindestens fi ). fi 1 di 17 18.2.2024 - - 50 ergibt. Die Entscheidungsregel lautet also: Beträgt der aus beiden Bereichen gemittelte TWert mindestens 50, wird positiv entschieden. Die Gra k zeigt sehr schön, dass verschiedene Kombinationen aus Intelligenz und Gewissenhaftigkeit dieses Kriterium erfüllen. Allerdings ist hier mit Nachdruck darauf hinzuweisen, dass solche Festlegungen empirischer Belege bedürfen oder anforderungsbezogen begründet (Anforderungsanalyse durch Experten) werden müssen. Weiterhin wird in der Literatur immer wieder diskutiert, ob es günstiger ist, alle Merkmale mit demselben Gewicht zu verrechnen im Gegensatz zu einer spezi schen Gewichtung. Die einfache Gewichtung bietet sich nur dann an, wenn man keine empirische Gewichtung mangels Daten vornehmen kann bzw. wenn man anforderungsbezogen nicht klar argumentieren kann, welche Anforderung wichtiger ist. Ansonsten ist eine Gewichtung bei guter Begründung als das bessere Vorgehen zu empfehlen. Wichtig für die Verrechnung von Normwerten mit kompensatorischen Gewichtungen ist, dass die Normwerte anhand derselben Normstichprobe ermittelt werden oder für jede relevante Teilnorm eine Gleichung aufgestellt wird. In der Regel empfehlen sich Rohwerte, um solche Probleme zu vermeiden. So macht es wenig Sinn, hier eine Verrechnung vorzunehmen, wenn die Normstichproben sich in wichtigen Aspekten (z. B. Alter- und Geschlechtszusammensetzung) unterscheiden. 3.1.2 - Oder-Regel Was für ein Typ von Regel ist die Oder Regel?—> Es ist eine Sonderform der kompensatorischen Entscheidungsregel (auch disjunktive Regel genannt) dar. Hier werden die beiden Werte nicht verrechnet, sondern es genügt, in einem der Bereiche die geforderte Anforderung (im Beispiel T-Wert von 50) zu erfüllen. Dies ist eine starke Annahme, da davon ausgegangen werden kann, dass das Vorhandensein eines Mindestwerts in einem Bereich den anderen Bereich völlig kompensieren kann. Im Beispiel würde dies bedeuten, dass ein Mindestmaß an Gewissenhaftigkeit Intelligenz obsolet macht oder umgekehrt. — > Die Entscheidungsregel würde lauten: Es wird positiv entschieden, wenn der T-Wert in mindestens einem der Bereiche 50 oder mehr beträgt. —> Diese Annahme kann sicher nur in wenigen Fällen getroffen werden. Ein gutes Beispiel liefern die Klassi kationssysteme in der klinisch-psychologischen Diagnostik. Hier nden sich häu g reine Oder-Regeln. Z.b wird hier im Rahmen der Depressionsdiagnostik unter anderem gefordert, dass aus neun vorgegebenen Symptomen fünf in den letzten beiden Wochen aufgetreten sein müssen. Die einzelnen Symptome kompensieren sich also vollständig 3.1.3 - Konjunktive Regel Was für eine annahmen macht die Konjunktive Regel?—> Die konjunktive Regel macht hingegen explizit die Annahme, dass ein Merk- mal nicht kompensierbar ist. Diese Entscheidungsregel ist angemessen, wenn in jedem Merkmalsbereich bestimmte Mindestanforderungen vorliegen müs- sen. Daher wird hier auch von einer Und-Regel gesprochen. Abbildung 3 beinhaltet zum einen eine gra sche Veranschaulichung des konjunktiven Modells und zum anderen einen Vergleich mit dem kompensa- torischen. Die dunklen Bereiche, zusätzlich mit einem Minus versehen, ver- deutlichen die fi fi fi. fi fi fi 2 di 17 18.2.2024 Merkmalsausprägungen, die zu einer negativen Entscheidung gehören. Der hellere Bereich, zusätzlich mit einem Plus versehen, de niert den Bereich, in dem eine positive Entscheidung getroffen wird. Zudem ist die Linie abgetragen, die nach dem kompensatorischen Modell zwischen posi- tiv und negativ trennt. Es wird deutlich, dass sowohl bei Intelligenz als auch bei Gewissenhaftigkeit Bereiche in den Ablehnungsbereich fallen, die nach dem kompensatorischen Modell zu einer positiven Entscheidung geführt hat- ten. Es gibt jedoch auch einen Bereich (hier das dunkelgraue Dreieck), der in einem kompensatorischen Modell zu einer positiven, in einem konjunktiven Modell aber zu einer negativen Entscheidung führt. —> Die entsprechende Entscheidungsregel würde lauten: In beiden Bereichen muss mindestens ein T-Wert von 50 erreicht werden. Welches Modell ist das strengere?—> Im Allgemeinen ist das konjunktive Modell das strengere. Wir hatten bereits in Kapitel 2 darauf hingewiesen, dass das Aufstellen vieler konjunktiver Entscheidungsregeln einem Hürdenlauf ähnelt. Irgendwann wird es sehr unwahrscheinlich, dass jemand auch alle Hürden überspringen kann. Daher sollte man sparsam im Umgang mit konjunktiven Entscheidungsregeln sein. 3.1.4 - Mischformen Warum gibt es Mischformen?—> weil in der diagnostischen Praxis es oft schwer ist, strikt genau eine der Entscheidungsregeln zu verwenden. Daher beschreiben Schmidt und Gschwendner zwei Mischformen. Zum einen ist dies eine schwach konjunktive (schwache Und-Regel) und zum anderen eine schwach disjunk- tive Entscheidungsregel (schwache Oder-Regel). Wie seiht es bei der schwach konjunktiven Regel aus?—> hier müssen alle betrachteten Eigenschaften in einem Mindestmaß vorhanden sein. In unserem Beispiel könnte dies nach wie vor ein TWert von 50 in beiden Verfahren sein. Um dann jedoch die Eignung zu bestimmen, werden für alle Personen mit Werten oberhalb dieser Grenze die Werte wieder kompensatorisch verrechnet. Für unser Beispiel könnte die Regel so formuliert sein: Geeignete Personen benötigen in beiden Bereichen jeweils mindestens einen T-Wert von 50 und insgesamt mindestens einen kombinierten T-Wert von 60. Dadurch werden Personen ausgeschlossen, die zwar das Mindestkriterium in jedem Bereich erfüllt haben, aber eben nicht den nötigen Gesamtscore erreichen. Wie dieser Gesamtscore erreicht wird, also durch welche Eigenschaftskombination, ist jedoch wiederum beliebig. Wie seiht es bei der schwach Oder-Regel aus?—> hier ist es wieder so, dass ein Überschreiten des gesetzten Grenzwertes in einem der Bereiche in einer positiven Diagnose mündet, egal wie die Werte in den anderen Bereichen sind. Ein Unterschreiten führt jedoch nicht direkt zu einer negativen Diagnose. Stattdessen gibt es einen Bereich, in dem sich die beiden Eigenschaften wieder kompensieren können. —> Die entsprechende EntscheidungsRegel würde lauten: Mindestens einen T-Wert von 60 in einem der beiden Bereiche oder einen gemittelten T-Wert von mindesten 50. Aus der Formulierung wird deutlich, dass diese Regel vor allem das sehr gute Abschneiden in einem der Bereiche belohnen soll. Hier sollte man sich wiederum sicher sein, dass eine Kompensation wirklich realistisch ist. fi Wann muss die Wahl der Entscheidungsregel getroffen werden?—> Die Wahl der Entscheidungsregel muss dabei sowohl für jede Hypothese als auch für das Zusammenfassen 3 di 17 18.2.2024 der verschiedenen Hypothesen getroffen werden. Daraus ergibt sich eine Reihe von Spezialfällen, auf die wir im nächsten Abschnitt näher eingehen. 3.2 - Entscheidungsregeln im diagnostischen Prozess (65-68 —> Im diagnostischen Prozess müssen Entscheidungen für jede der aufgestellten Hypothesen getroffen werden. Dabei kann die Information zur Annahme oder Ablehnung einer Hypothese aus einem oder mehreren Verfahren stammen. Schließlich müssen aber auch die Antworten der verschiedenen Hypothesen mittels einer vor der Untersuchung aufzustellenden Entscheidungsregel integriert werden. —>. Sollen Entscheidungen innerhalb einer Hypothese getroffen werden und wird dabei nur ein Verfahren eingesetzt, so ist natürlich keine Kompensation möglich. 3.2.1 - Fall 3.2.2 - Fall 3.2.3 - Fall 3.2.4 - Fall 3.2.5 - Fall 3.3 - Die Auswahl geeigneter Methoden (Operationalisieren der Fragestellungen—> 69-92) Welche sind die gebräuchlichsten Methoden?—> hier gehören psychometrische Tests, Fragebögen, Interviews und Verhaltensbeobachtungen. Was für eine andere Möglichkeit gibt es?—> man kann auch vorhandene Dokumente (z. B. Zeugnisse) oder existierende andere Gutachten zu Rate zu ziehen. 3.3.1 - Arten psychologisch-diagnostischerVerfahren Von wen stammt eine erste Einteilung psychologisch-diagnostischer Verfahren? Und wie sieht sie aus?—> die stammt von Raymond B. Cattell (1957), der zwischen Test (T)-, Life (L)- und Fragebogen (Q für questionnaire)-Daten unterschied. T-Daten gewinnt man mit Leistungstests (siehe unten) und Q-Daten mit Fragebögen und Interviews, L-Daten hingegen primär durch Verhaltensbeobachtungen. Was ist eine weitere Unterscheidung mit der sich Cattell beschäftigte?—> es ist die zwischen "objektiven" und "subjektiven" Tests. Im allgemeineren Sinne bezieht sich "objektiv" darauf, dass es für einen Test einen Auswertungsschlüssel gibt, so dass jeder Anwender bei der Auswertung zum selben Ergebnis kommt (siehe Objektivität). Eine Matheklausur wäre hier ein gutes Beispiel. "Subjektiv" sind Verfahren, bei denen das Auswertungsergebnis stärker vom Auswertenden abhängt. Hier wäre eine Deutschklausur ein 5 4 3 2 1 ) 4 di 17 18.2.2024 gutes Beispiel. Cattell prägte jedoch für den Begriff "objektiver Test" eine spezi schere Bedeutung, die sich darauf bezieht, dass der Test von der Person, die ihn ausfüllt oder bearbeitet, nicht durchschaubar und somit auch nicht verfälschbar ist. —> Diese einfache Klassi kation hilft bereits weiter. Dennoch ist die Vielzahl der Tests damit nur schwer in den Griff zu bekommen. Um hier ein wenig Ordnung zu erzeugen, gibt es eine sehr hilfreiche Kategorisierung von Brähler, Holling, Leutner, und Petermann (2002) Was kannst du mir über diese sagen?—> fi. fi 1. Leistungstests—> diese entsprechen im Cattell'schen Sinne T-Daten. Lösungen sind meist eindeutig als richtig oder falsch bewertbar und somit sind die Tests auch meist als objektiv im allgemeinen Sinne zu bewerten. Eine wichtige Besonderheit ist, dass Leistungstests zum Teil mit Zeitbegrenzung (Speedtest oder speeded Test) vorgegeben werden und zum anderen ohne Zeitbegrenzung (Niveau- oder Powertest). Reine Speedtests bestehen meist aus vielen leichten oder maximal mittelschweren Aufgaben (Items), die in der Regel von jedem, wenn keine Zeitbegrenzung vorliegt, richtig gelöst werden können. Das bedeutet jedoch nicht, dass die Testpersonen keine Fehler machen. Die Zeitbegrenzung wird so gesetzt, dass eine komplette Beantwortung innerhalb der Zeit nicht möglich ist. Somit ist jeder angehalten, möglichst schnell, aber auch genau zu arbeiten. Durch diesen Trade-off (Speed-Accuracy-Trade-off) kommt es zu Fehlern. Zur Testauswertung werden die Anzahl richtig bearbeiteter Aufgaben gezählt (Schnelligkeitsaspekt). Allerdings kann es auch sein, dass die Genauigkeit mitbetrachtet wird, anhand der Fehler, die begangen wurden. Ein Beispiel ist der Test d2 (Schmidt-Atzert) zur Erfassung von Konzentration und Aufmerksamkeit. In diesem Test müssen die VP’s in 14 Zeilen mit Buchstaben jeweils alle d's durchstreichen, die in der Summe 2 Striche über oder unter sich haben. Als Distraktoren dienen p's oder d's mit mehr oder weniger Strichen. Niveautests (Powertests) setzen sich aus Aufgaben zusammen, die im Schwierigkeitsgrad kontinuierlich ansteigen. Dabei werden die Schwierigkeiten so hoch, dass es nicht möglich ist, dass jeder Proband alle Aufgaben richtig löst, auch nicht bei theoretisch unendlich viel Zeit. Lediglich die Personen mit den höchsten Ausprägungen des zu messenden Merkmals sollten dies schaffen. Dabei gibt es keine oder eine sehr großzügige Zeitbegrenzung. Somit spielt Schnelligkeit eher eine untergeordnete Rolle, es geht vielmehr um die Ermittlung eines intellektuellen Leistungsniveaus. Die Advanced Progressive Matrices (Raven, Raven, & Court) zur 5 di 17 18.2.2024. fi fi. fi fi Erfassung der Allgemeinen Intelligenz sind ein sehr gutes Beispiel für diese Testart. In diesem Verfahren werden dem Probanden Matrizen vorgestellt, in denen ein Teil fehlt. Dieses fehlende Teil soll dann aus mehreren dargebotenen Alternativen ausgewählt werden. Es nden sich mittlerweile auch zahlreiche Tests, die mehr oder weniger eine Verknüpfung der beiden Methoden darstellen. Meist handelt es sich dabei um Intelligenztests, die zwar nach Schwierigkeit aufsteigende Aufgaben beinhalten, aber dennoch eine Zeitbegrenzung haben (speeded Tests). Wilhelm und Schulze weisen darauf hin, dass solche Tests wesentlich höher mit reinen Speedtests zusammenhängen als reine Powertests. Das bedeutet, die Messeigenschaften sind andere. Dies sollte bei der Testauswahl unbedingt berücksichtigt werden. Trotz der hohen Qualität vieler Leistungstests hängt ihre Nutzung stark vom jeweiligen Feld ab. Vor allem in der Personalauswahl stoßen diese Tests oft auf eine geringe Akzeptanz und werden trotz ihrer hohen Güte seltener eingesetzt 2. Psychometrische Persönlichkeitstests —> Die häu gste Testform in diesem Bereich sind Fragebögen (Q-Daten). Üblicherweise soll sich eine Person selbst einschätzen, bezogen auf eine Reihe von Aussagen. Es kann jedoch auch sein, dass Fragebögen zur Fremdeinschätzung eingesetzt werden. Bei der Selbsteinschätzung bezüglich einer Aussage ist es schwer zu sagen, ob die gegebene Antwort nun richtig oder falsch ist, da es keinen objektiven Standard gibt. Daher empfehlen wir, hier auch tatsächlich von einem Fragebogen zu sprechen und nicht von einem Test. Letzteres deutet meist eher darauf hin, dass es einen objektiven Bewertungsstandard und somit falsche und richtige Antworten gibt. Dies kann beim Auftraggeber oder aber auch bei der Testperson zu Ablehnung führen. Natürlich lassen sich auch für solche Verfahren objektive Bewertungsschlüssel erstellen. Diese sind insofern objektiv, als dass jeder Auswerter zum selben Ergebnis kommt. Cattells De nition von Objektivität, die beinhaltete, dass ein Test durch die Testperson nicht durchschaubar und somit nicht verfälschbar ist, ist da schon schwerer zu erzielen. Ein Fragebogen ist in der Regel leicht verfälschbar und so besteht gerade bei diagnostischen Prozessen von hoher Bedeutung für die Testperson (z. B. Personalauswahl, Arbeitsunfähigkeit), sogenannten high-stakes Assessments (Situationen, in denen die Diagnose für den Begutachteten mit positi- ven Konsequenzen verbunden sein kann), die Angst, dass die Aussagen nicht mehr nutzbar sind, da sie nicht mehr (nur) die Persönlichkeit widerspiegeln. In der Tat belegen empirische Ergebnisse, dass mindestens 30 % der Bewerber in Personalauswahlsituationen ihre Antworten in PersönlichkeitsFragebögen verfälschen. Dennoch gibt es Hinweise, dass diese Verfälschung sich nicht negativ darauf auswirkt, ob ein Verfahren Berufserfolg vorhersagen kann oder nicht. Dies gilt jedoch in der Regel nur für die Nutzung der Aussagen auf einer eher abstrakten Ebene wie den Big 5. Nutzt man zur Auswahl weniger abstrakte Ebenen, die PersönlichkeitsFacetten, kann sich Verfälschung durchaus auswirken. In der Konsequenz bedeutet das nicht, dass Fragebögen gar nicht in high-stakes Situationen eingesetzt werden sollten. Vielmehr sollten bestimmte Aspekte beachtet werden. So emp ehlt es sich, Fragebögen vor allem zum Ausschließen weniger geeigneter Bewerber in Auswahlkontexten zu nutzen. Zum anderen ist es sinnvoll die zu messenden Eigenschaften auch in einem Interview zu betrachten 3. Persönlichkeitsentfaltungs-Verfahren —> Diese, auch projektive Verfahren genannt, gehören zu den Klassikern der Psychologischen Diagnostik. Allerdings hat ihr Ruf in den letzten Jahrzehnten stark gelitten, so dass sie heute nur noch wenig verbreitet sind. Die bekanntesten Vertreter dieser Kategorie sind sicher der Rohrschach Test und der Thematische Apperzeptionstest. Im Cattell'schen Sinne sind PersönlichkeitsentfaltungsVerfahren meist objektiv, da das Messziel nur selten durchschaubar ist und die Tests so vermeintlich kaum verfälschbar sind. Dies kann in der Praxis jedoch ein Trugschluss sein. Viele der Verfahren in dieser Kategorie stehen in einer psychoanalytischen Tradition und beruhen auf der Idee, dass die Vorgabe mehrdeutiger Stimuli (z. B. Tintenkleckse oder Bilder) unbewusste (implizite) Wünsche oder Motive anspricht, die dann spontan geäußert 6 di 17 18.2.2024 werden. Die Grundannahme ist also, dass Personen, denen ein uneindeutiger Stimulus vorgegeben wird, unbewusste Gefühle, Einstellungen, Wünsche und Bedürfnisse offenbaren, wenn sie dem Stimulus spontan Bedeutungen zuweisen sollen (projektive Hypothese). Von den Antworten der Person wird angenommen, dass sie gültige und wichtige Hinweise auf die Persönlichkeit der Testperson geben. Es existieren zu den Verfahren meist recht komplexe Auswertungsschlüssel, deren Beherrschung ausführliches Trainieren voraussetzt. Daher sind Auswertung und Interpretation der Verfahren nicht nur langwierig, sondern auch subjektiv und stark abhängig von den Fertigkeiten und Fähigkeiten des Auswertenden. —> Somit lässt sich abschließend sagen, dass vor dem Einsatz eines Persön- lichkeitsentfaltungs-Verfahrens gründlich geprüft werden sollte, ob die zu-runde liegende Theorie heutigen wissenschaftlichen Bewertungsmaßstäben standhält. Weiterhin ist dem Einüben der Durchführung und Auswertung ein wesentlich höherer Stellenwert zuzuordnen als bei Leistungstests oder Fragebögen Die meisten Testverfahren und Fragebögen folgen was?—> einem normorientierten Ansatz. Das bedeutet, die Anzahl der richtigen Lösungen einer Person in einem Leistungstest oder die Punktsumme der Antworten in einem Fragebogen werden nicht absolut interpretiert, sondern vielmehr in Relation zu einer Bezugsgruppe gesetzt. Das Ergebnis ist ein Normwert. Der Normwert drückt aus, wie weit der erreichte Punktwert einer Person vom jeweiligen Bezugs- gruppenmittelwert entfernt liegt. Dabei dient die Standardabweichung des jeweiligen Normwerts als Maßeinheit. Normwerte haben also ohne Kenntnis der genutzten Bezugsnorm eigentlich keinerlei Bedeutung. Bekannte Normwerte sind IQ-Werte, T-Werte und Standardwerte (SW). Normwerte drücken also die relative Position einer Person auf einem Merkmal, verglichen mit einer Vergleichsstichprobe, aus. Diese vergleichende Einstufung wird häu g bei der Statusdiagnostik benötigt. Natürlich lassen sich auch die Normwerte einzelner Personen miteinander vergleichen, was bei der Konkurrenzauslese notwendig ist. Werden bei einer Person mehrere Eigenschaften erfasst, lässt sich auch ein Pro l abbilden. Dies setzt aber voraus, dass die Normstichproben vergleichbar sind, was selten der Fall ist. Ein solches Pro l lässt sich auch bei der Prozessdiagnostik für den Verlauf der Veränderung eines Merkmals über die Zeit erstellen. Die ist gerade im Rahmen einer Therapie oft sinnvoll, um bei ungünstigen Therapieverläufen gegen zu steuern. Neben der normorientierten Auswertung gibt es auch eine …?—> eine kriteriumsorientierte Auswertung. Hierbei wird das Ergebnis eines Tests oder Fragebogens nicht mit einer Norm, sondern mit einem festgesetzten Kriterium verglichen. In der Regel wird dieses Vorgehen bei Prüfungen oder auch im Rahmen von Assessment Centern angewandt. Hier ist es nicht wichtig, zu den Besten zu gehören, um zu bestehen. Vielmehr muss ein bestimmtes Kriterium, sprich eine bestimmte Punktzahl, erreicht werden. An dieser Stelle sei schon einmal darauf hingewiesen, dass psychologische Tests und Fragebögen nicht messfehlerfrei sind und der reine Punktwert oder Normwert somit nie als absoluter Wert interpretiert werden sollte. Stattdessen ist das Berechnen eines Vertrauensintervalls unumgänglich fi.. fi fi Was kannst du mir zur Verhaltensbeobachtung sagen?—> diese werden standardmäßig im Rahmen von Assessment Centern durchgeführt. Auch bei der klinisch-psychologischen Diagnostik können Verhaltensbeobachtungen eine große Rolle spielen. Daher möchten wir an dieser Stelle auf ein paar Für Grundregeln hier lehnen wir uns stark an die DIN33430 an. 1. Die erste wichtige Grundregel ist, dass eine Verhaltensbeobachtung nie einfach so durchgeführt wird, sondern ein konkretes Messziel haben sollte. In der klinischpsychologischen Diagnostik kann eine Beobachtung eingesetzt werden, um das Sozialverhalten einer Person zu erfassen. 2. Eine weitere wichtige Grundregel ist das Einhalten des Beobachtungsprozesses. Den Rahmen für den Beobachtungsprozess bildet der Beobachtungsplan, der sich aus den 7 di 17 18.2.2024 Schritten der Verhaltensbeobachtung ergibt. Die Verhaltensbeobachtung selbst sollte aus drei getrennt verlaufenden Phasen bestehen. Zu Beginn nimmt der Beobachter das Verhalten der beobachteten Person wahr. Dabei ist die Aufmerksamkeit so auszurichten, dass das interessierende Verhalten in der größtmöglichen Detailau ösung wahrgenommen werden kann. Allerdings ist es schwer möglich, wirklich das gesamte Verhalten auch zu registrieren. Dies ist auch gar nicht verlangt, schließlich liegt ein konkretes Messziel vor und die Wahrnehmung richtet sich primär auf relevantes Verhalten. In der zweiten Phase, dem Registrieren, werden die Verhaltensweisen einer Person, die Indikatoren für das Messziel sind, notiert/dokumentiert. Erst nach dem Registrieren ndet das Beurteilen statt. Das bedeutet, die Dokumentation des Verhaltens während der Beobachtung ist - im Idealfall- unvoreingenommen und noch nicht wertend. Eine Wertung des Beobachteten ndet erst nach der Beobachtung statt. Die Dokumentation sollte daher möglichst verhaltensnah erfolgen. um das spätere Bewerten zu erleichtern. Werden in einer Verhaltensbeobachtung mehrere Kompetenzen oder Eigenschaften beobachtet, sollte vor der Beurteilung noch eine Klassi kation der dokumentierten Verhaltensweisen erfolgen. Das heißt, für jede notierte Verhaltensweise ist zu entscheiden. für welches der zu beobachtenden Merkmale diese ein Indikator ist. Erst dann erfolgt die Beurteilung. Was für schritte hat die Verhaltensbeobachtung?—> (1) was wird beobachtet?, (2) wo wird beobachtet?, Wer beobachtet?, Wann wird beobachtet?, Womit wird beobachtet? und Wie wird beobachtet?. 1. Was wird beobachtet? —> Am geeignetsten für die Verhaltensbeobachtung ist offenes Verhalten (z.B. verbale Äußerungen. motorische Aktivitäten. Gestik und Mimik). Dieses lässt sich direkt beobachten und kann einen Indikator für bestimmte Persönlichkeitseigenschaften darstellen. Abbildung 7 veranschaulicht diese Idee. Die Abbildung zeigt die Hierarchie eines Traits (Eigenschaft). Auf dem obersten Level be ndet sich der Trait selbst. Dieser ist in der Regel nicht direkt beobachtbar (man spricht auch von latenten Variablen). Zudem handelt es sich um ein vergleichsweise recht abstraktes Konstrukt, was dadurch deutlich wird, dass es auf der 3. Hierarchieebene ist. Es könnte sich hier z.b um Extraversion handeln. Auf der sich darunter be ndenden Ebene sind Gewohnheiten (Habits) verankert. Schließlich folgen auf der untersten Ebene konkrete Verhaltensweisen. Der Unterschied zwischen den unteren beiden Ebenen besteht darin, dass sich Gewohnheiten in mehreren Situationen manifestieren, wohingegen sich Verhaltensweisen in einer ganz konkreten Situation zeigen. Die Verhaltensbeobachtung setzt nun in solch einer konkreten Situation an. Wenn also festgelegt wird, was beobachtet werden soll, dann sollten neben dem Trait oder den Gewohnheiten unbedingt auch die jeweiligen konkreten Verhaltensweisen de niert werden, in denen sich das Messziel in der jeweiligen Situation ausdrückt. Diese werden auch als Verhaltensanker bezeichnet. Ein De nieren solcher Verhaltensanker erleichtert die Verhaltensbeobachtung ungemein, da man dadurch als Beobachter weiß, worauf zu achten ist. Zum anderen hilft es auch, die Beobachtungen zu objektivieren, wenn mehrere Beobachter tätig sind. Abbildung 7 zeigt eine weitere Herausforderung. Neben dem eigentlichen Messziel kann es weitere Messziele geben, die mit dem eigentlichen Messziel korreliert sind. In der Abbildung gibt es eine zweite Eigenschaft, die mit der ersten korreliert. Beim fi fi fi fi fi fi fi fl 8 di 17 18.2.2024 De nieren der Verhaltensanker ist nun unbedingt darauf zu achten, dass keine Verhaltensanker ausgewählt werden, die indikativ für die zweite, korrelierte Eigenschaft sind. Z.b könnte in einem Assessment Center der Anker "einem Mitarbeiter eine Arbeitsanweisung geben" sowohl für Führungskompetenz als auch für Kommunikationskompetenz stehen. 2. Wo wird beobachtet? —> Es lassen sich zwei Beobachtungsorte unterscheiden, das Feld und das Labor. Unter einer Beobachtung im Feld versteht man die Beobachtung in einer natürlichen Situation. Eine Beobachtung im Labor bedeutet, dass der Beobachter eine standardisierte Situation schafft, in der er bestimmte Aspekte manipuliert hat. Zu dieser Kategorie gehören Rollenspiele im Rahmen eines Assessment Centers. 3. Wer beobachtet? —> Auf diese Frage gibt es drei mögliche Antworten: a) aktivteilnehmende Beobachtung, b) passiv-teilnehmende Beobachtung und c) nicht-teilnehmende Beobachtung. Eine aktiv-teilnehmende Beobachtung liegt vor, wenn der Beobachter selbst aktiv an einer Situation teilnimmt und zeitgleich beobachtet. In diesen Situationen ist die Einhaltung des Beobachtungsprozesses besonders schwierig. Wesentlich häu ger sind passivteilnehmende Beobachtungen. In diesen Fällen ist der Beobachter zwar in der Situation, greift aber nicht aktiv ein. Wir sprechen in diesem Zusammenhang auch vom Prinzip “Zimmerp anze”. Eine Zimmerp anze ist zwar auch Teil einer Situation, wird sicher auch zu Beginn wahrgenommen, trägt aber ansonsten zum Handlungsverlauf nichts und zur Atmosphäre allenfalls minimal etwas bei. Der ideale Beobachter in einer passiv-teilnehmenden Beobachtung verhält sich ebenso. Bei der nicht- teilnehmenden Beobachtung ist der Beobachter entweder überhaupt nicht anwesend und die zu beobachtende Situation wird zum Beispiel per Video aufgezeichnet. Andernfalls ist der Beobachter für die beobachtete Person zumindest nicht direkt sichtbar, sitzt beispielsweise hinter einer Einwegscheibe. fi fl fl fi 4. Wann wird beobachtet? —> Die Beobachtung kann entweder gleichzeitig (direkt) mit dem zu erfassenden Verhalten oder zeitversetzt (indirekt) erfolgen. Die direkte Beobachtung entspricht einer Beobachtung im engeren Sinne. Hier sollte dennoch der Beobachtungsprozess, wie oben beschrieben, durchlaufen werden. Eine indirekte Beobachtung wäre eine rückblickende Einschätzung des Beobachtungsziels. Auch hier sollte man sich während der Beobachtung Notizen machen. Allerdings kann eine solche rückblickende Einschätzung auch im Rahmen eines jährlichen Mitarbeitergesprächs erfolgen. In diesem Fall kann es ohne 9 di 17 18.2.2024 systematische Instrumente (z.B. Beurteilungsbögen) zu starken Verzerrungen durch Erinnerungslücken oder Urteilerfehler oder -verzerrungen kommen. In solchen Fällen spricht man auch von Gedächtnisbeurteilungen. Auch eine Videobeurteilung zählt zu den indirekten Methoden. Sie ermöglicht das wiederholte, auch zeitferne Ansehen, wodurch Fehler vermieden werden können. Diese Variante ist jedoch technisch und auch zeitlich recht aufwendig und daher oft nicht realisierbar. 5. Womit wird beobachtet?—> Hier werden vermittelte und unvermittelte Beobachtung unterschieden. Bei einer unvermittelten Beobachtung dient das Urteil eines Beobachters als Messung. Dieses basiert idealerweise auf einer verhaltensverankerten Beurteilungsskala, aber daneben sind keine weiteren Hilfsmittel nötig. Bei einer vermittelten Beobachtung werden technische Hilfsmittel herangezogen. Die Messung ist also sozusagen durch die Technik vermittelt. Solche Hilfsmittel können wiederum Video- oder Audioaufzeichnungen sein. 6. Wie wird beobachtet? —> Diese Frage bezieht sich darauf, ob die Beobachtung strukturiert oder unstrukturiert erfolgt. Bei unstrukturierten Beobachtungen liegt meist kein genaues oder nur ein vage formuliertes Messziel vor (Was fällt bei der Beobachtung auf?). Daher ist es eher eine geeignete Methode, um zunächst Hypothesen über potenzielle Messziele zu generieren. Bei strukturierten Beobachtungen wird hingegen ein konkreter BeobachtungsPlan auf Basis der bis hier aufgestellten fünf Fragen de niert. fi fi Was kannst du mir zum Interview sagen?—> Interviews gehören wohl in allen Bereichen zu den am häu gsten eingesetzten diagnostischen Methoden. Umso wichtiger ist es, dass der Diagnostiker über fundierte Kenntnisse verfügt. Werden bestimmte Regeln bei der 10 di 17 18.2.2024 Konstruktion, Durchführung und Auswertung von Interviews nicht befolgt, kommt es schnell zu diagnostischen Fehlurteilen. Der große Reiz des Interviews ist es, dass sich Diagnostiker und zu beurteilende Person in einer direkten Interaktion be nden. So entsteht das Gefühl, dass man sein Gegenüber besser kennenlernt und einschätzen kann. Dennoch ist hier Vorsicht geboten. Auch in Interviews kann es zu Verfälschungen durch die befragte Person kommen, die die Aussagekraft der Informationen einschränken. Aber auch auf der Seite des Interviewers kann es zu Fehlern kommen. Suggestivfragen, ein zu hoher eigener RedeanteiL fehlender Einsatz von Gesprächsverstärkern (z.B. Nicken oder Nachfragen) oder mangelndes Paraphrasieren (Zusammenfassung einer Aussage des Interviewten durch den Interviewer mit eigenen Worten) gehören zu den häu gsten Problemen. Daher empfehlen wir zum einen den Einsatz eines Interviewleitfadens und zum anderen das Prinzip “Backform”. Während beim Prinzip Zimmerp anze bei der Verhaltensbeobachtung kein Ein uss auf die Situation genommen werden soll, ist dieser Ein uss beim Interview sogar erwünscht. Allerdings sollte dieser Ein uss allen interviewten Personen in gleichem Maß zukommen. Dies ist besonders in high-stakes Situationen (Situationen, in denen die Diagnose für den Begutachteten mit positiven Konsequenzen verbunden sein kann) von Bedeutung. Das bedeutet, als Interviewer sollte man sich einen bestimmten Stil angewöhnen, der dann bei jeder Testperson gleich angewandt werden kann, eben wie eine Backform. Was ist ein weiterer Vorteil von Interviews?—> es ist, dass sie neben der InformationsGewinnung durch Fragen auch Verhaltensbeobachtungen ermöglichen. Hier sollte man sich aber auf Aspekte wie die Ausdrucksweise, den Kommunikationsstil oder das Auftreten einer Person beschränken. In jedem Fall sollten auch beim Interview die Phasen des Beobachtungsprozesses eingehalten werden. Dies gilt auch für die durch Fragen gewonnen Informationen, die während des Gesprächs lediglich dokumentiert und erst nach dem Gespräch bewertet werden sollten. Wie werden Interviews eingeteilt?—> nach dem Grad ihrer Strukturiertheit: a) unstrukturierte, b) teilstrukturierte, c) völlig strukturierte und d) standardisierte Interviews. Bei unstrukturierten Interviews liegen keinerlei Hinweise zur Durchführung oder Auswertung vor. Bei allen weiteren Formen liegt jeweils ein Interviewleitfaden vor. Dieser enthält beim teilstrukturierten Interview die zu stellenden Fragen, die der Interviewer vorlesen sollte. Allerdings kann die Reihenfolge dieser frei gewählt werden. Beim völlig strukturierten Interview ist neben den Fragen auch deren Reihenfolge vorgegeben. Das standardisierte Interview gleicht einem vorgelesenen Fragebogen, da neben Fragen und deren Reihenfolge auch die Antwortalternativen vorgegeben sind und vorgelesen werden. Für den Bereich der Personalauswahl oder eines Anamnesegesprächs in der Klinischen Psychologie empfehlen sich teilstrukturierte Interviews. Standardisierte Interviews werden erfolgreich in der Klinischen Psychologie als Teil der Standarddiagnostik eingesetzt. fi fl fi fi fl fi fl fl fi - Was kannst du mir von den Fragen die Im Interview gestellt werden sagen?—> auch diese werden unterteilt. Zum einen gibt es sogenannte freie Fragen. Damit ist gemeint, dass der Interviewer zu beliebigen Themengebieten Fragen formuliert. Hier ist unbedingt darauf zu achten, dass die Frage, die man stellen will, tatsächlich einen Bezug zur jeweiligen spezi schen Hypothese hat. Weiterhin gibt es geschlossene Fragen. Diese ermöglichen dem Interviewten nur sehr eingeschränkt, z.b mit Ja oder Nein, zu antworten. Im Rahmen eines standardisierten Interviews können diese sehr zielführend eingesetzt werden. In Interviews, die das breite Sammeln von Informationen zum Ziel haben, eignen sich diese eher weniger. In diesen Fällen sind offene Fragen, die eine breite Antwort ermöglichen, vorzuziehen. Diese kommen zudem einem natürlichen Gesprächscharakter sehr nahe. Fragen können zudem auf unterschiedliche Aspekte abzielen. Zum einen kann die Biogra e oder bestimmte Aspekte der Biogra e des Befragten Inhalt der Frage sein. Solche 11 di 17 18.2.2024 biogra schen Fragen beruhen oft auf dem alten psychologischen Leitspruch, dass vergangenes Verhalten der beste Prädiktor für zukünftiges Verhalten sei. Es gibt aber auch Fragen, die eine zumeist hypothetische Situation beinhalten. Diese sog. situativen Fragen sind mentale Simulationen und erfassen, wie sich eine Person vorstellt, sich in einer bestimmten Situation zu verhalten. Die Mischung biogra scher und situativer Fragen ist in den meisten Fällen bei der Gestaltung des Interviewleitfadens vorzuziehen. Welche diagnostische Methode ist zur Beantwortung einer spezi schen Hypothese am besten geeignet?—> es hängt zum einen immer auch vom Messziel selbst ab. So ist es offensichtlich, dass sich Intelligenz am besten mit Tests und nicht mit Fragebogen erfassen lässt. Allerdings ist es bei vielen Eigenschaften günstig, multimethodal vorzugehen. Unabhängig von der Art der jeweiligen diagnostischen Methode, sind bei der Auswahl dieser Methode eine Reihe von Gütekriterien zu beachten 3.3.2 - Gütekriterien psychologisch-diagnostischer Verfahren Was für Gütekriterien können zur Beurteilung einer psychologisch-diagnostischen Methode herangezogen werden?—> Was kannst du mir zu Interviews und Verhaltensbeobachtungen sagen?—> hier ist es schwer, vorab eine Beurteilung der Gütekriterien treffen zu können, wenn es sich nicht um ein Standardverfahren handelt, welches evaluiert wurde. Oft kommt es vor, dass speziell für die zu beantwortende Fragestellung ein Interview oder eine Verhaltensbeobachtung entwickelt werden. Somit liegen noch keine Gütekriterien vor. Daher gilt hier umso mehr, dass durch eine gute Konstruktion der Grundstein für zufriedensteIlende Gütekriterien gelegt wird. Nichtsdestotrotz soll dies nicht heißen, dass man für Interviews und Verhaltensbeobachtungen Gütekriterien nicht berücksichtigen muss. Das Gegenteil ist der Fall. Was bezeichnet Objektivität?—> Ein Verfahren ist objektiv, wenn es weitgehend unabhängig von der Person des Testleiters ist. Das heißt, egal, wer das Verfahren durchführt fi fi. fi 12 di 17 18.2.2024 (Durchführungsobjektivität), auswertet (Auswertungsobjektivität) oder interpretiert (Interpretationsobjektivität), sollte zum selben Ergebnis kommen. Gerade bei Tests und Fragebögen wird dieses Gütekriterium schnell attestiert. Liegen doch standardisierte Instruktionen, Auswertungsschablonen und Normen in den meisten Fällen vor. Sicher sind diese für die Durchführungs- und Auswertungsobjektivität von Bedeutung. Bei der Interpretationsobjektivität ist jedoch Vorsicht geboten. Ein Manual sollte klare Hinweise darauf enthalten, was es bedeutet, in dem Verfahren hohe, durchschnittliche oder geringe Werte zu erzielen. Zudem sollten die angebotenen Interpretationshilfen empirisch untermauert sein. Dies gilt natürlich auch für Persönlichkeitsentfaltungs-Verfahren, Verhaltensbeobachtungen und Interviews. —> Bei Persönlichkeitsentfaltungs-Verfahren ist die Objektivität häu g ein Problem. Vor allem bei der Auswertung können subjektive Verzerrungen auftreten. Daher sind klare Auswertungsschlüssel ein unbedingtes Muss. Dass die Auswertung anhand dieser Schlüssel hinreichend trainiert werden sollte, haben wir bereits weiter oben ausgeführt. Gerade bei Interviews und Verhaltensbeobachtungen ist die Objektivität gefährdet. Neben der Auswertungsobjektivität ist bei beiden Verfahren verstärkt auch die Durchführungsobjektivität gefährdet. Hier helfen Beobachtungsplan bzw. Interviewleitfaden, größere Probleme zu vermeiden. —> Ein Kennwert für die Objektivität wird in den seltensten Fällen angegeben. Am ehesten nden sich noch bei kommerziellen Interviewsystemen Angaben zu Beobachterübereinstimmungen. Was bezeichnet Reliabilität?—> Unter der Reliabilität versteht man die Messgenauigkeit eines Verfahrens. Das bedeutet, es wird quanti ziert, wie genau das Verfahren misst, unabhängig davon, was es tatsächlich misst. So ließe sich eine hohe Messgenauigkeit erzielen, wenn man Körpergröße mit Körpergewicht multiplizieren würde. Trotz der hohen Genauigkeit wäre dies dennoch kein Maß für Intelligenz. Ob der Test misst, was er messen soIl ist vielmehr eine Frage der Validität. Die Reliabilität wird auch de niert als der Anteil der systematischen Varianz an der gesamten beobachteten Varianz eines Messwerts. Um die Reliabilität zu schätzen, existieren verschiedene Methoden, die für Tests und Fragebögen entwickelt wurden, sich aber nur mit Einschränkungen auf Interviews und VerhaltensBeobachtungen anwenden lassen. Der numerische Wert, der bei den Schätzungen resultiert, kann zwischen Null und Eins variieren. Dabei bedeutet ein Wert von Null, dass überhaupt keine systematische Varianz erfasst wurde. Ein Wert von.50 zeigt an, dass die Hälfte der beobachteten Varianz des Messwerts systematisch ist. Ein Wert von Eins bedeutet schließlich, dass völlig messfehlerfrei gemessen wurde. fl fl fi fi fi fi Was für typen von Reliabilität gibt es?—> Bei der Internen Konsistenz wird ein Verfahren nur einmal einer Stichprobe zum Bearbeiten vorgegeben. Die Stärke des Zusammenhangs zwischen den Items und die Testlänge haben dann einen positiven Ein uss auf die Reliabilitätsschätzung. Bei der Paralleltestreliabilität existiert von einem Verfahren sozusagen ein Zwilling. Das bedeutet, beide Verfahren beinhalten dieselbe Anzahl an Items, die zudem in Schwierigkeit und Trennschärfe identisch sind. Der Zusammenhang zwischen beiden Verfahren, berechnet durch eine Korrelation, wird auf den Ein uss derselben systematischen Varianzquelle zurückgeführt und dient somit als Reliabilitätsschätzung. Bei der Schätzung der Reliabilität durch die Retestkorrelation wird ein Verfahren an zwei Zeitpunkten vorgegeben. Dabei heißt es oft, dass ein angemessener Zeitabstand gewählt werden soll. Angemessen bezieht sich hierbei auf die Stabilität des erfassten Konstrukts. Je stabiler ein Konstrukt ist, desto größer kann der Zeitabstand zwischen den Messungen sein. Auch hier dient eine Korrelation zwischen den beiden Messungen als Reliabilitätsschätzung. Zu beachten ist, dass aufgrund der wiederholten Vorgabe, vor allem bei Leistungstests, Übungseffekte auftreten können, die das Ergebnis verzerren. Generell kann es auch zu Erinnerungseffekten kommen, die die Reliabilitätsschätzung verzerren können. 13 di 17 18.2.2024 Welcher Reliabilitätsschätzer sollte zur Beurteilung eines Verfahrens betrachtet werden?—> hier ist die an den Diagnostiker gerichtete Frage ausschlaggebend. Hat die zu beantwortende Frage einen prognostischen Charakter, sollte das Verfahren über eine Reliabiliätsschätzung in Form einer Retestkorrelation verfügen. Bei einer Statusdiagnostik stellen hingegen die Interne Konsistenz oder Paralleltestkorrelation eine geeignetere Reliabilitätsschätzung dar. Bei der Methodenauswahl sollte hierauf geachtet werden. Es kann vorkommen, dass Verfahren zur Verfügung stehen, die keine Angaben zur Retestkorrelation machen, obwohl eine prognostische Frage vorliegt. Hier ist genau abzuwägen, ob der Einsatz des Verfahrens sinnvoll ist. Bieten sich keine Alternativen, sollte das Fehlen der Retestkorrelation bei der Auswertung berücksichtigt werden. Dies kann z.b dadurch erfolgen, dass man auf andere Studien zurückgreift, die sich generell mit der Stabilität des untersuchten Merkmals beschäftigen. Diese Befunde können genutzt werden, um Rückschlüsse für die Stabilität der eigenen Ergebnisse zu ziehen. Gibt es eine allgemein verbindliche Grenze für die Reliabilität? —> nein. Im Anhang zur DIN33430 ndet sich die Empfehlung, dass der Wert nicht unter.70 liegen sollte, um eine Einzelfalldiagnostik durchzuführen. Je nach Autor nden sich auch andere Richtlinien. Auf Basis der Angaben im Manual eines Verfahrens vor der Datenerhebung, kann bestimmt werden, wie groß das zu berechnende Vertrauensintervall werden wird. Fällt dieses zu groß aus und lassen sich an den Parametern zur Berechnung des Intervalls keine Veränderungen verantworten, dann sollte ein anderes Verfahren mit einer höheren Reliabilität verwendet werden. Was bezeichnet Validität?—> Ganz allgemein ausgedrückt versteht man unter der Validität eines Verfahrens, ob dieses tatsächlich das Konstrukt erfasst, das es erfassen soll. Diese Behauptung lässt sich natürlich nicht direkt prüfen, daher werden verschiedene Arten der Validitätsschätzung postuliert. Die Inhaltsvalidität nimmt gewissermaßen eine Sonderposition ein, da sie sich nicht direkt durch einen Koef zienten berechnen lässt. Inhaltsvalidität wird angenommen, wenn aus dem Universum aller möglichen Items, die ein bestimmtes Konstrukt erfassen können, eine repräsentative Menge in dem jeweiligen Verfahren vorkommt. Meist werden zur Beurteilung Expertenurteile herangezogen. Konstruktvalidität nähert sich der Frage über die Analyse verschiedener Korrelationen bzw. Korrelationsmuster. Die Idee ist, dass ein Verfahren, das Konstrukt A erfasst, mit anderen Verfahren, die ebenfalls Konstrukt A erfassen, vergleichsweise stark korrelieren sollte (konvergente Validität). Dasselbe Verfahren sollte jedoch mit anderen Verfahren, die ein Konstrukt B, C, 0 o. a. erfassen, wesentlich geringer korrelieren (diskriminante oder divergente Validität).Ebenfalls in den Bereich der Konstruktvalidität zählt die faktorielle Validität. Hier wird meist mithilfe faktorenanalytischer Methoden geprüft, ob ein Verfahren die Struktur abbildet, die für das zu erfassende Konstrukt theoretisch angenommen wird. Letztendlich werden psychologisch-diagnostische Verfahren eingesetzt, um spezi sches Verhalten oder Erleben einer Person zu messen. In Kapitel 2 hatten wir bereits von einem Analogieschluss gesprochen. Es wurde angenommen, dass das Abschneiden in einem Verfahren sich auf verschiedene Situationen generalisieren lässt. Aus dieser Perspektive wird auch durch die Kriteriumsvalidität versucht, die Güte eines Verfahrens zu beurteilen. Bei der Kriteriumsvalidität wird das Abschneiden in einem Verfahren mit relevanten Kriterien korreliert. Beispielsweise werden Intelligenztestergebnisse oft mit Schulnoten in Verbindung gesetzt, da angenommen wird, dass Intelligenz einen Zusammenhang mit der Schulleistung aufweisen sollte. Die Beurteilung der Kriteriumsvalidität ist oft nicht einfach. Die reine Korrelation ist von zahlreichen Ein üssen abhängig (z.B. Reliabilität des Prädiktors und Kriteriums, Kriteriumskontamination und -de zienz, Varianzeinschränkung und Symmetrie der Indikatoren). Um hier wirklich fundierte Urteile treffen zu können, sollten diese Aspekte fi fi fi fi fl fi 14 di 17 18.2.2024 verinnerlicht werden. Andernfalls kann die Kriteriumsvalidität eines Verfahrens schnell zu unrecht als zu gering eingestuft werden. Was bezeichnet Skalierbarkeit? —> Vor allem bei Tests und Fragebögen wird zur Bewertung in der Regel ein Summenwert gebildet. Bei Leistungstests ist dies häu g die Summe der richtig gelösten Aufgaben und bei Fragebögen die Summe der Zahlen, die hinter den angekreuzten Antwortkategorien festgelegt sind (z. B. Trifft absolut nicht zu = 1, Trifft nicht zu = 2, Trifft zu = 3, Trifft absolut zu = 4). Unter Skalierbarkeit versteht man die Prüfung der Korrektheit dieser einfachen Verrechnungsvorschriften. Was bezeichnet Normierung?—> Viele Tests und Fragebögen erlauben keine absolute Interpretation der erzielten Ergebnisse. So hilft es wenig zu wissen, dass eine Person in einem Intelligenztest 15 von 20 Aufgaben korrekt gelöst hat oder der Summenwert über 20 Extraversionsitems mit einer 4-stu gen Ratingskala 34 ist. Weiter oben hatten wir bereits beschrieben, dass diese einzelnen Rohwerte mit den Ergebnissen einer Vergleichsstichprobe verglichen werden (normorientierte Testung). Diese Vergleichsgruppe wird auch als Normstichprobe bezeichnet und stellt somit ein herausragendes Qualitätsmerkmal eines Verfahrens dar, was durch die Einordnung dieses Kriteriums als Nebengütekriterium etwas verschleiert wird. Normen sollten aktuell sein. Daher legt die DIN33430 fest, dass sie alle acht Jahre bezüglich ihrer Gültigkeit überprüft werden müssen. Zur Beantwortung einer diagnostischen Fragestellung reicht es jedoch nicht aus, dass eine aktuelle Norm vorliegt. Vielmehr muss die Zusammensetzung der Norm auf die jeweilige Fragestellung passen sowie hinreichend repräsentativ sein. Soll z.b im Rahmen einer Personalauswahl eine Person getestet werden, dann sollte die Norm für eine Person nicht das beste Ergebnis erbringen, sondern die Normstichprobe den typischen Bewerbern entsprechen, mit dem die Person konkurriert. Anders sieht es wieder aus, wenn z.b Fragebögen im Rahmen einer Depressionsdiagnostik eingesetzt werden. Hier sollte die Norm die getestete Person in Bezug auf Alter, Geschlecht und evtl. Bildungsgrad möglichst gut repräsentieren. Das Überprüfen, ob eine geeignete Norm vorliegt, muss unbedingt im Rahmen einer Testauswahl erfolgen, da die Ergebnisse andernfalls nur schwer interpretierbar und bei stark verzerrten Normstichproben auch irreführend sind. Was bezeichnet Vergleichbarkeit?—> Ein Verfahren ist vergleichbar, wenn es die Möglichkeit bietet, das Ergebnis mit dem Ergebnis in anderen Verfahren mit demselben Messanspruch zu vergleichen. Andere Verfahren können dabei parallele Versionen des eingesetzten Verfahrens sein oder auch andere Verfahren. Dieses Nebengütekriterium ist vor allem im Rahmen von Prozessdiagnostik wichtig, wenn wiederholt gemessen wird. So lässt sich der Ein uss von Übungs- und Transfereffekten minimieren. fi fi fi fl Was bezeichnet Ökonomie?—> Ökonomie ist ein häu g falsch interpretiertes Gütekriterium. Prinzipiell muss vorab gesagt werden, dass sich die Ökonomie eines Verfahrens nur im Vergleich mit anderen Verfahren, die dasselbe Messziel haben, beurteilen lässt. Der Vergleich zwischen den Verfahren bezüglich der Ökonomie sollte dann folgende Aspekte beinhalten: a) Durchführungszeit, b) Materialverbrauch, c) Handhabbarkeit, d) Möglichkeit der Gruppentestung, falls relevant und e) Dauer und Aufwand der Auswertung. Dabei ist allerdings immer zu betonen, dass es je nach Fragestellung auch angemessen sein kann, einen aufwendigeren Test einzusetzen. Vor allem, wenn es um Fragen der Intelligenzoder Persönlichkeitsstruktur geht, kann es sein, dass ein aufwendigeres Verfahren ökonomischer ist, da der erhöhte Aufwand durch aussagekräftigere Informationen aufgewogen wird. Ökonomie ist also immer eine Frage nach dem Verhältnis von Kosten und Nutzen im Vergleich mit anderen Verfahren und im licht der Bedeutung des Verfahrens für die zu beantwortende Fragestellung. 15 di 17 18.2.2024 Was bezeichnet Zumutbarkeit ?—> Ein Verfahren ist zumutbar, wenn es die getestete Person weder in körperlicher, zeitlicher noch psychischer Hinsicht unverhältnismäßig beansprucht. Die Verhältnismäßigkeit ergibt sich dabei meist aus der Bedeutung des zu messenden Merkmals für die Fragestellung, aber auch aus dem Allgemeinzustand der getesteten Person. So ist gerade im neuropsychologischen und im klinischen Kontext diesem Nebengütekriterium besonders Rechnung zu tragen. Was bezeichnet Fairness ?—> Ein Verfahren ist fair, wenn die Ergebnisse keine für die Fragestellung relevante Gruppe systematisch benachteiligen. So sollte bei einer Konkurrenzauslese das eingesetzte Verfahren keine systematischen Unterschiede zwischen Männern und Frauen aufweisen. Im angloamerikanischen Sprachraum wird hier auch von adverse impact (nachteiligem Ein uss) gesprochen. Was bezeichnet Nutzen?—> Das Nebengütekriterium Nützlichkeit oder Nutzen ist erfüllt, wenn das Ver- fahren ein Konstrukt erfasst, für dessen Untersuchung es ein praktisches Bedürfnis gibt. Das bedeutet auch, das Verfahren sollte nicht vorgeben, etwas zu erfassen, das bereits durch andere Verfahren hervorragend erfasst werden kann, es dann aber neu benennen. Was bezeichnet die Nicht-Verfälschbarkeit?—> Dieses Nebengütekriterium wird häu g herangezogen, um zu begründen, warum Fragebögen nicht in einem diagnostischen Prozess eingesetzt werden. Schließlich ist es nicht schwer, sich in einem Fragebogen besser (Fake good) oder schlechter (Fake bad) darzustellen. Allerdings erfüllen auch die meisten Leistungstests dieses Kriterium nicht völlig. Es ist meist auch bei diesen Verfahren möglich, sich schlechter darzustellen. Das Problem der Verfälschung ist somit wahrscheinlich vorerst nicht aus der Welt zu schaffen. Im Rahmen einer Diagnostik sollte man sich daher überlegen, wie man mit dem Problem umgehen möchte. —> Neben diesen Haupt- und Nebengütekriterien gibt es weitere Aspekte, die im Rahmen der Operationalisierung der spezi schen Hypothesen in Erwägung gezogen werden sollten. Was kannst du mir zu Extrembereichen eines Konstrukts sagen?—> Häu g kommt es in der Diagnostik vor, dass Verfahren eingesetzt werden, um in den Extrembereichen eines Konstrukts zu differenzieren (z.B. Hoch- oder Minderbegabungsdiagnostik). Dabei kann erwartet werden, dass die erhaltenen Messwerte sich in den Extrembereichen des zu messenden Merkmals be nden. Extreme Messwerte werden in der Regel ungenauer erfasst als Messwerte mittlerer Merkmalsausprägungen. Es kann nun sein, dass gerade bei extremen Merkmalsausprägungen das statistische Phänomen der Regression zur Mitte auftritt. Damit ist gemeint, dass es bei erneuter Messung wahrscheinlicher wäre, dass der zweite beobachtete Messwert weniger extrem ausfällt und zur Mitte tendiert. Damit kann man umgehen, indem für besonders schwerwiegende Entscheidungen das betreffende Merkmal mindestens zweimal mit unterschiedlichen Verfahren (z.B. zwei Intelligenztests) gemessen wird. Treten in beiden Fällen extreme Messwerte auf, kann eine Regression zur Mitte weitestgehend ausgeschlossen werden und eine allzugroße Messungenauigkeit auch. Dies setzt natürlich voraus, dass es zu dem eingesetzten Verfahren eine parallele Version oder ein Verfahren mit demselben Messanspruch sowie vergleichbaren Normen gibt. Alternativ lässt sich auch ein Vertrauensintervall nach Regressionshypothese berechnen. —> “nur weil zwei Verfahren vorgeben, dasselbe zu erfassen, muss das noch lange nicht der Fall sein fi fi fl fi fi ” 16 di 17 18.2.2024 Wann sollte man mehrere verfahren für die Erfassung des selben Konstrukt benutzt werden?—> Nur, wenn für zwei oder mehr Verfahren hier eine hohe inhaltliche Konvergenz vorliegt, sollten diese Verfahren zur Erfassung desselben Konstrukts eingesetzt werden Was sind zwei weitere Gütekriterien, die vor allem in der Klinischen Psychologie relevant sind?—> Dies sind zum einen die Sensitivität und zum anderen die Spezi tät. Beide Aspekte beschäftigen sich damit, wie gut ein Verfahren zwischen Gruppen trennen kann. Die Sensitivität drückt dabei aus, wie hoch der Anteil der tatsächlich “Kranken" ist, die ein Verfahren auch korrekt als solche klassi ziert. Spezi tät hingegen gibt den Anteil der tatsächlich "Gesunden" an, die korrekt erkannt werden. Welcher Aspekt der wichtigere ist, hängt immer auch von der spezi schen Fragestellung ab. 3.4 - Fallbeispiel (92-103 3.4.1 - Wissen 3.4.2 - Fertigkeiten 3.4.3 - Fähigkeiten 3.4.4 - Persönlichkeit fi. fi fi ) fi 17 di 17

Diagnostik I Zusammenfassung Kapitel 3 PDF

Document Details

Tags

Related

Summary

Full Transcript