Diagnostik I Zusammenfassung Kapitel 5 PDF
Document Details
Uploaded by StunnedTerbium
Universität Bern
Sina Riesen
Tags
Summary
This document is a summary of chapter 5 from a diagnostics course. It discusses the integration of diagnostic results and the quality of decisions. It explores the differences between clinical and statistical judgment, highlighting potential biases in clinical approaches and the advantages of statistical methods. The summary presents possible interventions to improve clinical judgment and recommends employing statistical judgment whenever possible. A detailed example of a behavior-anchored rating scale (BARS) to evaluate a student assistant’s role-playing performance is included.
Full Transcript
Sina Riesen 21.2.2024 Diagnostik 1, Zusammenfassung Kapitel 5 - Ergebnisintegration und Güte von Entscheidungen (123-157 5.1 - Integration der Ergebnisse (123-145 Was haben wir am ende einer diagnostische Untersuchung? Was müssen wir jetzt mit diese machen?—> zahlreiche Informationen liegen vor, mei...
Sina Riesen 21.2.2024 Diagnostik 1, Zusammenfassung Kapitel 5 - Ergebnisintegration und Güte von Entscheidungen (123-157 5.1 - Integration der Ergebnisse (123-145 Was haben wir am ende einer diagnostische Untersuchung? Was müssen wir jetzt mit diese machen?—> zahlreiche Informationen liegen vor, meist aus unterschiedlichen Quellen. Diese müssen nun innerhalb der einzelnen Hypothesen, aber auch für die Gesamtfragestellung integriert werden. Mit was haben wir jetzt immer gearbeitet? Und jetzt wie werden die Informationen integriert z.b beim Arte gehen?—> Bisher haben wir hierfür kompensatorische und konjunktive Entscheidungsregeln sowie Mischformen beschrieben. Wie die Ausführungen in Kapitel 3 zeigen, ndet hier meistens eine Verrechnung numerischer Werte statt. Der ein oder andere Leser mag sich fragen, ob dies wirklich realistisch ist. Wenn wir zum Arzt gehen, dann fällt dieser seine Diagnose schließlich auch nicht nach einer Verrechnungsvorschrift. Vielmehr beruht die Diagnose auf dem Wissen des Arztes und seiner Erfahrung. Die Integration der Information erfolgt scheinbar intuitiv. Dieses Vorgehen wird auch als klinische Urteilsbildung bezeichnet und steht im Gegensatz zu dem bisher häu g angedeuteten Vorgehen, welches auch als statistische Urteilsbildung bezeichnet wird. 5.1.1 - Klinische vs. statistische Urteilsbildung (123-129 Was versteht man unter klinischer Urteilsbildung? Was steht im Gegensatz dazu?— > man versteht die freie Integration der diagnostischen Ergebnisse ohne festgelegte und klar de nierte RegeIn, anhand der eigenen Intuition bzw. Expertise. Im Gegensatz dazu steht die statistische Urteilsbildung, die Ergebnisse aufgrund einer gemäß De nition empirisch ermittelten Verrechnungsvorschrift zu einer Diagnose integriert. Dabei ist die Tatsache, dass die Vorschrift empirisch begründet sein muss, also aus der Analyse vieler Datensätze stammt, besonders zu betonen. Die statistische Urteilsbildung stößt in der Praxis oft auf wenig Gegenliebe. Diagnostiker haben manchmal das Gefühl, diese Art von Urteilsbildung schränke sie in ihrem Vorgehen ein und ließe keinen Platz für ihre Erfahrung. Dies ist sicher nicht komplett von der Hand zu weisen, hat aber einen entscheidenden Haken. Für was sind Klinische Urteile anfälliger?—> aufgrund ihrer Natur sind sie anfälliger für subjektive Verzerrungen. ) ) fi ) fi fi fi 1 di 17 Sina Riesen 21.2.2024 Was für Verzerrungen/ Fehler gibt es hier?—> Arkes (1991) beschreibt drei mögliche Ursachen für das oft unzulängliche klinische Urteil: strategie-basierte Fehler, assoziations-basierte Fehler sowie psychophysikalisch-basierte Fehler. 1. Zu einem strategie-basierten Fehler kommt es demnach, wenn Diagnostiker den Mehraufwand für eine gut durchdachte Strategie als höher einschätzen als den potenziellen Nutzen und daher auf suboptimale Strategien zurückgreifen. 2. Assoziations-basierte Fehler rühren daher, dass im menschlichen Gedächtnis zahlreiche Aspekte, Geschehnisse und Personen assoziiert sind. Dies erleichtert normalerweise das menschliche Handeln. Es kann aber im Rahmen einer Diagnose kontraproduktiv sein, wenn die falschen oder irrelevanten Assoziationen aktiviert und genutzt werden. In diesen Bereich zählt Arkes auch einige kognitive Verzerrungen (z.B. Explanation Bias, Hindsight Bias, Con rmation Bias, Overcon dence, Repräsentativitätsheuristik). 3. Psychophysikalisch-basierte Fehler gehen auf Erkenntnisse der EntscheidungsForschung und der Psychophysik zurück. Dabei werden Funktionen gesucht, die menschliche Entscheidungen (z.B. Ist Gewicht A größer als Gewicht B) mathematisch erklären. In den Extrembereichen, also bei sehr seltenen oder sehr häu gen bzw. unauffälligen oder überauffälligen Ergebnissen bzw. Handlungen wird hier weniger akkurat geprüft. Viele dieser Formeln haben dann Bereiche, in denen es zu Fehlentscheidungen aufgrund einer fehlerhaften Verrechnung von Kosten und Nutzen oder von anderen Informationen kommt. Was für Gegenmaßnahmen schlägt Arkes vor?—> man sollte sich die Bedeutung der Diagnose und die eigene Verantwortung verdeutlichen. Zudem sollte eine "consider the opposite” Strategie helfen, falsche Assoziationen zu erkennen. Weiterhin schlägt Arkes das Erlernen neuer Informationen vor, die das eigene Assoziationsnetzwerk vergrößern. Schließlich wird empfohlen, sich die Opportunitätskosten einer Strategie bzw. Entscheidung vor Augen zu führen. Das bedeutet, die Strategie bzw. Entscheidung führt dazu, dass keine "Mittel" bzw. keine Möglichkeit mehr vorhanden sind, eine alternative Strategie zu unterstützen bzw. eine alternative Entscheidung auszuführen. Arkes beschreibt weitere Gegenmaßnahmen, deren Ausführung hier aber zu weit führen würde. Was ist ein entscheidendes Argument für das statistische Urteilen?—> Die genannten Punkte sprechen alle gegen ein klinisches Urteil. Ein entscheidendes Argument für das statistische Urteilen ist dann auch meist, dass es ein höheres Maß an Objektivität biete und weniger anfällig für Urteilsfehler sei. Empirischer vergleich von statistische und klinische Urteile—> Um diesen Disput zu klären, wurden zahlreiche Untersuchungen, vor allem in der Klinischen Psychologie und der Medizin, durchgeführt. Dabei sieht der typische Versuchsaufbau so aus, dass für eine Patientengruppe, für jeden einzelnen Patienten, per Expertenurteil eine Diagnose festgelegt worden ist. Dann wird diese Patientengruppe mit einer Testbatterie untersucht. Die Ergebnisse der Untersuchung werden nun einer Gruppe von Testpersonen übergeben. Diese Gruppe soll die Ergebnisse aufgrund ihrer klinischen Erfahrung und Expertise integrieren und zu einer Diagnose kommen (klinisches Urteil). Zusätzlich fi fi fi 2 di 17 Sina Riesen 21.2.2024 werden die Ergebnisse der Untersuchung anhand eines empirisch begründeten Auswertungsschlüssels ausgewertet (statistisches Urteil). Diese Auswertung mündet auch für jeden der Patienten in einer Diagnose. Die jeweilige Übereinstimmung der beiden Diagnosen mit den Expertendiagnosen zeigt nun, ob das klinische oder das statistische Urteilen zu besseren Ergebnissen führte. Seit einiger Zeit existiert eine Metaanalyse (2000), die Ergebnisse von 136 solcher Studien zusammenfasst. Dabei zeigte sich, dass das statistische Urteil bei 63 (46%) der 136 Studien besser abschnitt. Bei weiteren 65 (48 %) Studien fand sich kein Unterschied. Lediglich bei acht (6%) Studien schnitt das klinische Urteil besser ab. Die Autoren berechneten außerdem im Rahmen der Metaanalyse eine Effektstärke, die den Unterschied zwischen der Trefferquote der klinischen und der Trefferquote der statistischen Urteilsbildung ausdrückt. Dabei lässt sich vereinfacht sagen, dass ein Betrag von.10 für diese Effektstärke ca. 9-10% Unterschied in der Trefferquote (Hitrate) ausmacht. Der meta-analytisch berichtete Range für diese Effektstärke liegt zwischen -.30 (klinisch besser als statistisch) und.74 (statistisch besser als klinisch). Der Median lag bei.09. Dies zeigt, dass die Ergebnisse zwischen den Studien stark um einen vergleichsweise geringen Wert schwanken. Ein solches Schwanken bedeutet, dass es Moderatoren geben muss, die die breite Schwankung der gefundenen Effekte zwischen den Studien erklären. Was zeigte eine Analyse möglicher Moderatoren?—> dass es vor allem beim Auswerten von Interviewdaten zu signi kant größeren Vorteilen für das statistische Urteil kommt. Werden hingegen medizinische Daten integriert, fallen die Vorteile tendenziell geringer aus. Ob bei der Integration auch psychologische Tests und VerhaltensBeobachtungen hinzugezogen werden, wirkt sich kaum auf den Unterschied aus. Hatte die Erfahrung der Rater einen Ein uss auf die Differenz?—> nein. Es ist also nicht so, dass besonders erfahrene Diagnostiker den Vorteil des statistischen Urteilens wett machen könnten. Sieben der acht Studien, in denen das klinische Urteil besser abschnitt, zeichneten sich dadurch aus, dass hier mehr Information an die Personen gegeben wurde, die klinisch urteilten, und weniger Information für das statistische Urteil zur Verfügung stand. Was haben die Autoren als Erklärung gesagt?—> “Humans are susceptible to many errors in clinical judgment… These include ignoring base rates, assigning non-optimal weights to cues, failure to take into ac- count regression toward the mean, and failure to properly assess covariation. Heuristics such as representativeness (which leads to belief in the law of small numbers) or availability (leading to over-weighting vivid data) can similarly reduce clinicians' accuracy. Also, clinicians often do not receive adequate feedback on the accuracy of their judgments… which gives them scant opportunity to change maladaptive judgment habits. Was gibt es für Ideen für eine Verbesserung des klinischen Urteils? Wann sollte man auf statistische Urteile zurückgreifen nach Grove et al?—> Die Metaanalyse belegt also einen geringen Vorteil des statistischen Urteilens, der vor allem dann größer ausfällt, wenn Interviewdaten zu den Informationsquellen zählen. Daher schlagen Grove et al. vor, fl fi ” 3 di 17 Sina Riesen 21.2.2024 immer dann auf statistische Urteilsbildung zurückzugreifen, wenn es eine empirisch ermittelte Verrechnungsvorschrift gibt. In vielen Fällen liegt eine solche empirisch ermittelte Verrechnungsvorschrift allerdings nicht vor. Stattdessen legen wir als Diagnostiker durch die Wahl der Entscheidungsregeln selbst fest, wie die Ergebnisse verrechnet werden. In den meisten Fällen ist das Urteil also als klinisches anzusehen, auch wenn eine Verrechnungsvorschrift verwendet wird. Da diese zu einem gewissen Grad subjektiv und nicht empirisch begründet ist, liegt streng genommen keine statistische Urteilsbildung vor. Auf was beruht die Unterlegenheit des klinischen Urteils auch darauf nach Westen und Weinberger?—> dass keine systematische Datenauswertung durch reliable und valide Auswertungsmethoden statt ndet. Daher schlagen sie vor, solche AuswertungsMethoden zu entwickeln und einzusetzen. Die Autoren geben zahlreiche Praxisbeispiele, die nahelegen, dass durch die Verwendung systematischer Auswertungsmethoden das klinische Urteil verbessert werden kann. Die Idee dahinter ist, dass durch die Verwendung solcher Auswertungsmethoden die Information so aufbereitet wird, dass sie einem statistischen Urteil zugänglich ist. Die Problematik der fehlenden systematischen Auswertungssysteme ergibt sich vor allem für was?—> für Interviews und Verhaltensbeobachtungen. Hier fallen Daten an, die nicht einfach wie bei Tests und Fragebögen aufsummiert und dann verrechnet werden können. Stattdessen wird die gewonnene Information oft intuitiv verknüpft und so ein klinisches Urteil erstellt. Westen und Weinbergers Argumentation legt nun nahe, dass dieser Prozess dadurch verbessert werden kann, dass systematische AuswertungsInstrumente genutzt werden. Kannst du mir einen Beispiel für einen solchen Auswertungsinstrument?—> eine verhaltensverankerte Ratingskala (behavior-anchored rating scale - BARS). Sie sollte bei einem Rollenspiel zur Auswahl einer studentischen Hilfskraft zum Einsatz kommen (Bewerber interagiert mit Professor, der durch einen Rollenspieler gemimt wird, und muss eine Beschwerde über einen Mitarbeiter vorbringen). Die Abbildung verdeutlicht das Prinzip. Das beobachtete Verhalten wird nach Abschluss der Beobachtung klassi ziert. Dabei stehen bereits qualitativ unterschiedliche Kategorien zur Verfügung. Es ist auch Raum für Zusatzbeobachtungen. Schließlich muss die Entscheidung für eine von drei vorgegebenen numerischen Kategorien fallen. Dabei entsprechen höhere Werte einem positiveren Urteil. Hier sollte die Entscheidung dann nicht durch Abzählen der Beobachtungen pro Kategorie erfolgen, da die Listen der Verhaltensanker in jeder Kategorie nie erschöpfend sein können. Stattdessen sollte die Bewertungskategorie gewählt werden, für die am meisten Evidenz spricht. Dazu kann es z.b hilfreich sein, Anker zu benennen, die in einer Kategorie auf jeden Fall erfüllt sein müssen, damit das Verhalten in diese Kategorie fallen kann, z.B. für Kommunikationsfähigkeit Kategorie 1 “spricht klar und deutlich" sowie "angemessene Wortwahl”. Werden diese Anker nicht beobachtet, ist das Ergebnis nicht in Kategorie ,,1". fi fi 4 di 17 Sina Riesen 21.2.2024 Was für andere Auswertungsinstrumente gibt es?—> z.b das Time- oder das Event Sampling bei der Verhaltensbeobachtung. Beim Time Sampling wird beispielsweise ein Beobachtungsabschnitt in gleich große Zeitintervalle eingeteilt und dann gezählt, ob das Zielverhalten in den Abschnitten gezeigt wurde. Beim Event Sampling wird gezählt, wie häu g das Verhalten insgesamt im Beobachtungszeitraum ausgeführt wird. In beiden Fällen erhält man so ein quantitatives Maß. Was lässt sich zusammenfassend sagen?—> es besteht im Allgemeinen ein geringer Vorteil für das statistische Urteil gegenüber dem klinischen. Der Vorteil ist vor allem bei der Auswertung von Interviewdaten besonders groß. Der Grund für die leichte Überlegenheit des statistischen Urteils sind zahlreiche subjektive Urteilsfehler auf Seiten des klinischen Urteils. Allerdings liegen empirisch begründete Verrechnungsvorschriften, die für statistische Urteile benötigt werden, nur selten vor, so dass doch meist, zwangsweise oder unbewusst, auf klinische Urteilsbildung zurückgegriffen werden muss. Werden hierbei allerdings für die Auswertung systematische Instrumente wie BARS verwendet, lässt sich der Ein uss subjektiver Verzerrungen minimieren. In vielen diagnostischen Prozessen stammen zumindest einige der Ergebnisse auch aus psychometrischen Tests und Fragebögen. Wir hatten darauf schon hingewiesen, dass diese Verfahren, wie auch alle anderen Informationsquellen, messfehlerbehaftet sind. Dies muss bei der Interpretation der Ergebnisse, aber auch bei der Integration verschiedener Ergebnisse unbedingt beachtet werden. 5.1.2 - Messfehlerkritische Absicherung (129-139 Was ist das Ergebnis eines psychometrischen Tests oder Fragebogens zunächst?—> erst einmal ein Rohwert. Dieser ergibt sich meist als die Summe der richtig gelösten Items (im Test) bzw. die Summe der angekreuzten Kategorien (im Fragebogen). Was ermöglicht die Verwendung von Normwerten dann? Hat es problematische Aspekte?—> es ermöglicht den Wert so zu transformieren, dass er in Bezug auf eine Vergleichsgruppe interpretiert werden kann. Und ja, die Interpretation des Normwerts hat nun mindestens zwei problematische Aspekte. Zum einen ist der Normwert ohne Kenntnis der Vergleichsgruppe wenig aussagekräftig. Das zweite Problem hängt mit der Messgenauigkeit zusammen. Wenn wir sagen, dass eine Person im Vergleich zur Norm einen IQ von 97 hat, dann legt diese Aussage nahe, dass wir Intelligenz sehr genau, ja gerade- zu perfekt, erfassen könnten. Wie sonst könnten wir den numerischen Wert so genau ausdrücken? Dies ist jedoch ein Irrglaube, da psychologisch-diagnostische Verfahren immer auch mit einem Messfehler behaftet sind. Bühner erläutert das Problem des Messfehlers in der Einzelfalldiagnostik mit Tests und Fragebögen sehr anschaulich. Vereinfachend lässt sich sagen, dass jede Person eine tatsächliche Ausprägung (wahrer Wert, T) auf der zu messenden Dimension besitzt. Allerdings kann die Messung dieses Wertes durch unsystematische Ein üsse (Messfehler, E) wie beispielsweise Ermüdung verzerrt sein. Würden wir eine Person mit demselben Verfahren unendlich oft messen können, ergäbe sich hypothetisch eine Normalverteilung der Messwerte dieser Person mit ) fl fl fi 5 di 17 Sina Riesen 21.2.2024 dem wahren Wert als Mittelwert. Die Klassische Testtheorie beschäftigt sich ausführlich mit dieser Thematik. Abbildung 2 veranschaulicht die Idee. Auf der x-Achse ist der jeweils ermittelte Messwert abgetragen. Auf der y-Achse be ndet sich die Wahrscheinlichkeit, mit der ein solcher Wert beobachtet wird. Extreme Abweichungen vom wahren Wert kommen nur mit geringer Wahrscheinlichkeit vor. Die Abbildung soll zeigen, dass beim Messen eben nur zufällig aus einer intraindividuellen Messwert-Verteilung ein Wert einer zufällig gezogenen Person gezogen wird. Daher verbietet sich im Rahmen der Einzelfalldiagnostik eigentlich die Interpretation des absoluten Messwerts, egal, ob als Rohwert oder als Normwert. Wie kann man sich nun gegen diesen Messfehler wappnen?—> Ein wichtiger Aspekt, der hiermit im Zusammenhang steht, ist die Frage, mit wie vielen Verfahren eine Eigenschaft gemessen werden soll. Prinzipiell ist es so, dass der Messfehler kleiner wird, je häu ger man misst (Aggregationsprinzip). Ökonomieüberlegungen setzen jedoch Grenzen. Allerdings sollten Eigenschaften, die im Rahmen der Fragestellung besonders wichtig sind, mit mehr als nur einem Verfahren erfasst werden. Z.b werden bei der Hochbegabtendiagnostik in vielen Beratungsstellen standardmäßig mindestens zwei Intelligenztests eingesetzt. Was kannst du mir zu den Reliabilitätsschätzer sagen?—> Je breiter die in Abbildung 2 dargestellte hypothetische intraindividuelle Verteilung ist, desto weniger messgenau ist auch das eingesetzte Verfahren. Die Reliabilitätsschätzer schätzen nun, wie stark der Messfehler eines Tests und somit die Breite der intraindividuellen Verteilung ist. Mithilfe der Reliabiliätsschätzer kann dann ein Intervall berechnet werden, das den wahren Wert mit einer gewissen Wahrscheinlichkeit überdeckt. Diese Intervalle werden Kon denzoder Vertrauensintervalle genannt. Was gibt den KI an?—> einen Bereich, der den wahren Wert einer Person mit einer gewissen Sicherheitswahrscheinlichkeit überdeckt. Das KI ermöglicht es, den Bereich, der den wahren Wert mit einer gewissen Wahrscheinlichkeit überdeckt, zu interpretieren., anstatt des Messwerts selbst. Vor allem bei Feedbacks ist dies von Vorteil, da der Laie nicht mit schwer interpretierbaren Zahlen verunsichert wird. Beispiel für KI—> In Abbildung 3 ist dargestellt, wie sich ein KI anband seiner Lage interpre- tieren lässt Es können fünf unterschiedliche Fälle auftauchen, die alle abgebildet sind. Die Abbildung beinhaltet jeweils die IQ Skala und zeigt das KI schematisch an. Die IQ Skala hat einen Mittelwert von 100 und eine Standardabweichung von 15. Somit liegen ca. 68% aller Werte der hier betrachteten Normgruppe zwischen 85 und 115. Dieser Bereich wird daher auch als Durch- schnitt bezeichnet. Das KI kann nun komplett unter der 85 liegen. In diesem Fall sagen fi fi fi 6 di 17 Sina Riesen 21.2.2024 wir, dass der IQ der Testperson im Vergleich zur Norm unterdurchschnittlich ist. Beinhaltet das KI die 85 (aber nicht die 100) sagen wir, dass die Testperson im Vergleich zur Norm unterdurchschnittlich bis durchschnittlich ist. Liegt das KI zwischen 85 und 115 oder beinhaltet die 100 sagen wir, die Testperson ist im Vergleich zur Norm durchschnittlich. Beinhaltet das KI die 115 (aber nicht die 100) ist die Testperson im Vergleich zur Norm durchschnittlich bis überdurchschnittlich. Schließlich bedeutet ein KI über 115, dass die Person im Vergleich zur Norm überdurchschnittlich ist. Was möchten wir wünschenswert haben? Von was hängt es ab?—> man möchte vergleichsweise schmale KIs haben. Dabei hängt die Breite des KIs jedoch von einer Reihe von Entscheidungen ab, die der Diagnostiker treffen muss. Die erste Entscheidung betrifft die Art des KIs. Was für arte von KI unterschieden?—> KI nach Regressionshypothese und KI nach Äquivalenzhypothese. KI nach Regressionshypothese—> es nimmt an, dass der beobachtete Messwert keine gute Schätzung des wahren Wertes ist, da er die Regression zur Mitte nicht berücksichtigt. Daher wird im Rahmen der Berechnung zunächst eine Schätzung des wahren Werts vorgenommen, bei welcher der beobachtete Wert zur Mitte korrigiert wird. Da hier bereits eine Korrektur des Werts erfolgt, bevor das KI berechnet wird. fällt das KI nach Regressionshypothese dann schmaler aus als das KI nach Äquivalenzhypothese. Mathematisch wird dies dadurch erreicht, dass der Standardschätzfehler zur Bildung des Intervalls herangezogen wird. Die Verwendung des KI nach Regressionshypothese emp ehlt sich vor allem dann, wenn man eine Eigenschaft nur einmal erfasst hat und einen extremen Wert beobachtet hat. Wird die Eigenschaft zweimal gemessen, dann kann es sein, dass in beiden Verfahren ein extremer Wert auftaucht. In diesem Fall ist die Gefahr der Regression zur Mitte eher gering und die beobachteten Werte stellen gute Schätzungen der wahren Werte dar. Sollten die beiden Werte stark voneinander abweichen, emp ehlt sich in den meisten Fällen sowieso ein weiterer Test, falls keine Zusatzbeobachtungen vorliegen, welche die Diskrepanz erklären. Das heißt, werden zwei Messungen eingesetzt, deren Ergebnisse nicht stark voneinander abweichen, oder ergibt sich bei der Verwendung nur eines Verfahrens ein Ergebnis, das keinen extremen Wert darstellt, kann die Verzerrung durch eine Regression zur Mitte vernachlässigt werden. In diesen Fällen emp ehlt sich das KI nach der Äquivalenzhypothese. Dabei ist jedoch besonders auf die Vergleichbarkeit der Normen zu achten. KI nach Äquivalenzhypothese—> es nimmt an, dass der beobachtete Wert bereits eine gute Schätzung des wahren Werts ist. Das KI fällt breiter aus als bei der Regressionshypothese. Sollten mehrere Personen zu beurteilen sein, sollte das bei einer Person gewählte KI unbedingt bei allen angewandt werden. Liegt also bei einer Person ein Extremwert vor und das KI wird nach Regressionshypothese gewählt, dann sollten für alle Personen Kls nach der Regressionshypothese berechnet werden, um die Vergleichbarkeit zu gewährleisten. Nach der Entscheidung für die Art des zu fi fi fi 7 di 17 Sina Riesen 21.2.2024 berechnenden Kls müssen noch drei weitere Entscheidungen getroffen werden. Zunächst muss die gewünschte Sicherheitswahrscheinlichkeit festgelegt werden. Was kannst du mir zur Sicherheitswahrscheinlichkeit sagen?—> Diese hat einen starken Ein uss auf die Breite des KI. Je höher die gewählte Sicherheit ausfällt, desto breiter wird das KI. Die bereits erwähnten Überlegungen zum alfa- bzw. Beta-Fehler wirken sich hier direkt aus. Mathematisch ergibt sich die Sicherheitswahrscheinlichkeit als: Sicherheitswahrscheinlichkeit = 1 - alfa —> Dabei entspricht a dem maximal zugelassenen Ausmaß des Fehlers 1. Art. In der Psychologie ndet man, bedingt durch die Ausbildung in der Inferenzstatistik, häu g die Annahme, Werte von ein oder fünf Prozent seien wü schenswert. In der Einzelfalldiagnostik ist aber immer abzuwägen. welche Konsequenzen die Entscheidung hat. Hier spielen Kosten-Nulzen Erwägungen eine große Rolle. Ist mit der positiven Entscheidung z.b die Gabe von starken Psychopharmaka mit hohen Nebenwirkungen verbunden, da eine akute Schizophrenie attestiert werden würde, sollte in der Tat vermieden werden, fälschlicherweise die Diagnose zu vergeben. Damit wäre der a-Fehler zu minimieren. Allerdings würde diese Diagnose sowieso nie alleine auf der Basis eines Tests entschieden werden. Hat hingegen eine fälschlicherweise negative Diagnose eine gravierende Auswirkung, dann steht der ß-Fehler im Vordergrund. Um diesen nun mög- lichst gering zu halten, muss der a-Fehler größer gewählt werden. Ein Beispiel hierfür wäre eine besondere Schulung oder nanzielle Unterstützung bei der Diagnose einer Minderbegabung. Eine falsche negative Diagnose bedeutet also einen direkten Verlust. Das Beispiel zeigt aber auch die Schwierigkeit der Überlegungen, da eine solche Diagnose und die damit verbundenen Fördermaßnahmen wiederum eine Stigmatisierung mit sich bringen könnten. Was ist ein weiterer Aspekt der die Wahl der Sicherheitswahrscheinlichkeit beein usst?—> die Reliabilität. Fällt diese nicht besonders hoch aus, kann es passieren, dass bei der Wahl einer hohen Sicherheitswahrscheinlichkeit KIs entstehen, die sich vom unterdurchschnittlichen bis in den überdurchschnittlichen Bereich erstrecken. Damit sind sie wertlos. In solchen Fällen führt die sehr hohe Sicherheitswahrscheinlichkeit dazu, dass die Ergebnisse nicht mehr interpretierbar sind. Gerade im Bereich der Fragebögen kann es sein, dass die Reliabilitätsschätzungen weniger gut ausfallen. Dies ist vor allem auf Facettenebene der Persönlichkeit oft der Fall. Es sind jedoch häu g gerade die Persönlichkeitsfacetten, die erfasst werden sollen, da sie über entsprechende Kriteriumsvaliditäten verfügen. Was wird als Daumenregel vorgeschlagen?—> Die Wahl der SicherheitsWahrscheinlichkeit ist also bei weitem keine triviale Angelegenheit. Die Bedeutung einer möglichen Fehlentscheidung, Kosten-Nutzen-Überlegungen und die Reliabilität des verwendeten Verfahrens müssen gegeneinander abgewogen werden. Zudem kann es verwirrend sein, wenn im Rahmen eines diagnostischen Prozesses bei verschiedenen Instrumenten unterschiedliche Sicherheitswahrscheinlichkeiten gewählt werden. Daher emp ehlt es sich, bei einer Sicherheitswahrscheinlichkeit zu bleiben und diese durchgehend anzuwenden. Als Daumenregel schlagen wir daher das Verwenden einer Sicherheitswahrscheinlichkeit von.80 vor. Damit fällt der Fehler 1. Art zwar höher aus, fi fi fi fi fl fl fi 8 di 17 Sina Riesen 21.2.2024 dies ist jedoch in Anbetracht der Reliabilität vieler Verfahren und der Tatsache, dass meist sowieso mehrere Methoden zur Messung einer Eigenschaft herangezogen werden, durchaus vertretbar.Für eine Sicherheitswahrscheinlichkeit von.80 ergibt sich bei einseitiger Testung (siehe Seitigkeit) ein z-Wert von.84 und bei zweiseitiger Testung (siehe Seitigkeit) ein z-Wert von 1.28 für die KI Berechnung (siehe Formel). Welche Reliabilitätsschätzer sind für die Berechnung des KIs relevant?—> vor allem die Retestreliabilität und die verschiedenen Schätzungen der Internen Konsistenz. Die Retestreliabilität ist auch eine Schätzung der Stabilität eines Merkmals. Fällt sie hoch aus, bedeutet dies, dass sich die Rangreihe der Personen in der verwendeten Normstichprobe über die Zeit nur wenig verändert hat. Hat unsere zu beantwortende Fragestellung einen prognostischen Charakter, dann heißt dies auch, dass wir erwarten, dass die Einordnung der Person, die wir zum Zeitpunkt der Untersuchung vornehmen, stabil bleibt. Für die KI Berechnung heißt das, dass bei prognostischen Fragestellungen die Retestreliabilität zu verwenden ist. Verlangt die zu beantwortende Frage jedoch eine Statusdiagnose, dann sind für die KI Berechnung Interne Konsistenzschätzer zu verwenden. Was hat auch Auswirkung auf die KI Berechnung?—> die Seitigkeit; die Richtung einer Hypothese hat ebenfalls eine Auswirkung. Gerichtete Hypothesen beinhalten immer einen Grenzwert, gegen den getestet werden soll (z. B. Ist die Intelligenz im Vergleich zur Norm mindestens X? Ist die Ausprägung der Zwanghaftigkeit im Vergleich zur Norm maximal V?). Zur Beantwortung der Fragestellung ist im Prinzip nur eine Seite des KIs relevant und zwar die Seite, die zum jeweiligen Grenzwert zeigt. Bei ungerichteten Hypothesen existiert ein solcher Grenzwert nicht (z. B. Wie ist die Intelligenz im Vergleich zur Norm ausgeprägt? Wie ist die Zwang- haftigkeit im Vergleich zur Norm ausgeprägt?). Zur Beantwortung der Fragestellung sind also beide Seiten des KIs relevant. Da das KI das Ausmaß des Fehlers mit einer gewissen Sicherheitswahrscheinlichkeit berücksichtigt, bedeutet die Entscheidung für die Seitigkeit auch eine Entscheidung darüber, wie der potenzielle Fehler verteilt wird. Bei einem einseitigen KI interessiert nur die Seite des KIs, an der der zu beachtende Grenzwert liegt. Beispiel für die Seitigkeit und die Auswirkungen auf das KI—> Abbildung 4 veranschaulicht das Prinzip für die Fragestellung der Hochbegabung (de niert als IQ > 130). Bei einer einseitigen Fragestellung muss der Fehler nur auf einer Seite berücksichtigt werden. Im Prinzip bedeutet das, wir können die Sicherheitswahrscheinlichkeit komplett auf diese Seite legen. Daher wird das KI insgesamt kleiner. Müssen hingegen beide Enden des KIs gegen den Messfehler abgesichert werden, dann lässt sich auf keiner Seite so genau schauen und das KI wird demzufolge breiter. Gerade bei der Verwendung eines Cutoffs kann diese Entscheidung, wie in der Abbildung verdeutlicht, einen Unterschied für die Antwort auf die diagnostische Fragestellung machen. Nachdem nun die Art des KIs, die Sicherheitswahrscheinlichkeit, der Reliabilitätsschätzer und die Seitigkeit gewählt wurden, kann das KI nun mit der folgenden Formel berechnet werden: fi 9 di 17 Sina Riesen 21.2.2024 —> Nach der Berechnung lässt sich die Interpretation gemäß der oben beschriebenen Intervallbezeichnungen vornehmen. Eine messfehlerkritische Absicherung ist allerdings auch notwendig, wenn die Ergebnisse zweier Tests verglichen werden. Unterschiede zwischen Tests messfehlerkritisch absichern —> Wir haben wiederholt darauf hingewiesen, dass es sinnvoll ist, wichtige Hypothesen multimethodal zu operationalisieren. Dadurch kann es sein, dass Ergebnisse aus verschiedenen Verfahren vorliegen, die integriert werden müssen. Dazu dienen die bereits besprochenen Entscheidungsregeln. Es kann jedoch sein, dass die Ergebnisse in Verfahren, die eigentlich das gleiche erfassen, auf den ersten Blick stark divergieren. Der wahrgenommene Unterschied wird dann häu g direkt als bedeutungsvoll erachtet. Ein weiteres Problem ist der Vergleich von Facetten. So kann es sein, dass eine Intelligenzstrukturdiagnostik vorgenommen wird. Das Ergebnis zeigt dann Unterschiede zwischen einzelnen Intelligenzfacetten, die dann als individuelle Stärken oder Schwächen interpretiert werden. Allerdings ist auch beim Vergleich von Testergebnissen eine messfehlerkritische Absicherung immer notwendig. Das bedeutet, es muss berechnet werden, wie groß der Unterschied nur aufgrund mangelnder Messgenauigkeit ausfallen kann. Diesen Unterschied nennt man auch eine kritische Differenz. Zur Berechnung muss wieder entschieden werden, welchen Reliabilitätsschätzer, welche SicherheitsWahrscheinlichkeit und welche Seitigkeit man verwenden möchte. Die Formel lautet dann: —> Fällt die beobachtete Differenz zwischen zwei Verfahren oder Subtestergebnissen größer als die berechnete kritische Differenz aus, lässt sie sich nicht mehr alleine durch Messfehler erklären. In diesen Fällen darf man dann auch von bedeutsamen Unterschieden sprechen. Neben dem Messfehler kann auch die unterschiedliche Konstruktvalidität zu divergenten Ergebnissen in zwei Verfahren, die laut Konstruktlabel das Gleiche erfassen sollen, führen. Bühner erläutert ausführlich, wie eine Absicherung in diesen Fällen erfolgen kann. Unterschiede zwischen zwei Testpersonen messfehlerkritisch absichern—> Im Rahmen der Diagnostik kann es auch vorkommen, dass Unterschiede zwischen zwei Personen auf Bedeutsamkeit geprüft werden. Gerade in der Personalselektion kann es sein, dass getestet wird, wer bei bestimmten Merkmalen die höchste Eigenschaftsausprägung besitzt (Bestenauslese). Auch hier muss der Messfehler unbedingt beachtet werden. Dazu wird wiederum eine Differenz berechnet, die sich nur aufgrund des Messfehlers ergeben kann. Die Formel lautet: fi 10 di 17 Sina Riesen 21.2.2024 —> Auch hier bedeutet eine beobachtete Differenz, die größer ist als die berech- nete kritische Differenz, dass der Messfehler alleine nicht ausreicht, um den Unterschied zwischen den beiden Personen im Ergebnis zu erklären. Gerade die messfehlerkritische Absicherung von Unterschieden zwischen Personen wird in der Praxis häu g vernachlässigt und bereits geringste Unterschiede werden als bedeutsam interpretiert. Hat die Diagnose für die Testpersonen Konsequenzen, dann wiegt das Vernachlässigen des Messfehlers in solchen Fällen besonders schwer. Die messfehlerkritische Absicherung von einzelnen Werten oder Differenzen erfordert stets eine Standardabweichung für die verwendeten Normwerte. Daher ist es ungünstig, für die Auswertung Prozentränge zu verwenden, die naturgemäß keine Standardabweichung haben und so eine messfehlerkritische Absicherung nicht erlauben. Generell ist die Verwendung von Prozenträngen nicht empfehlenswert, da sie im besonderen Maße eine ScheinGenauigkeit vorgaukeln, die psychologische Verfahren in der Regel nicht gewährleisten können. Was für Kritikpunkte gibt es an KIs? —> Die Verwendung von KI wird in der Praxis immer wieder diskutiert und kritisiert. Dabei gibt es inhaltliche und methodische Kritikpunkte 1. Inhaltliche Kritik —> Häu g wird angeführt, dass ein KI für den Laien wenig verständlich sei. Dieses Argument ist zutreffend, wenn konkrete Zahlenwerte rückgemeldet werden. Die Verwendung eines KIs erfordert es dann, dass zunächst der Normwert erläutert wird, die Normstichprobe und dann das KI. Es muss also sehr viel Information transportiert werden. Werden allerdings die oben beschriebenen Intervallrückmeldungen verwendet, muss lediglich die Normstichprobe erläutert werden. Die Begriffe unterdurchschnittlich, durchschnittlich und überdurchschnittlich sind für die meisten Personen geläu ge Kategorien. 2. Methodische Kritik—> Das KI ist symmetrisch und verteilt damit die Messungenauigkeit auf beiden Seiten des Messwerts gleich. Hier wird bemängelt, dass die tatsächlich beobachtete Messwertverteilung häu g nicht symmetrisch ist. Das KI macht also eine empirisch nicht begründete Annahme. Ein weiteres Problem ist, dass durch die Verwendung nur einer Reliabilitätsschätzung angenommen wird, der Messfehler sei in allen Bereichen der Messwertverteilung gleich groß. Auch diese Annahme ist nicht korrekt. Üblicherweise führt die Verwendung nur weniger Items mit extremen Schwierigkeiten dazu, dass in den Extrembereichen die Reliabilität geringer ist als in der Mitte. Dies wird bei der Berechnung des KIs vernachlässigt. Die Probabilistische Testtheorie bietet Möglichkeiten, die Reliabilität in allen Bereichen separat zu schätzen. Allerdings nutzen nur sehr wenige Verfahren diese Möglichkeit. Somit fällt das KI vor allem bei Extremwerten aufgrund der zu optimistischen Reliabilitätsschätzung zu schmal aus. fi fi fi fi : 11 di 17 Sina Riesen 21.2.2024 Was kann man zusammenfassend sagen?—> Auch aus den gerade aufgeführten Gründen empfehlen wir die Verwendung einer geringeren Sicherheitswahrscheinlichkeit, um die Möglichkeiten des KIs nicht übermäßig zu strapazieren. Die Alternative, keine messfehlerkritisehe Absicherung vorzunehmen, ist aus unserer Sicht mit weitaus mehr Gefahren versehen als die bedachte Verwendung des KIs. Schließlich bedeutet das Vernachlässigen des Messfehlers, dass die Güte einer getroffenen Entscheidung wahrscheinlich geringer ausfällt, da die fehlende Messgenauigkeit die Ergebnisse und somit die Basis der Entscheidung verzerrt haben könnte. 5.1.3 - Pro lauswertung (140 In manchen diagnostischen Fragestellungen kann es interessant sein, ein Merkmalspro l zu interpretieren. Was heisst das?—> Hierbei wird also nicht nur ein isoliertes Konstrukt betrachtet, sondern vielmehr der Verlauf der Ausprägungen auf mehreren Konstrukten. So kann es z.b interessant sein, das Interessenpro l anzuschauen, um zu prüfen, ob das Pro l einer Person mit dem idealen Pro l für ein bestimmtes Berufsbild übereinstimmt. Auch bei der Betrachtung eines Pro ls ist auf die Reliabilität zu achten. In diesem Fall handelt es sich dann um die Pro lreliabilität. Diese kann wiederum genutzt werden, um ein KI um das gesamte beobachtete Pro l zu legen. Die Pro lreliabilität berechnet sich durch folgende Formel: —> Als Grenzwert für eine Pro lreliabilität ndet man häu g den Wert.50. Die Formel zeigt jedoch, dass für eine ausreichende Reliabilität zum einen die im Pro l enthaltenen Tests für sich reliabel sein sollten. Zum anderen kommt hinzu, dass hohe Korrelationen zwischen den Tests die Reliabilität senken. Die Konstrukte eines Pro ls sollten sich also nicht zu stark ähneln (nicht zu stark interkorrelieren), ansonsten senkt dies die Pro lreliabilität und die Interpretation ist fragwürdig. Wichtig ist sicher auch der Hinweis, dass in der Praxis eher selten Pro le interpretiert werden. Meist werden dann doch die einzelnen Konstrukte in einem Pro l angesehen und mit den Ergebnissen der anderen Konstrukte verglichen. Für diesen Vergleich sind die bereits beschriebenen Methoden zur messfehlerkritischen Absicherung geeigneter 5.1.4 - Integration von Informationen aus unterschiedlichen Methoden (140-142 Der Weg zur erfolgreichen Ergebnisintegration ist durch was begründet? —> Dadurch, dass vor der Erhebung klare Entscheidungsregeln aufgestellt und dann. fi fi fi fi fi fi fi fi fi fi fi ) fi ) fi fi fi fi fi 12 di 17 Sina Riesen 21.2.2024 konsequent angewandt werden. Auch wenn das Verwenden der besprochenen Entscheidungsregeln einer Verrechnung ähnelt, liegt hier meist keine statistische Urteilsbildung vor, sondern eine klinische, da keine empirisch verankerten Verrechnungsvorschriften vorliegen. Darauf haben wir bereits hingewiesen. Was heisst es wenn die zu bearbeitende Fragestellung terminal ist?—> die diagnose mündet direkt in einer Entscheidung und nicht in weiteren Fragen, dann ist dieses Vorgehen auch meist unkritisch anwendbar. Gerade in einem Beratungskontext scheint es aber oft schwierig, klare Entscheidungsregeln aufzustellen, da viele Hypothesen ungerichtet sind. Für diese Fälle hatten wir einen mehrstu gen Prozess vor- geschlagen, der zunächst das zu untersuchende Feld näher eingrenzt. Für die folgenden Erhebungen lassen sich dann wiederum Entscheidungsregeln aufstellen. Was kann bei den Anfangsuntersuchungen einer investigatorischen Untersuchung dennoch vorkommen?—> dass unterschiedlichste Informationen sehr subjektiv integriert werden müssen. In diesen Fällen sollte man sich vorab klar machen, welche weitreichenden Konsequenzen von den nächsten Schritten abhängen. Werden zur Operationalisierung unterschiedliche Verfahren gewählt (z. B. Fragebogen und Interview), dann sollte auch hierbei vorab entschieden werden, ob beide Verfahren gleichwertig angesehen werden oder einem Verfahren Priorität zukommt. Andernfalls besteht die Gefahr, dass im Nachhinein das Verfahren bevorzugt wird, das der getroffenen Entscheidung am dienlichsten ist. Die Entscheidung für die Dominanz eines Verfahrens sollte dann wohl überlegt und begründet werden. So ist die häu g gefundene Aussage, dass der Fragebogen stärker durch sozial erwünschtes Antworten verzerrt werden kann, kein sehr zielführendes Argument. Wenn man das wirklich glaubt, wieso wurde der Fragebogen dann überhaupt eingesetzt? Dies verdeutlicht auch noch einmal, dass wirklich alle Informationen, die erhoben werden, dann auch für die Diagnose berückSichtigt werden müssen. Was erwiest sich oft als sehr hilfreich bei der Datenintegration?—> Ergebnistabellen, die auch als Zwischengutachten bezeichnet werden. Hier werden die einzelnen untersuchten Hypothesen aufgeführt und die verwendeten Verfahren und deren Ergebnisse aufgelistet. So hat man die Ergebnisse zu den einzelnen Hypothesen auf einen Blick sortiert und kann schauen, ob sich Diskrepanzen ergeben. Es versteht sich von selbst, dass in der Tabelle KIs und kritische Differenzen eingetragen werden. In die Tabelle können auch die Entscheidungsregeln eingetragen werden. Bei der Verwendung von Interviews oder Verhaltensbeobachtungen ist es natürlich wenig zielführend, die Tabelle mit allen möglichen Zitaten oder Verhaltensbeobachtungen zu füllen. Stattdessen sollte für diese Verfahren eine systematische Auswertung erfolgen und in der Tabelle nur die Kembefunde auftauchen. Diese können gerne mit Zitaten oder Beobachtungen unterstrichen werden. Der große Vorteil der Tabelle ist es, dass so keine Information verloren geht und Diskrepanzen direkt auffallen. Im Fallbeispiel erläutern wir eine solche Tabelle. fi fi 13 di 17 Sina Riesen 21.2.2024 5.1.5 - Umgang mit Diskrepanzen (142-145 Was sollte man machen wenn diskrepante Befunde auftreten?—> dann sollte zunächst, soweit möglich, eine messfehlerkritische Absicherung der Diskrepanz erfolgen. Besteht die Diskrepanz auch nach der Berechnung von KIs bzw. kritischen Differenzen, dann kann es hierfür verschiedene Ursachen geben. Was sind es diese für Ursachen? 1. Gründe bei der Testperson —> Im Laufe einer Untersuchung kann es sein, dass eine Testperson ermüdet oder frustriert wird. Es kann auch vorkommen, dass Personen mit bestimmten AufgabensteIlungen einfach nicht zurechtkommen. Gerade bei computergestiitzten Tests und Fragebögen kann es sein, dass eine Testperson die Instruktion nicht richtig gelesen hat und so das Verfahren falsch bearbeitet. All dies lässt sich im Rahmen einer Verhaltensbeobachtung während der Untersuchung oder einer routinemäßigen Befragung direkt im Anschluss festhalten. Dazu muss der Testleiter jedoch geschult und natürlich instruiert sein. Treten nun diskrepante Befunde auf, dann sollte man nach einer messfehlerkritischen Absicherung zunächst hier ansetzen, um eine Erklärung zu nden. 2. Unterschiedliche Konstrukte—> es kann vorkommen, dass Verfahren zwar dem Namen nach dasselbe Konstrukt erfassen, der theoretische Überlappungsbereich jedoch eher gering ist. Diese unterschiedlichen theoretischen Hintergründe können nun ebenfalls für die Diskrepanz verantwortlich sein. Daher ist noch einmal genau zu prüfen, wie stark die theoretische Überlappung tatsächlich ist. Hilfe kann hier auch eine mess- und valenzkritische Absicherung der Testwertdifferenz sein. In der Regel sollte die Prüfung natürlich vor der Datenerhebung erfolgen. Wurde dies versäumt, dann muss man nun entscheiden, welche der Theorien am ehesten für die Hypothesenbeantwortung relevant ist. 3. Abstraktionsebene—> Konstrukte können unterschiedliche Abstraktionsebenen haben. So kann es sein, dass ein Verfahren das zu untersuchende Konstrukt auf einer basaleren Ebene erfasst. Wird z.b Extraversion einmal mit einer Kurzskala mit wenigen ltems und einmal mit einem ausführlichen Fragebogen erfasst, dann be nden sich die Ergebnisse auf unterschiedlichen Abstraktionsebenen. Die Kurzskala beinhaltet nur einige, prototypische Aspekte, während die Langform das Konstrukt in der Gesamtheit erfasst. Die unterschiedliche Informationsebene kann dann zu diskrepanten Ergebnissen führen. Wiederum ist zu entscheiden, welche Operationalisierung angemessener ist bzw. ob ein Vergleich überhaupt sinnvoll ist. Ein ähnliches Phänomen kann sich ergeben, wenn zur Merkmalserfassung sowohl ein situationsübergreifendes als auch ein situationsspezi sches Verfahren genutzt wird. So ist es möglich, Gewissenhaftigkeit global zu erfassen, aber auch direkt bezogen auf den beru ichen Kontext. Dieser Unterschied im Generalisierbarkeitsanspruch kann ebenfalls zu diskrepanten Ergebnissen führen. In diesem Fall ist der unterschiedliche Messanspruch direkt in die Interpretation aufzunehmen. Allerdings stellt sich auch hier die Frage, ob der Einsatz beider Verfahren aus einer Ökonomieperspektive tatsächlich gerecht- fertigt ist. 4. Unterschiedliche Methoden—> In den bisherigen Beispielen sind wir meist davon ausgegangen, dass zur Erfassung desselben Konstrukts auch dieselbe Methode (z.B. ) fi fl : fi fi 14 di 17 Sina Riesen 21.2.2024 zwei Selbstauskünfte per Fragebogen) verwendet wird. Es ist aber auch denkbar, dass unterschiedliche Methoden angewandt werden. Bei manchen Fragestellungen ist es sinnvoll, eine Selbst- und eine Fremdeinschätzung zurate zu ziehen. Allerdings zeigt eine Metaanalyse von Connelly und Ones (2010) für die Big 5 und deren Facetten, dass sich die meisten Interraterübereinstimmungen (theoretisch zwischen -1 und 1, wobei ein Wert von 1 perfekte Übereinstimmung bedeuten würde) unterhalb von.50 bewegen. Das bedeutet, dass bei der Verwendung von Selbst- und Fremdeinschätzungen Abweichungen zu erwarten sind. Beim Umgang mit diesen Diskrepanzen sollte dann berücksichtigt werden, aus welcher Perspektive die Fremdeinschätzungen stammen und unter welcher Perspektive die Selbsteinschätzungen erhoben wurden. Stimmen diese Perspektiven überein, dann liegt tatsächlich eine bedeutsame Diskrepanz vor. Ein ähnliches Problem kann sich aus der Kombination eines Fragebo- gens und eines Interviews oder einer Verhaltensbeobachtung ergeben. Auf- tretende Diskrepanzen mit höheren Werten in den Fragebögen könnten auf absichtliche Verfälschungen des Fragebogens durch die untersuchte Person hinweisen. Das bedeutet jedoch nicht, dass der Einsatz von Fragebögen generell nicht zu empfehlen ist. Vielmehr gibt es verschiedene Lösungsansätze. So kann das Ergebnis des Fragebogens Teil eines Interviews sein, in dem gezielt mit biogra schen Fragen die Selbsteinschätzungen validiert werden. Eine andere Möglichkeit besteht darin, den Fragebogen in einem PreReject Untersuchungsplan einzusetzen und somit Personen, die trotz vermeintlichen Verfälschens nicht über einen Mindestwert kommen, auszuschließen. Gerade zur Erfassung von Motiven erfreuen sich implizite Verfahren zu- nehmend großer Beliebtheit. Diese Verfahren entsprechen Cattells Idee der objektiven Tests, da sich der Testperson das Messziel nicht direkt erschließt. Allerdings konnten Ziegler et al. (2010) für Leistungsmotivation zeigen, dass verschiedene implizite Verfahren untereinander eigentlich nicht korrelieren und auch mit Selbsteinschätzungen keine nennenswerten Zusammenhänge aufweisen. Daher sind auch hier diskrepante Befunde zu erwarten. Idealer- weise erfolgen diese Überlegungen vor der Untersuchung und münden in einer entsprechenden Verfahrensauswahl. 5. Mangelnde Objektivität—> Eine weitere Erklärung für diskrepante Befunde könnte auch eine mangelnde Objektivität sein. Vor allem bei Interviews und Verhaltensbeobachtungen können hier Fehler auftreten. Daher sollten Beobachtungsund Interviewprotokolle noch einmal sorgfältig geprüft und die Auswertung der Verfahren nachvollzogen werden. Fehler, die in der Durchführung passiert sind, lassen sich so wenigstens manchmal entdecken, wenn auch nicht wieder gut machen. 6. Entscheidungsorientierte Nachuntersuchung —> Trotz aller Bemühungen, diskrepante Befunde aufzuklären, kann es sein, dass dies nicht gelingt. In diesen Fällen ist es notwendig, eine entscheidungs- orientierte Nachuntersuchung durchzuführen. Das bedeutet, es werden weitere Verfahren eingesetzt, um ausreichend Evidenz für einen der Befunde zu erzeugen. Dabei ist natürlich bei der Methodenauswahl darauf zu achten, dass nicht willkürlich in eine Richtung verzerrt wird, indem zum Beispiel ein zu leichter Test zur erneuten Untersuchung ausgesucht wird. Bei Leistungs- tests ist zudem zu berücksichtigen, dass Übungseffekte auftreten können. Am Ende der Untersuchungsund Auswertungsphase werden also zunächst Informationen integriert, um die einzelnen Hypothesen zu beantworten. In einem nächsten Schritt erfolgt dann die Integration der fi 15 di 17 Sina Riesen 21.2.2024 Befunde zu den einzelnen Hypothesen, um die Fragestellung an sich zu beantworten. Können Diskrepanzen nicht aufgeklärt werden bzw. ist eine entscheidungsorientierte Nachuntersuchung nicht möglich, dann muss die Gesamtentscheidung diesem Umstand Rechnung tragen. Im schlimmsten Fall ist eine Beantwortung nicht oder nur auf einzelne Bereiche beschränkt möglich 7. Unterschiedliche Normierung—> In vielen Fällen werden inhaltsähnliche Tests verwendet, um eine sogenannte Befunddominanz zu erhalten. Nun kann es vorkommen, dass selbst sehr ähnliche Tests, z.B. zwei Rechentests, zu einer unterschiedlichen Einschätzung der Rechenfähigkeit kommen. Dies kann an der unterschiedlichen Normierung der Tests liegen, z.B. wenn beide Normen nicht repräsentativ sind und die eine zu streng ist während die andere zu lasch ist oder die eine nur aus Gymnasiasten und die andere aus einer Gesamtbevölkerungsstichprobe besteht. Selbst innerhalb eines Testsystems muss auf die Zusammensetzung der Normen zu einzelnen Kennwerten geachtet werden, da sich diese Normen qualitativ (z. B. Zusammensetzung und Größe) unterscheiden können. Wenn möglich, ist die Retestung mit einer Parallelversion vorzuziehen. 5.2 - Güte von Entscheidungen (145-148 Alfa und beta Fehler sind?—> gegenläu g, das heißt, minimiert man den einen, steigt die Gefahr, den anderen zu begehen. Was heisst das für den Diagnostiker?—> Als Diagnostiker sollte man nun zum einen vorab abwägen, welcher Fehler zu minimieren ist, bzw. durch die Verwendung sehr valider Verfahren versuchen, beide gering zu halten. Zum anderen sollte man aber auch die Güte der eigenen getroffenen Entscheidungen von Zeit zu Zeit evaluieren. Dies klingt zunächst sehr aufwendig und statistisch wie methodisch anspruchsvoll. Evaluationen sind jedoch auch qualitativ durchführbar, wenn empirische Daten bzw. große Datensätze fehlen. Eine qualitative Befragung der von der Diagnose Betroffenen lässt sich oft realisieren, sollte bei der Untersuchung aber bereits vereinbart werden. Anhand einer Evaluation ist es dann möglich, die Güte der Entscheidungen zu quanti zieren. Das im Folgenden beschriebene Vorgehen lässt sich ohne Weiteres auch auf einzelne diagnostische Verfahren übertragen, die zur Entscheidungs ndung eingesetzt werden. 5.2.1 - Sensitivität und Spezi tät (146-148 Was ist die Sensitivität?—> Natürlich soll eine diagnostische Strategie von den Personen, die in Wirklichkeit eine positive Diagnose haben, möglichst viele nden. Der Anteil der korrekt identi zierten positiven Diagnosen an allen wirklich positiven wird auch als Sensitivität bezeichnet. Auf einen eignungsdiagnostischen Kontext übertragen bedeutet dies den Anteil aller Geeigneten, der auch als geeignet klassi ziert wird. Im klinischen Bereich ist es analog der Anteil der Kranken, der tatsächlich als krank klassi ziert wird. Die Berechnung erfolgt durch folgende Formel: TP/(TP + FN). Eine fi fi fi ) ) fi fi fi. fi fi 16 di 17 Sina Riesen 21.2.2024 Sensitivität von.67 wurde bedeuten, dass 67% der Personen, die tatsächlich einen positiven Zustand haben, auch als positiv diagnostiziert werden. Wir gehen also davon aus, dass in Zukunft eine Person, vorausgesetzt sie hat eine positive Diagnose, mit einer Wahrscheinlichkeit von 67% entdeckt wird. Im Umkehrschluss bedeutet dies: 33 % der Personen mit einem tatsächlich positiven Zustand haben fälschlicherweise eine negative Diagnose bekommen. Dies entspricht dann dem ß-Fehler. Was ist die Spezi tät?—> Ebenso lässt sich der Anteil der Personen bestimmen, die in Wirklichkeit eine negative Diagnose haben und auch so diagnostiziert wurden. Man spricht hier von Spezi tät. In der Eignungsdiagnostik bedeutet Spezi tät den Anteil der tatsächlich Ungeeigneten, der als ungeeignet eingestuft wurde. Im klinischen Kontext ist es der Anteil der tatsächlich Gesunden, der auch die Diagnose gesund erhielt. Einen wert von.94 wurde bedeuten dass an 94% der Personen, die tatsächlich einen negativen Zustand haben, wurde demzufolge auch diese Diagnose erteilt. Es lässt sich also sagen, dass Personen mit einer tatsächlich negativen Diagnose mit einer Wahrscheinlichkeit von 94 % richtig klassi ziert werden. Damit wurde lediglich bei 6% der Personen eine falsche positive Diagnose getroffen. Dieser Wert entspricht dann also der Wahrscheinlichkeit eines a-Fehlers. Bei unserem Beispiel übersteigt die Spezi tät die Sensitivität. Es wurden also mehr Personen mit tatsächlich positiven Diagnosen falsch klassi ziert als Personen mit tatsächlich negativen Diagnosen. Falls bei der Diagnostik dem a-Fehler eine größere Bedeutung zukam, ist das Ergebnis erfreulich. Sensitivität und Spezi tät zeigen also an, wie gut ein diagnostischer Prozess oder ein einzelnes Verfahren in der Lage ist, zwei Gruppen korrekt zu trennen. Damit kommt diesen Konzepten ein besonderer Stellenwert zu. Nicht zuletzt bei der Methodenauswahl sollte daher auf Angaben zur Sensitivität und Spezi tät geachtet werden. Mithilfe der Signalentdeckungstheorie und sogenannten ROCAnalysen (receiver operating characteristics) lassen sich auch Cutoff-Werte für einzelne Verfahren bestimmen, die ein optimales Verhältnis zwischen Sensitivität und Spezi tät ermitteln 5.3 - Fallbeispiel (149-157 Seiten 149-157 fi fi fi fi fi ) fi fi fi. fi 17 di 17