Document Details

AccommodativeMeadow

Uploaded by AccommodativeMeadow

Martin Brunner, Petra Stanat, Hans Anand Pant

Tags

pädagogische Psychologie Diagnostik Evaluation Bildung

Summary

This document discusses pedagogical psychology, focusing on diagnostic and evaluation concepts and methods. It provides examples of how these methods can be applied in various educational settings. The text includes a section on the importance of diagnosing learning issues, such as reading difficulties, and improving learning environments.

Full Transcript

© Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 19 Diagnostik und Evaluation Martin Brunner Petra Stanat Hans Anand Pant 19.1 Diagnostik 19.1.1 Begriffe, Anwendungsfelder und Definition 19.1.2 Statistische Kennwerte 19.1.3 Prozessablauf 19.1.4 G...

© Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 19 Diagnostik und Evaluation Martin Brunner Petra Stanat Hans Anand Pant 19.1 Diagnostik 19.1.1 Begriffe, Anwendungsfelder und Definition 19.1.2 Statistische Kennwerte 19.1.3 Prozessablauf 19.1.4 Gütekriterien von Testwerten und Auswahlkriterien von diagnostischen Instrumenten 19.1.5 Diagnostik im schulischen Alltag von Lehrkräften 19.2 Evaluation 19.2.1 Begriffe, Funktionen und Beispiele 19.2.2 Ablauf 19.2.3 Qualitätsstandards zur Durchführung von Evaluationsstudien 19.2.4 Die Konzeption von Evaluationsstudien 19.2.5 Interpretation und Kommunikation der Ergebnisse Die Ergebnisse von PISA 2000, die im Jahr 2001 publiziert wurden (Baumert et al., 2001), haben in Deutschland für Aufregung gesorgt. Wider Erwarten konnten sehr viele Jugendliche in Deutschland nicht gut verstehend lesen und hatten Schwierigkeiten, die in der Studie eingesetzten Aufgaben in Mathematik und in den Naturwissenschaften zu lösen. PISA 2000 zeigte auch, dass in Deutschland die Leistungsschere zwischen Jugendlichen aus sozioökonomisch gut gestellten und sozioökonomisch weniger privilegierten Familien besonders weit aufging. So war der Zusammenhang zwischen dem erreichten Kompetenzniveau und dem sozioökonomischen Status der Familie in kaum einem PISA-Teilnehmerstaat enger als in Deutschland. Schließlich wies PISA 2000 darauf hin, dass schwache Lesekompetenz bei Jugendlichen in Hauptschulbildungsgängen häufig unerkannt blieb. Dieses Ergebnis warf die Frage auf, wie gut Lehrkräfte die Leistungen ihrer Schüler diagnostizieren können. Die Ergebnisse groß angelegter Schulleistungsstudien wie PISA ermöglichen es, Bildungssysteme quasi aus der Vogelperspektive zu betrachten und ganze Staaten hinsichtlich ihrer Bildungserträge miteinander zu vergleichen. Um jedoch mögliche Ursachen der Ergebnisse eines solchen Bildungsmonitorings zu bestimmen und identifizierten Schwächen zu begegnen, ist es erforderlich, Lehr-Lern-Prozesse und deren Effekte auch auf anderen Ebenen zu untersuchen. Wie können Lehrkräfte die Fähigkeiten ihrer Schüler diagnostizieren, um Förderbedarfe oder besondere Begabungen zu identifizieren? Welche Programme zur Leseförderung sind tatsächlich wirksam? Ist die Ganztagsschule als Organisationsform besser geeignet, um gute Schülerleistungen zu erzielen, als die Halbtagsschule? Um diese und zahlreiche andere praxisrelevante Fragen beantworten zu können, sind professionelle pädagogisch-psychologische Diagnostik und wissenschaftliche Evaluationen in pädagogischen Titelbild des SPIEGEL am 10. 12. 2001 zur Handlungsfeldern unerlässlich. Bekanntgabe der Ergebnisse von PISA 2000 19 Diagnostik und Evaluation 483 © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 19.1 Diagnostik 19.1.1 Begriffe, Anwendungsfelder und Definition In diesem Kapitel beschäftigen wir uns mit zentralen Konzepten und Methoden pädagogischer Diagnostik, die wir häufig mit Rückgriff auf das nachfolgende Beispiel erläutern. Beispiel Stellen Sie sich vor, Sie würden im psychologischen Dienst für Grundschulen eines Stadtbezirks arbeiten. Ein Elternpaar kommt zu Ihnen mit seinem 8-jährigen Sohn Karl, der die 2. Klasse besucht. Die Eltern sind sehr besorgt, denn Karl hat große Schwierigkeiten beim Lesen und ist allgemein oft unkonzentriert. Ausgehend vom Erfahrungsbericht seiner Eltern, aber auch nach Rücksprache mit seiner Klassenlehrerin, ziehen Sie als eine mögliche Erklärung für die Leseschwierigkeiten von Karl in Betracht, dass er eine Lese-Rechtschreib-Schwäche (LRS) haben könnte. Neben der Diagnose von Lernschwächen (wie z. B. LRS oder spezifische Lernschwierigkeiten in Mathematik) spielt pädagogisch-psychologische Diagnostik in vielen anderen Bereichen eine wichtige Rolle. Dazu zählen u. a. die Diagnose von Verhaltensauffälligkeiten oder auch von Hochbegabung, die Hochschulzulassung und Studierendenauswahl sowie die Schul-und Berufslaufbahnberatung oder sozialpädagogische Beratung (z. B. in der Jugendhilfe). Diagnostische Tätigkeiten in diesen Kontexten, die mit wissenschaftlich fundierten Verfahren arbeiten, lassen sich durch eine gemeinsame Definition charakterisieren (vgl. Hasselhorn & Gold, 2009; Leutner, 2006). Die diagnostischen Tätigkeiten von Lehrkräften in der Schule (z. B. bei der Notengebung oder bei der Empfehlung für eine weiterführende Schule) betrachten wir gesondert (s. Abschn. 19.1.5), da sie nicht in vollem Umfang dieser Definition entsprechen. 19 484 19 Diagnostik und Evaluation Definition Pädagogisch-psychologische Diagnostik nutzt Konzepte und Methoden der psychologischen Diagnostik, um in systematischer und möglichst akkurater Weise Informationen über Personen zu sammeln, aufzubereiten und zu bewerten. Diese Informationen dienen als Grundlage für Entscheidungen in Bezug auf Einzelpersonen in pädagogischen Handlungsfeldern, in denen es um das Lernen, Lehren und Erziehen geht. Einige Bestimmungsstücke und Konsequenzen dieser Definition heben wir nochmals hervor. Pädagogischpsychologische Diagnostik … " findet im Kontext pädagogischer Handlungsfelder statt. Zu diesen Handlungsfeldern gehören u. a. Familien, Kindergärten, Schulen, Universitäten, Beratungsstellen (z. B. in der Jugendhilfe) und Institutionen der beruflichen Aus-, Fort- und Weiterbildung sowie Erwachsenenpädagogik. " bezieht sich auf Einzelpersonen. Die Erfassung verschiedener Merkmale von Lernumwelten, von pädagogischen Institutionen oder Bildungssystemen betrachten wir als Gegenstand von Evaluation. " nutzt die Methoden der Psychologie. Hierzu gehören Tests, Fragebögen, Verhaltens- und Beobachtungsinventare, psychophysische Apparate, neurowissenschaftliche Verfahren (z. B. funktionelle Magnetresonanztomografie, fMRT) sowie die systematische Analyse biografischer Daten. " sammelt Informationen über Personen, nicht nur um deren Verhalten und Erleben zu beschreiben, sondern auch um es zu erklären und vorherzusagen. Hierzu ist es in der Regel erforderlich, die relevanten Bedingungen und Situationen zu identifizieren, in denen eine bestimmte Person ein bestimmtes Verhalten zeigt. So ist es z. B. bei der Erklärung von aggressivem Verhalten eines Kindes wichtig festzustellen, gegen wen oder was sich die Aggression richtet, welche Situationen Anlass zum aggressiven Verhalten geben und wie betroffene Personen auf das aggressive Verhalten reagieren. © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 " " hilft bei der Entscheidungsfindung, und zwar bezogen auf praktische Probleme in pädagogischen Handlungsfeldern (z. B. hinsichtlich der Frage, ob Karl zusätzliche Förderung in den Bereichen Lesen und Rechtschreibung benötigt). Pädagogisch-psychologische Diagnostik kann weitreichende Auswirkungen haben (z. B. auf die schulische und berufliche Zukunft von Karl). Sie wird grundsätzlich nicht als Selbstzweck angewendet, sondern im Dienste der Optimierung von wichtigen Entscheidungen unter Unsicherheit. unterscheidet sich in mehreren Aspekten von typischer Alltagsdiagnostik, wie sie z. B. häufig von Lehrkräften im schulischen Alltag praktiziert wird (vgl. Wild & Krapp, 2006). Zu den Unterscheidungsmerkmalen gehören der Rückgriff auf wissenschaftlich verankerte Konstrukte bei der Beschreibung und Erfassung von Personenmerkmalen, die Anwendung von wissenschaftlich fundierten Messverfahren (zur Verringerung von Mess- und Prognosefehlern), das systematische Vorgehen im diagnostischen Prozess (z. B. die Systematik der Datengewinnung und das Prüfen von Hypothesen) sowie die Transparenz des diagnostischen Prozesses (durch die Berichtlegung in Form von Gutachten und die Offenlegung potenzieller Einschränkungen bei der Interpretation der Daten). Diagnostische Zielsetzungen Ausgehend von der Definition pädagogisch-psychologischer Diagnostik können in enger Anlehnung an die einflussreiche Arbeit von Pawlik (1976) verschiedene diagnostische Zielsetzungen unterschieden werden. Diese lassen sich anhand von zwei Dimensionen beschreiben: (1) Selektions- vs. Modifikationsdiagnostik und (2) Status- vs. Prozessdiagnostik. Selektions- vs. Modifikationsdiagnostik. Selektionsdiagnostik in pädagogischen Handlungsfeldern bildet die Grundlage für Entscheidungen, die auf die Auswahl (a) der richtigen Person für eine bestimmte Lernumwelt oder (b) der richtigen Lernumwelt für eine bestimmte Person abzielen. Ein Beispiel für die Personenselektion ist die Hochschulzulassung, bei der es darum geht, die am besten geeigneten Bewerber für eine begrenzte Anzahl von Studienplätzen in einem bestimmten Fach auszuwählen, sofern die Anzahl der Bewerber die Zahl der verfügbaren Plätze übersteigt (ansonsten würde sich der finanzielle, zeitliche und personelle Aufwand für die Selektionsdiagnostik nicht lohnen). Ein Beispiel für die Auswahl einer Lernumwelt ist die Auswahl einer bestimmten Berufsausbildung aus einer Vielzahl von Möglichkeiten im Rahmen der Berufslaufbahnberatung. Ein weiteres Beispiel für die Wahl einer Lernumwelt ist die Wahl einer Schule, die sich auf die Förderung von Kindern mit LRS spezialisiert hat. Modifikationsdiagnostik in pädagogischen Handlungsfeldern bildet die Grundlage für Entscheidungen, die auf Veränderungen (Modifikation) von (a) Verhalten oder psychologischen Merkmalen einer Person oder (b) pädagogischen Lernumwelten bzw. Lernsituationen abzielen. Ein Beispiel für die Modifikation von Personen ist die systematische Förderung der Leseleistung von Karl. Eine Fördermaßnahme könnte etwa darauf abzielen, Karl Strategien zu vermitteln, die es ihm ermöglichen, Texte zu dekodieren und verstehend zu erfassen. Eine Veränderung einer Lernumwelt wäre z. B. die Einrichtung zusätzlicher Förderkurse für lese-/rechtschreibschwache Schüler in einer Schule. Status- vs. Prozessdiagnostik. Eng verbunden mit der Unterscheidung von Selektions- und Modifikationsdiagnostik ist die Unterscheidung von Status- und Prozessdiagnostik. Die Aufgabe von Statusdiagnostik besteht darin, die Ausprägung des individuellen Verhaltens oder Erlebens einer Person zu einem bestimmten Zeitpunkt möglichst präzise zu erfassen. Ein Beispiel hierfür ist die Bestimmung des allgemeinen Intelligenzniveaus von Karl, um auszuschließen, dass seine Leseschwierigkeiten auf gering ausgeprägte allgemeine kognitive Grundfähigkeiten zurückzuführen sind. Prozessdiagnostik hingegen zielt darauf ab, spontane oder gezielt herbeigeführte Veränderungen individuellen Verhaltens oder Erlebens über die Zeit hinweg zu messen, um diese Veränderungen sichtbar zu machen. So würde man Karls Leseleistung wiederholt erfassen, um den Erfolg der gewählten Fördermaßnahme zu bestimmen und die Förderstrategie ggf. anzupassen. Die Beschreibung der verschiedenen diagnostischen Strategien verdeutlicht, dass mit ihrer Anwendung eine Annahme darüber verbunden ist, inwieweit das jeweilige Verhalten oder Erleben zeitlich (weitgehend) stabil ist oder nicht. Zeitlich relativ stabile Verhaltens- und Erlebensweisen werden in der pädagogisch-psychologischen Forschung als Dispositionen oder Eigenschaften (Traits) bezeichnet. Selektions- und Statusdiagnostik setzen häufig (weitgehende) zeitliche Stabilität der gemessenen Eigenschaften voraus und nehmen an, dass 19.1 Diagnostik 485 © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 anhand dieser Eigenschaften zukünftiges Verhalten vor- ner Statusdiagnostik für Schullaufbahnempfehlungen hergesagt werden kann. Im Unterschied hierzu gehen am Ende der Primarschule stellt die Leseleistung damit Modifikations- und Prozessdiagnostik von der grund- ein potenziell geeignetes Kriterium dar, da eine solch sätzlichen Veränderbarkeit des individuellen Verhaltens weitgehende Entscheidung eine (zumindest mittelfristiund Erlebens durch Lern-, Bildungs- oder Erziehungs- ge) zeitliche Stabilität des Merkmals voraussetzt. Andeprozesse aus. Ein Schwerpunkt dieser Diagnostik liegt rerseits kann die Lesekompetenz durch Bildungsprodaher auch auf der Bestimmung von (situativen) Fak- zesse aber auch gefördert werden. Wird etwa im Fall toren, die ein bestimmtes Verhalten oder Erleben bedin- von Karl entschieden, eine gezielte Förderung der Lesegen, um Ansatzpunkte für konkrete Fördermaßnahmen kompetenz durchzuführen, wäre eine kontinuierliche Prozessdiagnostik der Leseleistung erforderlich, um die zu erhalten. Mischformen. Die Unterscheidung von Selektions- vs. Maßnahmen auf seine spezifischen Stärken und SchwäModifikationsdiagnostik bzw. Status- vs. Prozessdiag- chen abzustimmen. Die Unterscheidung von Status- vs. nostik ist hilfreich, um den Fokus einer diagnostischen Prozessdiagnostik bezieht sich also auf die Ziele, die mit Situation zu charakterisieren. In pädagogischen Hand- einer diagnostischen Entscheidung verbunden sind; sie lungsfeldern lassen sich jedoch diagnostische Zielset- ist nicht an das zu diagnostizierende Merkmal (wie etwa zungen nicht immer trennscharf den jeweiligen Dimen- die Leseleistung) gebunden. sionen zuweisen, sondern es handelt sich meist um Mischformen (Leutner, 2006). Die Ursache hierfür liegt in der Kernannahme pädagogischen Handelns, dass 19.1.2 Statistische Kennwerte individuelles Verhalten und Erleben durch Lern-, Bil- Um die Logik pädagogisch-psychologischer Diagnostik dungs- oder Erziehungsprozesse veränderbar ist. Bei- und Evaluation verstehen zu können, ist die Kenntnis spielsweise kann die Diagnose einer LRS für Karl die Entscheidungsgrundlage daa. Mittelwert b. Standardabweichung für bilden, eine geeignete Lernumwelt n auszuwählen (z. B. die Auswahl einer n ∑ Li 451 ∑ (Li – ML)2 Schule, die sich auf die Förderung von i=1 ML = = = 30,1 i=1 S = = 1402,9 = 9,7 L n Kindern mit Lese-Rechtschreib-Schwie15 √ n √ 15 rigkeiten spezialisiert hat). Gleichzeitig sollten diagnostische Informationen c. z-Wert d. Korrelation dazu genutzt werden, die Fördermaßn nahmen auf Karls spezifische SchwierigL – ML 35 – 30,1 ∑ zli · zLi 9,89 zL,1= i = 10,0 = 0,49 keiten beim Lesen wie auch auf seinen = = 0,706 rI,L = i=1 SL 14 n–1 Lernfortschritt abzustimmen, um ihn so optimal zu fördern. Die Lernumwelt wird hierbei also kontinuierlich aufgrund diee. 95%-Konfidenzintervall f. Cohens d ser Informationen modifiziert. Untergrenze: In diesem Zusammenhang ist es auch M1 – M2 d= 95 % – KIi = Xi – 1,96 · Sx · √ 1 – rtt wichtig zu unterstreichen, dass dasselbe n1 · S12 + n2 · S22 Merkmal aus unterschiedlichen PerspekObergrenze: √ n1 + n2 95 % – KIi = Xi + 1,96 · Sx · √ 1 – rtt tiven betrachtet werden kann und nicht per se einer bestimmten diagnostischen Zielsetzung zuzuordnen ist. Die Leseleis- Abbildung 19.1 Formeln zur Berechnung wichtiger statistischer Kenngrötung ist hierfür ein gutes Beispiel, denn ßen. M = Mittelwert; S = Standardabweichung; z = z-standardisierter Testdie Fähigkeit zum Lesen basiert auf einem wert; r = Korrelationskoeffizient; i = Personenindex; S = Summe; Xi = Testwert von Person i; rtt = Reliabilität der Testwerte eines bestimmten langfristigen, kumulativen Lernprozess. Tests; d = Cohens d als standardisiertes Effektstärkemaß für MittelwertsAb einem bestimmten Alter kann man unterschiede für ein bestimmtes Maß zwischen Gruppe 1 und Gruppe 2 mit von einer weitgehenden Stabilität der Le- den Gruppengrößen n1 und n2. Die Zahlenbeispiele beziehen sich auf sekompetenz ausgehen. Im Rahmen ei- Tabelle 19.1 19 486 19 Diagnostik und Evaluation © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 einiger statistischer Konzepte und Kenngrößen erforderlich, die wir an einem Beispiel erläutern. Angenommen eine Grundschullehrkraft hat einen Intelligenztest (mit den Testwerten I) und einen Lesetest (mit den Testwerten L) in ihrer Klasse mit 15 Grundschulkindern eingesetzt. Tabelle 19.1 führt die in den Tests erreichten Punkte der Kinder auf. Die Lehrkraft möchte nun die Verteilungen der Testwerte beschreiben und wissen, ob ein Zusammenhang zwischen den Testwerten im Intelligenz- und Lesetest besteht. In Abbildung 19.1 werden die mathematischen Formeln zur Berechnung der statistischen Kennwerte aufgeführt, die sie hierfür benötigt. (Das Konfidenzintervall bzw. das Effektstärkemaß Cohens d, die ebenfalls in Abbildung 19.1 aufgelistet sind, besprechen wir weiter unten in Abschn. 19.1.3 bzw. Abschn. 19.2.5). Als Maß zur Beschreibung der zentralen Tendenz der Verteilung von I und L berechnet die Lehrkraft die Mittelwerte MI = 20,1 und ML = 30,1. Als Maße für die Leistungsheterogenität der Kinder berechnet sie die Streuung der Testwerte I bzw. L in Form der Standardabweichung SI bzw. SL. Die Standardabweichung gibt an, wie stark die Testwerte im »Mittel« um den Mittelwert der Testwerteverteilung streuen. Zu beachten ist hierbei (daher steht Mittel in Anführungszeichen), dass die Testwerte nicht mit gleichem Gewicht in die Berechnung der Standardabweichung eingehen: Testwerte, die weiter entfernt vom Mittelwert der Verteilung liegen, gehen durch das Quadrieren der Differenzen stärker gewichtet ein als Testwerte, die näher am Mittelwert der Verteilung liegen (s. Abb. 19.1 b). Im Beispiel liegen die Streuungswerte im Intelligenztest bei etwa SI = 9,6 Punkten und im Lesetest in etwa bei SL = 9,7 Punkten. Tabelle 19.1 Datenbeispiel für Testwerte in einem Intelligenztest (I) und in einem Lesetest (L) Kind Punkte im Intelligenztest (I) Punkte im (Ii–MI)2 Lesetest (L) (Li–ML)2 ZI ZL ZI×ZL 1 29 35 79,8 24,3 0,90 0,49 0,44 2 16 18 16,5 145,6 –0,41 –1,21 0,50 3 15 26 25,7 16,5 –0,51 –0,41 0,21 4 25 41 24,3 119,5 0,50 1,09 0,54 5 25 30 24,3 0,0 0,50 –0,01 0,00 6 15 42 25,7 142,4 –0,51 1,19 –0,61 7 34 41 194,1 119,5 1,41 1,09 1,54 8 12 24 65,1 36,8 –0,82 –0,61 0,49 9 5 15 227,0 227,0 –1,52 –1,51 2,29 10 1 17 363,5 170,7 –1,93 –1,31 2,52 11 33 46 167,3 253,9 1,31 1,59 2,08 12 25 19 24,3 122,5 0,50 –1,11 –0,55 13 26 34 35,2 15,5 0,60 0,39 0,24 14 27 33 48,1 8,6 0,70 0,29 0,21 15 13 30 49,9 0,0 –0,71 –0,01 0,00 Summe 301 451 1370,9 1402,9 0,00 0,00 9,89 M 20,1 30,1 0,0 0,0 S 9,6 9,7 1,0 1,0 M = Mittelwert; S = Standardabweichung; z = z-standardisierter Testwert; i = Personenindex 19.1 Diagnostik 487 © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 Wenn die Lehrkraft daran interessiert ist, die Testwerte der einzelnen Kinder in Beziehung zur jeweiligen Verteilung der Testwerte in ihrer Klasse zu setzen, kann sie hierfür z-Werte berechnen. Ein z-Wert gibt an, um wie viele Standardabweichungen und in welcher Richtung ein Messwert vom Mittelwert der Vergleichsstichprobe – in diesem Fall der Klasse – abweicht. Ein Vorzug der z-Werte ist, dass dadurch Testwerte aus Verteilungen mit unterschiedlichen Mittelwerten und Streuungen in Bezug auf ihre relative Abweichung vom Mittelwert vergleichbar werden; die z-Werte weisen immer einen Mittelwert von 0 und eine Standardabweichung von 1 auf. Ist der z-Wert 0, so entspricht der Wert der Person genau dem Mittelwert der Vergleichsstichprobe. Bei einem z-Wert größer 0 ist ihre Leistung überdurchschnittlich, bei einem z-Wert kleiner 0 unterdurchschnittlich ausgeprägt. Kind 2 z. B. hat einen z-Wert von –1,21 im Lesetest erreicht. Dies bedeutet, dass seine Leistung um 1,21 Standardabweichungen unter dem Durchschnitt der Grundschulkinder in dieser Klasse liegt. Um zu erfahren, ob ein Zusammenhang zwischen den Testwerten im Intelligenz- und Lesetest besteht, erstellt die Lehrkraft zunächst ein Streudiagramm (s. Abb. 19.2). Man sieht, dass Kinder mit besserer Leistung im Intelligenztest tendenziell auch bessere Leistungen im Lesetest erzielten. 19.1.3 Prozessablauf 50 Pädagogisch-psychologische Diagnostik ist in einen Prozess eingebunden, der mehrere Phasen umfasst (s. Abb.19.3). Auswahlkriterien für die diagnostischen Instrumente werden in Abschnitt 19.1.4 besprochen. Punkte im Lesetest (L) 40 30 20 10 0 0 10 20 30 40 50 Punkte im Intelligenztest (I) Abbildung 19.2 Streudiagramm zur Darstellung des Zusammenhangs zwischen den Testwerten im Intelligenztest und im Lesetest, die in Tabelle 19.1 aufgeführt sind. Die Gerade stellt den linearen Zusammenhang zwischen den beiden Variablen dar 19 488 Um den linearen Zusammenhang zwischen den Testwerten im Intelligenz- und Lesetest zu quantifizieren, berechnet man deren (Pearson-Produkt-Moment-) Korrelation. Die Korrelation ist ein statistisches Zusammenhangsmaß, das auch bei der Bestimmung der Gütekriterien diagnostischer Verfahren eine zentrale Rolle spielt (s. Abschn. 19.1.4). Der Korrelationskoeffizient r kann zwischen –1 und +1 variieren. Beispielsweise kennzeichnet ein Korrelationskoeffizient von r = 0,71 einen hohen positiven linearen Zusammenhang zwischen I und L. Hoch bedeutet hierbei, dass man aus der Kenntnis von I bei einem Kind mit hoher »Treffsicherheit« auf seine Ausprägung von L schließen kann. Positiv bedeutet hier, dass mit höheren Werten im Intelligenztest tendenziell höhere Werte im Lesetest einhergehen (ein negativer Korrelationskoeffizient würde anzeigen, dass mit höheren Werten im Intelligenztest tendenziell niedrigere Werte im Lesetest korrespondieren). Bei einer Korrelation von r = 0 besteht kein Zusammenhang zwischen den Merkmalen. Linear schließlich bedeutet, dass der statistische Zusammenhang in Form einer Geraden abgebildet werden kann (vgl. Abb. 19.2); nicht-lineare (z. B. U-förmige) Zusammenhangsmuster zwischen I und L, die möglicherweise in den Daten vorliegen, werden durch den Korrelationskoeffizienten nicht erfasst. 19 Diagnostik und Evaluation Definition des Entscheidungsproblems Um Entscheidungen im Rahmen pädagogisch-psychologischer Diagnostik zu treffen, ist es zunächst erforderlich, das Entscheidungsproblem und die damit verbundenen diagnostischen Zielsetzungen zu definieren: Geht es um Selektion oder Modifikation von Personen? Ist eine Status- oder eine Prozessdiagnostik angezeigt? Müssen mehrere Strategien kombiniert werden? Hierbei ist es besonders wichtig, die Fragestellungen in Form von Hypothesen so zu konkretisieren, dass sie im Rahmen des diagnostischen Prozesses untersucht und beantwortet werden können. Im Beispiel von Karl wird die allgemeine Fragestellung zunächst von den Eltern definiert: Warum hat Karl solche Probleme mit dem Lesen © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 (3) Die Lese- oder Rechtschreibleistung sollte deutlich schlechter sein, als dies nach der allgemeinen Intelligenzentwicklung zu erwarten ist. Nach diesen Leitlinien wäre ab einem Festlegung der zu erfassenden Konstrukte bestimmten Schweregrad – gemäß dem internationalen Klassifikationssystem medizinischer Diagnosen ICD-10 – eine ggf. Reformulierung Auswahl der diagnostischen Instrumente »Lese- und Rechtschreibstörung« (F81.0) des Entscheidungsproblems zu diagnostizieren. Dieser Begriffswahl folgen wir hier nicht, da der Begriff Ermittlung diagnostischer Informationen »Störung« eng mit dem Begriff »Krankheit« verbunden und umstritten ist. Um festzustellen, ob bei Karl eine LRS vorliegt, müssen die drei genannten KriTreffen einer Entscheidung terien in Form von Hypothesen überprüft werden: Karls Leseleistung gehört zu den unteren 10 % (Hypothese 1) und Karls IQ ggf. Anfertigung eines Gutachtens liegt über 70 (Hypothese 2). Die dritte Hypothese zur Diskrepanz zwischen Leseleistung und Intelligenzentwicklung klammern wir hier aus, da dieses DiskreAbbildung 19.3 Prozessablauf pädagogisch-psychologischer Diagnostik panzkriterium sehr kritisch diskutiert wird, u. a. weil es für die Frage, wie gefördert werden sollte, kaum relevant ist und warum ist er oft unkonzentriert? Diese Fragestel- (Stuebing et al., 2002). Wichtig für die Diagnosestellung lung muss im diagnostischen Prozess zunächst anhand ist ferner, neben kognitiven Beeinträchtigungen weitere von Informationen zur Vorgeschichte spezifiziert wer- mögliche Alternativerklärungen auszuschließen, wie den, die zu der Vermutung führen könnten, dass bei etwa Störungen der Hör- und Sehfunktionen sowie Karl möglicherweise eine LRS vorliegt. Wenn eine LRS neurologische oder allgemeine psychische Störungen vorliegt, ist die Entwicklung der Lesefertigkeiten und – (s. hierzu ausführlich Weber & Marx, 2008). damit sehr häufig verbunden – die Entwicklung der Festlegung der Konstrukte Rechtschreibung beeinträchtigt. Für die Diagnose einer Lese-Rechtschreib-Schwäche Bei der Definition und Konkretisierung der Fragestelmüssen gemäß den »Leitlinien zu Diagnostik und The- lung wird gleichzeitig festgelegt, welche Konstrukte rapie von psychischen Störungen im Säuglings-, Kindes- (z. B. die Lesekompetenz oder die allgemeine Intelliund Jugendalter«, die von der Deutschen Gesellschaft genz) zu erfassen sind. für Kinder- und Jugendpsychiatrie, Psychosomatik und Psychotherapie (DGKJP) und Ärzteverbänden herausDefinition gegeben wurden (2007), drei Kriterien erfüllt sein: Im Kontext der psychologischen Diagnostik bezeich(1) Die Leistung im Lesekompetenztest fällt in der nen Konstrukte einen klar definierten GegenstandsVergleichsgruppe in den Bereich der unteren 10 % bereich zeitlich stabiler oder zeitlich veränderlicher (etwa 90 % der Kinder in der Vergleichsgruppe Merkmale des individuellen Verhaltens und Erlebens. sollten also eine bessere Leistung als Karl erzielen). (2) Das Intelligenzniveau liegt nicht im Bereich der geistigen Behinderung (d. h., der Intelligenzquo- Sie unterscheiden sich in ihrer Breite, also der Anzahl und Vielfalt der Verhaltens- und Erlebensweisen, die einem tient [IQ] liegt über 70). Konstrukt zugeordnet werden. Konstrukte unterscheiden Definition des Entscheidungsproblems und der Untersuchungshypothesen 19.1 Diagnostik 489 © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 19 490 sich auch in der Organisation ihres Gegenstandsbereichs, also darin, ob verschiedene Facetten des Konstrukts differenziert werden können, sowie ob und in welcher Form diese Facetten hierarchisch organisiert sind. Beispielsweise ist Intelligenz ein sehr breites kognitives Konstrukt, das viele Facetten umfasst und hierarchisch organisiert ist (s. z. B. Deary, 2001 zur Einführung in die Intelligenzforschung; vgl. Abschn. 7.3.1). An der Spitze der Hierarchie steht die allgemeine Intelligenz. Facetten der Intelligenz, die der allgemeinen Intelligenz untergeordnet sind, sind kognitive Operationen wie das schlussfolgernde Denken, die Merkfähigkeit oder die mentale Geschwindigkeit. Ein im Vergleich dazu einfacher strukturiertes Konstrukt ist das Leseverstehen, das sich auf das Verstehen von Wörtern und Sätzen sowie kurzen und längeren Texten bezieht (vgl. z. B. Schiefele, Artelt, Schneider & Stanat, 2004). Im Fall von Karl besteht das diagnostische Ziel darin zu untersuchen, ob eine LRS vorliegt. Entsprechend der oben beschriebenen Definition müssen dazu sowohl Karls Niveau der allgemeinen Intelligenz als auch seine Lesekompetenz erfasst werden. Tests im engeren Sinne erforderlich, wobei aus der Vielzahl der verfügbaren Intelligenz- und Lesetests bestimmte Instrumente ausgewählt werden müssen. Zum Beispiel könnte man den häufig eingesetzten Test »Coloured Progressive Matrices« (CPM; Bulheller & Häcker, 2002) nutzen, um die Intelligenz von Karl zu messen. Bei diesem Verfahren müssen die Kinder unvollständige farbige Figuren oder Muster ergänzen, indem sie die richtige Antwort aus einer von sechs vorgegebenen Antwortalternativen auswählen. Der CPM hat den Vorteil, dass er durch das figurale Aufgabenmaterial praktisch nur beim Verständnis der Instruktion, die beschreibt, wie die Testaufgaben zu bearbeiten sind, Anforderungen an sprachliche Fähigkeiten stellt. Als Maß für Karls Leseleistung könnte z. B. der »ELFE 1-6: Ein Leseverständnistest für Erst- bis Sechstklässler« (Lenhard & Schneider, 2006), verwendet werden. Dieses Instrument enthält Subtests zur Messung des Verständnisses von einzelnen Wörtern, von einzelnen Sätzen und von kurzen Texten. Welche Kriterien für die Auswahl diagnostischer Instrumente herangezogen werden sollten, wird in Abschnitt 19.1.4 diskutiert. Auswahl der diagnostischen Instrumente Konstrukte (wie die Intelligenz oder die Lesekompetenz) sind nicht direkt beobachtbar, sondern müssen mittels diagnostischer Messinstrumente erfasst und damit »sichtbar« gemacht werden (vgl. American Educational Research Association, American Psychological Association & National Council on Measurement in Education, 1999). Zur Erfassung von Konstrukten ist es deshalb notwendig, geeignete diagnostische Instrumente auszuwählen (z. B. Tests, Fragebögen, Verhaltensund Beobachtungsinventare, psychophysische Apparate, Leitfäden für biografische Interviews; vgl. Abschn. 4.4), um die für die Entscheidung erforderlichen diagnostischen Informationen zu gewinnen. Im Idealfall handelt es sich um quantitative Aussagen im Sinne von Testwerten (test scores). Hierzu ist anzumerken, dass in der pädagogisch-psychologischen Diagnostik der Begriff »Testwert« zumeist allgemein verwendet wird, um Messwerte zu bezeichnen, die mit diagnostischen Instrumenten erhoben werden, auch wenn es sich bei diesen Instrumenten nicht um Tests im engeren Sinn handelt, sondern z. B. um einen Fragebogen zur Erfassung schulischer Interessen oder um die Ergebnisse eines systematischen Beobachtungsverfahrens. Zur Feststellung einer LRS ist jedoch v. a. der Einsatz von Bestimmung und Einordnung der Testwerte einer Person (Bezugsnormen) Die mit einem diagnostischen Instrument erhobenen Antworten werden üblicherweise zu einem Testwert zusammengefasst. Beispielsweise wird beim CPM oder beim ELFE 1-6 die Anzahl der richtig gelösten Aufgaben jeweils zu einem Testwert addiert. Die Testwerte werden als Indikator für die Ausprägung des zu erfassenden Konstrukts bei der jeweiligen Person betrachtet. Zur Interpretation der Testwerte können verschiedene Bezugsnormen als Maßstäbe herangezogen werden: die soziale, die kriteriale und die individuelle Bezugsnorm. Die Einordnung und Beurteilung der Testwerte erfolgt dabei mit Bezug auf " die Verteilung der Testwerte in einer Vergleichsgruppe (sozialnormorientierte Diagnostik oder Vergleichsdiagnostik), " ein sachlich definiertes Kriterium (kriteriumsnormorientierte Diagnostik oder Diagnostik der Zielerreichung) und/oder " die individuelle Entwicklung der Testperson sowie individuelle Profile (individualnormorientierte oder ipsative Diagnostik). Sozialnormorientierte Diagnostik. Die sozialnormorientierte Diagnostik legt das Augenmerk auf interindividuelle Unterschiede, also darauf, wie sich Personen 19 Diagnostik und Evaluation © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 hinsichtlich ihrer Testwerte unterscheiden. Hierfür werden die Ergebnisse aus sog. Normierungsstudien benötigt, bei denen repräsentative Stichproben von Personen das diagnostische Verfahren (z. B. einen Test) bearbeiten. Die Verteilung der Testwerte in der Normierungsstudie gibt Aufschluss über die Verteilung der Testwerte in der Referenzpopulation. Zur Einordnung des Ergebnisses einer bestimmten Person werden die Testwerte in Normwerte umgewandelt, die über die relative Position einer Testperson in Bezug auf die Verteilung von Testwerten in der Referenzpopulation informieren (soziale Bezugsnorm; vgl. Abschn. 4.2.3). Die grundlegende Idee dieser Art von Normwerten veranschaulicht Abbildung 19.4, in der die Verteilung von (Intelligenz-)Testwerten einer Normalverteilung entspricht. Dies muss aber nicht immer so sein, denn die Verteilung der Testwerte kann (z. T. deutlich) von einer Normalverteilung abweichen (Micceri, 1989). Zur Beschreibung der interindividuellen Unterschiede kann man auf die Prozentrangskala oder auf diverse Skalen zurückgreifen, die sich an den Abweichungen der individuellen Testwerte vom Mittelwert der Verteilung in der Normierungsstichprobe orientieren. Anteil an Personen in den jeweiligen Segmenten der Normalverteilungskurve Standardabweichungen 0,13 % –4σ Kumulative Häufigkeit –4,0 40 34,13 % 13,59 % 2,14 % 0,13 % –3σ –2σ –1σ 0 +1σ +2σ +3σ 0,1 % 2,3 % 15,9 % 50 % 84,1 % 97,7 % 99,9 % 1 T-Werte (M = 50, S =10) IQ-Werte (M = 100, S = 15) 13,59 % 34,13 % 2,14 % Prozentrang z-Werte (M = 0, S = 1) Der Prozentrang gibt an, welcher Anteil von Personen in der Referenzgruppe einen gleich hohen oder einen geringeren Testwert erreicht hat. So bedeutet beispielsweise ein Prozentrang von 10, dass in der Referenzgruppe 10 % der Personen einen niedrigeren oder gleich hohen Testwert und 90 % der Personen in der Referenzgruppe einen höheren Testwert erzielt haben. Wie aus Abbildung 19.4 ersichtlich wird, hat die Prozentrangskala den Nachteil, dass die Messwerte über die gesamte Spannbreite der Messwerte sehr ungleich verteilt sind. Eine bessere Differenzierung ermöglichen die sog. Abweichungsnormen, die sich am Mittelwert und der Standardabweichung der Verteilung orientieren. Dazu zählen insbesondere " z-Werte (vgl. Abschn. 19.1.2), " T-Werte und " IQ-Werte. Die Abweichungsnormen können dabei durch einfache Transformationen ineinander überführt werden. Prozentränge können allerdings nur dann in Abweichungsnormen überführt werden, wenn – wie in dieser Abbildung – die Verteilung der Testwerte einer Normalverteilung folgt. Allgemein gilt bei Häufigkeitsverteilungen mit einer (angenäherten) Normalverteilungsform, dass ca. zwei 5 10 20 30 40 50 60 70 80 90 95 +4σ 99 –3,0 –2,0 –1,0 0 +1,0 +2,0 +3,0 20 30 40 50 60 70 80 55 70 85 100 115 130 145 +4,0 160 Abbildung 19.4 Normalverteilungskurve von Testwerten sowie darauf basierende Normwerte und kumulative Häufigkeiten. M = Mittelwert, S = Standardabweichung 19.1 Diagnostik 491 © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 Drittel (genauer: 68,26 %) der Fälle einer Stichprobe im Messwertbereich von M ± 1S und ca. 95 % der Fälle (genauer: 95,44 %) im Messwertbereich von M ± 2S liegen (s. Abb. 19.1 a und b in Abschn. 19.1.2 zur Definition von M und S). Die wechselseitige Überführung von Abweichungsnormen in Prozentränge ist aber umso stärker verzerrt, je mehr die tatsächliche Verteilung der Testwerte von einer Normalverteilung abweicht. Karl beispielsweise hat 28 von 36 Aufgaben im CPM richtig gelöst. Anhand der im Testmanual des Verfahrens angegebenen Transformationsregeln lässt sich ermitteln, dass dies einem IQ-Wert von 100 und damit genau dem Mittelwert der Referenzpopulation und auch dem mittleren Rangplatz von 50 entspricht. Demnach erzielten in der Referenzgruppe Gleichaltriger 50 % der Kinder niedrigere oder gleich hohe IQ-Werte und 50 % der Kinder höhere IQ-Werte als Karl. Kriteriumsnormorientierte Diagnostik. Da der individuelle Testwert bei der sozialen Bezugsnorm ausschließlich in Bezug auf die Verteilung der Testwerte in einer Referenzgruppe beurteilt wird, erhält man lediglich eine Information über den individuellen Rangplatz innerhalb der Bezugsgruppe, z. B. den Rangplatz im Leistungsspektrum bei einem schulischen Kompetenztest. Wenn allerdings alle anderen in der Gruppe schwache Leistungen erzielen, ist auch der Spitzenplatz keine Garantie für eine objektiv gute Leistung. Hier setzt die kriteriumsnormorientierte Diagnostik an. Testwerte, die sich an einer kriteriumsorientierten Bezugsnorm orientieren, geben Auskunft darüber, ob eine Person ein bestimmtes Kriterium erreicht hat oder nicht, und zwar unabhängig davon, wie viele Personen dieses Kriterium insgesamt erreicht haben. Beim kriteriumsnormorientierten Vorgehen spielen interindividuelle Unterschiede in den Testwerten also eine untergeordnete Rolle. Ein wichtiges Beispiel hierfür sind Tests zur Erfassung schulischer Kompetenzen, wie etwa die Tests zur Überprüfung des Erreichens der länderübergreifenden Bildungsstandards, die von der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (Kultusministerkonferenz, KMK) verabschiedet wurden. Bildungsstandards sind Kompetenzerwartungen. Sie legen fest, über welche fachspezifischen Kompetenzen Schüler in Deutsch, in der ersten Fremdsprache (Englisch, Französisch), in Mathematik und in den naturwissenschaftlichen Fächern bis zu einer bestimmten Jahrgangsstufe verfügen sollen. Abbildung 19.5 stellt beispielhaft das Kompetenzstufenmodell für 19 492 19 Diagnostik und Evaluation den Bereich Lesen vor, das zu den Bildungsstandards für den Mittleren Schulabschluss im Fach Deutsch entwickelt worden ist (Bremerich-Vos et al., 2010). Zur Bestimmung sachlich definierter Kriterien wird die Verteilung der Testwerte mithilfe sog. Standardsetting-Prozeduren in mehrere Kompetenzstufen eingeteilt, indem Experten des jeweiligen Faches entsprechende Schwellenwerte (cut scores) bestimmen (Pant, Tiffin-Richards & Köller, 2010). Die Grundlage dieser Entscheidungen bilden die Aufgaben, die Schüler mit bestimmten Testwerten mit einiger Wahrscheinlichkeit lösen können. Für ihre Einschätzung erhalten die Experten zu diesen Aufgaben einerseits empirische Daten (z. B. zu den Lösungshäufigkeiten) und andererseits qualitative Informationen zu lösungsrelevanten kognitiven Prozessen oder erforderlichen Wissensstrukturen. Auf diese Weise wird es möglich, die Kompetenzstufen in Bezug auf die Bewältigung inhaltlicher Anforderungen zu beschreiben. Um eine bestimmte Kompetenzstufe bei einer Schülerin oder einem Schüler diagnostizieren zu können, müssen beobachtbare Kriterien erfüllt worden sein. Zentral ist hierbei der Gedanke, dass Schüler, die eine bestimmte Kompetenzstufe erreicht haben, Aufgaben der jeweiligen Kompetenzstufe und Aufgaben der niedrigeren Kompetenzstufe mit einer festgelegten Mindestwahrscheinlichkeit (z. B. 65 %) lösen können, Aufgaben der höheren Kompetenzstufe aber nur mit geringerer Wahrscheinlichkeit. Wenn beispielsweise eine Schülerin Kompetenzstufe IV im Bereich Lesen im Fach Deutsch erreicht hat, dann kann sie mit relativ hoher Wahrscheinlichkeit die Aufgaben 1, 2, 3 und 4 in Abbildung 19.5 lösen, die den Kompetenzstufen I, II, III und IV zugeordnet sind. Die Wahrscheinlichkeit, dass sie Aufgabe 5 auf Kompetenzstufe V lösen kann, ist dagegen deutlich geringer. Weitere Aufgabenbeispiele für die Erfassung von Kompetenzen auf der Grundlage der KMK-Bildungsstandards finden sich auf den Internetseiten des Instituts zur Qualitätsentwicklung im Bildungswesen (IQB; z. B. www.iqb.huberlin.de/laendervergleich). Kompetenzstufen können auch darüber informieren, ob ein bestimmter Leistungsstandard, d. h. eine definierte Leistungserwartung, erreicht wurde oder nicht (Klieme et al., 2007). So legte beispielsweise die KMK für die Kompetenzstufenmodelle, die auf der Grundlage der Bildungsstandards entwickelt wurden, als Mindeststandard allgemein die Stufe II fest. Jugendliche, deren Leistungen unter Kompetenzstufe II liegen, erreichen demnach nicht das von der KMK definierte Bildungs- © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 Aufgabe: Mann über Bord Stell dir vor, die Leute auf der Insel würden die wahre Geschichte des Schiffbrüchigen erfahren. Einige halten ihn für schuldig, einige für unschuldig am Tod der anderen Seeleute. Finde Argumente aus dem Text, was man dem Matrosen vorwerfen bzw. zugutehalten könnte.  »Schuldig«  »Unschuldig« V Optimalstandard erreicht ▶ im Text weit verstreute Informationen identifizieren und verknüpfen ▶ selbstständig einen mehr oder weniger umfangreichen Text produzieren 640 Aufgabe: Mann über Bord Was könnte einer der Inselbewohner über den Überlebenden berichten? Notiere stichpunktartig.  IV Regelstandard plus erreicht ▶ im Text nicht explizit genannte, sondern zu erschließende Wissensbestände von Figuren sowie das Motiv eines Erzählers erkennen ▶ Aufgaben lösen, die Kombinationen von Grafik und kontinuierlichem Text erfordern 560 Aufgabe: Mann über Bord Die Geschichte handelt hauptsächlich von …. einem Schiff, das bei einem Sturm kentert. von der Ungeschicklichkeit eines Matrosen. von den Gefahren auf hoher See. III Regelstandard erreicht einer Verkettung von Ereignissen, nachdem jemand ins Meer gestürzt ist. ▶ Aufgaben meistern, in deren Rahmen bei längeren Texten aus vorgegebenen Alternativen das zutreffende Textthema auswählen ▶ Aufgaben lösen, bei denen die Bedeutung von Wörtern kontextuell erschlossen werden muss 480 Aufgabe: Mann über Bord Die Hauptfigur … schwimmt schnell zur rettenden Insel. kann sich in ein Boot retten. wird an Land gespült. II Mindeststandard erreicht wird aus dem offenen Meer gefischt. ▶ Aufgaben bewältigen, bei denen die Verbindung von Informationen verlangt ist, die über mehrere Abschnitte verteilt sind ▶ Aufgaben lösen, bei denen ein mehrfaches Durchsuchen von Texten nach einzelnen Informationen gefordert ist 400 Aufgabe: Bewerbung Wann fängt die Lehre an? zum Jahresbeginn zum Schuljahresende zum 1. August zum 1. September I Mindeststandard nicht erreicht ▶ einzelne Informationen im Text lokalisieren, vor allem dann, wenn sie auffällig platziert sind ▶ Aufgaben lösen, bei denen angesichts eines strukturell einfachen und kurzen Textes das Textthema identifiziert werden muss Abbildung 19.5 Kompetenzstufenmodell und illustrierende Aufgaben für den Mittleren Schulabschluss für den Bereich Lesen im Fach Deutsch (nach Bremerich-Vos et al., 2010). Die Zahlen in Klammern geben jeweils den Testwert an, den Jugendliche mindestens erzielen müssen, um eine bestimmte Kompetenzstufe zu erreichen. Die Metrik ist hier so bestimmt, dass ein Mittelwert von 500 der durchschnittlichen Leistung von Jugendlichen in der 9. Klassenstufe entspricht. Die Standardabweichung wurde auf 100 fixiert 19.1 Diagnostik 493 © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 minimum. Jugendliche, deren Leistungen auf der Kompetenzstufe III liegen, erreichen die Regelstandards der KMK, während die Leistungen von Jugendlichen auf den Kompetenzstufen IV oder V dem sog. Regelstandard plus bzw. dem Optimalstandard entsprechen (Bremerich-Vos et al., 2010). Ipsative Diagnostik. Bei der ipsativen Diagnostik werden die individuellen Testwerte derselben Person als Vergleichsmaßstab herangezogen, d. h., die Messung basiert auf einer (intra-)individuellen Bezugsnorm. Hierzu können (bei Verwendung desselben Instruments) die individuellen Testwerte über die Zeit hinweg zu einer Zeitreihe zusammengefügt werden, um die individuelle Entwicklung abzubilden. Diese Form der Prozessdiagnostik kommt v. a. bei der Anwendung von Modifikationsstrategien zum Tragen, da hier die Veränderung des Erlebens oder des Verhaltens einer Person über die Zeit im Mittelpunkt steht. Im Fall von Karl kann z. B. sein individueller Lernfortschritt erfasst werden, indem die Leseflüssigkeit bei wiederholter Vorgabe ähnlich schwieriger Texte gemessen wird. Eine verhaltensnahe ipsative Norm kann im Idealfall selbst geringfügige individuelle Entwicklungen abbilden, wohingegen sozialnorm- oder kriteriumsnormorientierte Ansätze meist deutlich weniger sensitiv gegenüber individuellen Veränderungen sind. Damit kann die Verwendung ipsativer Normen einen wesentlichen Beitrag zum Erfolg von Fördermaßnahmen leisten, da die Erfassung des Lernfortschritts ein wichtiger Bestandteil effektiver Förderstrategien ist. Ein zweites Einsatzgebiet von ipsativen Normen stellen Profilanalysen von Konstrukten dar, die mehrere Facetten umfassen. Hier werden die Ausprägungen auf einer Konstruktfacette (z. B. die Leseleistung bei kontinuierlichen Texten, wie etwa Kurzgeschichten) mit den Ausprägungen auf anderen Konstruktfacetten (z. B. die Leseleistung bei diskontinuierlichen Texten, wie etwa einem TV-Programmheft) verglichen. Solche Profilanalysen sind wiederum bei der Modifikationsdiagnostik wichtig, um die Fördermaßnahmen an das individuelle Leistungsprofil bestmöglich anzupassen. Des Weiteren spielen Profilanalysen im Kontext der Selektionsdiagnostik eine wichtige Rolle, etwa wenn es bei der Berufs- oder Studierendenberatung darum geht, Berufsausbildungen oder Studiengänge zu identifizieren, die an das Interessen- und Begabungsprofil der jeweiligen Person angepasst sind. Messfehler und Konfidenzintervall. Grundsätzlich ist davon auszugehen, dass Testwerte mit einem Messfehler 19 494 19 Diagnostik und Evaluation behaftet sind (vgl. unter »Reliabilität« in Abschn. 19.1.4). Ein Testwert für eine Person spiegelt nicht nur die individuelle Ausprägung des Zielkonstrukts (z. B. Leseverstehen oder Intelligenz) wider, sondern kann darüber hinaus auch durch das Wirken vielfältiger anderer Faktoren zustande gekommen sein (z. B. Flüchtigkeitsfehler, Unaufmerksamkeit, Verständnisschwierigkeiten in Bezug auf die Aufgabeninstruktionen, Unruhe im Untersuchungszimmer, körperliches Unwohlsein). Der Anteil am Testwert, der auf das Wirken solcher Störfaktoren zurückgeht, wird in psychometrischen Modellen allgemein mit dem Begriff »Messfehler« beschrieben. Um den Messfehler zu berücksichtigen, werden üblicherweise Konfidenzintervalle (»Vertrauensintervalle«) um den jeweiligen Testwert angegeben. Die Unter- und Obergrenzen für das Konfidenzintervall markieren dabei eine Spannbreite plausibler Werte für die Merkmalsausprägung einer Person (vgl. Cumming & Finch, 2005, für eine verständliche Erklärung der statistischen Bedeutung von Konfidenzintervallen). Die Berechnung der Konfidenzintervalle von (sozialnormorientierten) Testwerten Xi ist in Abbildung 19.1 e dargestellt (s. Fisseni, 1997, zur Berechnung des Konfidenzintervalls für kriteriumsnormorientierte Testwerte). Um den Messfehler zu quantifizieren, benötigt man Informationen zur Messgenauigkeit eines Testwerts. Diese lässt sich mithilfe von Reliabilitätsschätzungen bestimmen (s. Abschn. 19.1.4). Anhand des Testwerts einer Person und der Kenntnis der Reliabilität des verwendeten Testinstruments lässt sich dann das Konfidenzintervall berechnen. In der pädagogisch-psychologischen Diagnostik sind Konfidenzintervalle bei der Prüfung der zu untersuchenden diagnostischen Hypothesen wichtig. Dies wollen wir am Beispiel von Karl erläutern. Im Test zum Leseverstehen erzielte Karl einen T-Wert von 20 Punkten. Die Untergrenze für das 95%-Konfidenzintervall (bei SLesen = 10 und einer Reliabilität des Tests von rtt = 0,90) liegt bei p 20 – 1,96  10  (1 – 0,9) = 20 – 6,2 = 13,8. Die Obergrenze liegt bei 26,2. Dies bedeutet, dass die Werte 13,8 und 26,2 plausible Unter- und Obergrenzen für Karls »wahren« Wert im Leseverstehen markieren. Die Informationen zu Unter- und Obergrenzen des Konfidenzintervalls können dann formal z. B. so zusammengefasst werden: 95%-Konfidenzintervall im Lesetest = [13,8; 26,2]. Ein T-Wert von 20 entspricht in etwa einem Prozentrang von 0,1 % (s. Abb. 19.4). Selbst wenn Karls »wahrer« Wert im Leseverstehen an der Obergrenze des Konfidenz- © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 intervalls läge (also bei 26,2), würden die Testleistungen von über 98 % der Kinder in der Referenzgruppe über der Testleistung von Karl liegen. Dieses Ergebnis stützt die erste Hypothese, dass Karls Prozentrang im Leseverstehen bei höchstens 10 % liegt. Karls Leistung im Leseverstehen ist also als deutlich unterdurchschnittlich zu bewerten. Im Intelligenztest CPM (mit S = 15 und einer angenommenen Reliabilität von rtt = 0,90) erzielte Karl einen IQWert von 100. Die Untergrenze seines 95%-Konfidenzp intervalls liegt somit bei 100 – 1,96  15  (1 – 0,9) = 100 – 9,3 = 90,7 und die Obergrenze bei 109,3. Selbst die Untergrenze des Konfidenzintervalls von Karls IQ-Wert befindet sich somit klar über dem Grenzwert von 70, ab dem generell eine geistige Behinderung angenommen wird. Dieses Ergebnis stützt damit die zweite Hypothese, dass Karls IQ über 70 liegt. Treffen einer Entscheidung Im Beispiel von Karl legen die im vorherigen Abschnitt dargestellten Ergebnisse die Diagnose einer LRS nahe: Karls Intelligenz ist durchschnittlich, es liegt also keine geistige Behinderung vor, und seine Leseleistung liegt unter dem 10. Prozentrang. Zudem konnten – ohne dass dies hier dargestellt wurde – mögliche Alternativerklärungen, wie z. B. eine Sehstörung oder eine Konzentrationsstörung, ausgeschlossen werden. Hierbei ist es aber wichtig zu beachten, dass, selbst wenn (wie im Beispiel von Karl) die eingesetzten Messinstrumente relativ präzise sind, im Kontext pädagogisch-psychologischer Diagnostik immer die Möglichkeit einer Fehlentscheidung besteht (s. Kasten). Bei einer Entscheidung sind stets die Konsequenzen verschiedener Entscheidungsfehler gegeneinander abzuwägen: Welche Konsequenzen hätte es einerseits für Karl, wenn Sie eine LRS diagnostizierten, er aber in Wirklichkeit keine hat? Und welche Konsequenzen hätte es andererseits für Karl, wenn Sie keine LRS diagnostizierten, tatsächlich aber eine solche Schwäche vorliegt? Karls Leseleistungen sind deutlich unterdurchschnittlich. Daher überwiegt (unseres Erachtens) in diesem Fall der potenzielle Nutzen einer gezielten Förderung von Karls Leseverstehen die potenziellen Nachteile, die etwa aus einer möglichen Stigmatisierung durch die Diagnose einer LRS entstehen könnten. Unter der Lupe Wie Schwellenwerte bei einem Aufnahmetest diagnostische Entscheidungsfehler beeinflussen In vielen Ländern und mittlerweile auch an einigen 60 der maximal 100 erzielbaren Punkte erreicht. Somit deutschen Universitäten ist es Praxis, dass Studierende betreffen in Abbildung 19.6 a und 19.6 b die diagnosu. a. mithilfe eines Aufnahmetests ausgewählt werden. tischen Entscheidungsfehler jeweils zwei Felder: Der Aufnahmetest dient dazu, Studienbewerber zu " Personen in Feld FP sind »falsch positiv«, d. h., diese identifizieren, die mit großer Wahrscheinlichkeit das Personen werden zum Studium zugelassen, erreiStudium erfolgreich abschließen werden. Hierzu bechen aber nicht die erforderliche Mindestpunktzahl nötigt man einen Aufnahmetest, der eine möglichst zum erfolgreichen Abschluss des Studiums. gute Vorhersage der Abschlussleistung ermöglicht. Im " Personen in Feld FN sind »falsch negativ«, d. h., (hier stark vereinfachten) Beispiel betrachten wir eine diese Personen werden nicht zum Studium zugelasSelektionsstrategie, in der zur Studierendenauswahl sen, hätten aber (sofern sie zugelassen würden) die nur ein Test eingesetzt wird, der mit der Abschlusserforderliche Mindestpunktzahl zum Abschluss des leistung mit r = 0,70 korreliert. Studiums erreicht. Nachfolgend erklären wir anhand von Abbildung Die beiden Auswahlverfahren mit jeweils 300 Pro19.6, wie Entscheidungsfehler und die verwendeten banden, die in Abbildung 19.6 dargestellt sind, unterSchwellenwerte zusammenhängen. Entscheidend für scheiden sich im Schwellenwert, der zur Zulassung die Zulassung zum Studium ist, dass eine Person eine herangezogen wird. Dies hat zur Folge, dass bei bestimmte Mindestpunktzahl im Aufnahmetest (von einem Schwellenwert von 50 der Anteil von FP bei maximal 100 erreichbaren Punkten) erzielen muss. 87/300 = 29 % und der Anteil von FN bei 13/300 = Diese Mindestpunktzahl definiert den Schwellenwert. 4 % liegt (s. Abb. 19.6 a). Bei einem Schwellenwert Die Abschlussleistung wird im Beispiel als Summe von 70 liegt der Anteil von FP deutlich niedriger, und über 10 Einzelprüfungsleistungen berechnet, in denen zwar bei 17/300 = 6 %, jedoch steigt gleichzeitig der jeweils maximal 10 Punkte erreicht werden können. Anteil von FN auf 43/300 = 14 % (s. Abb. 19.6 b). Je Das Studium gilt als bestanden, wenn man mindestens restriktiver die Auswahl erfolgt, desto höher ist " 19.1 Diagnostik 495 © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 zwangsläufig die Quote der zu Unrecht Zurückgewiesenen. Die Zahl der falsch Positiven sinkt also auf Kosten der falsch Negativen. Anders herum gilt auch, dass die Zahl der falsch Positiven steigt, wenn die Zahl der falsch Negativen sinkt. Abbildung 19.6 verdeutlicht, dass im Idealfall zur Bewertung von diagnostischen Selektionsentscheidungen beide Fehlerarten herangezogen werden sollten. Jedoch liegen bei realen selektiven Entscheidungen in pädagogischen Kontexten häufig nicht genügend Informationen vor, um das Ausmaß beider Fehlentscheidungen abschätzen zu können. Da beispielsweise beim Entwicklungsprozess des Selektionsa Schwellenwert = 50 FN (13) b 80 60 40 20 0 100 RP (74) Abschlussleistung Abschlussleistung 100 verfahrens in der Regel nicht alle Personen, die sich um einen Studienplatz beworben haben, zugelassen werden, weiß man nicht, wer unter den abgewiesenen Bewerbern erfolgreich gewesen wäre. In diesem Fall kennt man nur die Gesamtanzahl der abgelehnten Personen, nicht aber die Anzahl der Personen in den Feldern RN bzw. FN. In solchen Fällen kann die Qualität des Selektionsverfahrens lediglich anhand der zu Unrecht Aufgenommenen (Feld FP) bestimmt werden. Jedoch ist eine solche Art der Qualitätsbeurteilung irreführend, da die Fehlerrate der falsch negativen Entscheidungen unbekannt ist. RN (126) 0 20 FP (87) 40 60 Aufnahmetest 80 FN (43) RP (44) RN (176) FP (17) 80 60 40 20 0 0 100 Schwellenwert = 70 20 40 60 Aufnahmetest 80 100 Abbildung 19.6 Zusammenhang zwischen den Anteilen von richtigen bzw. falschen Diagnoseentscheidungen und Schwellenwerten am Beispiel einer Studienzulassungsentscheidung über 300 Personen. RP = richtig positiv; FP = falsch positiv; RN = richtig negativ; FN = falsch negativ. In beiden Teilabbildungen korreliert die Leistung im Aufnahmetest mit der Abschlussleistung mit r = 0,70. Die Zahlen in Klammern geben die Anzahl der Personen in den jeweiligen Fallgruppen an. Der Schwellenwert ist jeweils rot dargestellt Anfertigung eines Gutachtens Die Entscheidung bzw. Empfehlung für eine Entscheidung wird häufig in Form schriftlicher Gutachten festgehalten. Diese folgen in der Regel einer Gliederung, die sich am diagnostischen Prozess orientiert. Bei der Formulierung des Gutachtens sind einige Qualitätsmerkmale zu beachten, zu denen insbesondere die folgenden gehören (Fisseni, 1997; Kubinger, 2009): " Erklärung von Fachbegriffen (z. B. LRS), wenn davon auszugehen ist, dass einige Empfänger des Gutachtens keine psychologische Ausbildung haben 19 496 19 Diagnostik und Evaluation konkrete Darstellung der diagnostischen Fragestellung und der Untersuchungszeitpunkte " vollständige Auflistung der verwendeten Instrumente und Methoden " klare Trennung zwischen Ergebnissen und Interpretation von Ergebnissen " thematische Integration der verschiedenen Testwerte mit Bezug auf die Fragestellung Viele ausführliche Beispiele und Empfehlungen für das Verfassen psychologischer Gutachten finden sich in Kubinger (2009) und Fisseni (1997). " © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 19.1.4 Gütekriterien von Testwerten und Auswahlkriterien von diagnostischen Instrumenten Zur Erfassung von Konstrukten steht häufig eine Vielzahl von alternativen Messinstrumenten zur Verfügung. Einen guten Überblick über die im deutschsprachigen Markt verfügbaren Instrumente geben das »Brickenkamp Handbuch psychologischer und pädagogischer Tests« (Brähler, Holling, Leutner & Petermann, 2002), die elektronische Datenbank »PSYNDEXplus Tests« sowie die Reihen »Deutsche Schultests« und »Tests und Trends: Jahrbuch der pädagogisch-psychologischen Diagnostik« (Hasselhorn & Gold, 2009). Um ein Instrument auszuwählen, ist es erforderlich, die Gütekriterien der Testwerte zu bewerten, die mit dem Instrument erhoben werden (American Educational Research Association et al., 1999; Testkuratorium, 2010). Die zentralen Gütekriterien von Testwerten sind: Objektivität, Reliabilität und Validität. Zusätzlich ist im Rahmen pädagogisch-psychologischer Diagnostik auch die Qualität der Normen sehr wichtig. Professionell entwickelte Instrumente zeichnen sich dadurch aus, dass die Informationen zur Beurteilung von Testwerten detailliert im Manual des Instruments dokumentiert sind. Wegweisend für die Auswahl eines Instruments können darüber hinaus auch die in Fachzeitschriften veröffentlichten Testkritiken sein (Testkuratorium, 2010). Objektivität Fallen die Testwerte einer Testanwendung immer gleich aus, egal wer den Test (a) durchführt, (b) auswertet und (c) interpretiert? Ist die Antwort auf diese Teilfragen jeweils »ja«, dann sind Durchführungs-, Auswertungsund Interpretationsobjektivität für die Testwerte gegeben. Um die Objektivität der Testwerte zu gewährleisten, müssen die Anwendungsbedingungen für die Durchführung, Auswertung und Interpretation stan- dardisiert werden. Hierfür sollte das Manual u. a. auf die folgenden Aspekte eingehen (Testkuratorium, 2010): " Es sollte vorschreiben, was die durchführende Person als Testinstruktion wortwörtlich sagen soll und was sie auf keinen Fall sagen sollte, welche Handlungen zu vollziehen sind (z. B. für eine ruhige und ungestörte Durchführung des Tests sorgen) und welche Antworten auf Rückfragen oder bei Unklarheiten gegeben werden sollen. " Es sollte definieren, wie fehlende Antworten auf Testfragen zu kodieren sind und wie viele gültige Antworten vorliegen müssen, damit eine Interpretation der Testwerte überhaupt sinnvoll ist. Einige diagnostische Instrumente erfordern spezifische Vorkenntnisse und Erfahrungen, um das Instrument fachgerecht einzusetzen, auszuwerten und die gewonnenen Testwerte zu interpretieren. In diesen Fällen ist es erforderlich, Anwender anhand des Manuals zu schulen. Reliabilität Wie messgenau erfassen die Testwerte das Zielkonstrukt? Die Frage nach der Messpräzision betrifft die Reliabilität (oder Zuverlässigkeit) von Testwerten (Brunner, Nagy & Wilhelm, 2012). Für die Bestimmung der Reliabilität stehen verschiedene methodische Zugänge zur Verfügung (s. Kasten), die darauf abzielen, die Messfehler der Testwerte zu schätzen. Die Grundidee ist, dass das jeweilige Konstrukt mehrfach (wiederholt mit demselben Instrument, mit parallelen Fassungen des Instruments etc.) gemessen wird. Sind die Testwerte präzise, so sollten Personen, die in der einen Messung hohe Werte erzielt haben, auch in der anderen Messung hohe Werte erzielen. Die Korrelation zwischen den Messwerten sollte also hoch sein. Abweichungen von einem perfekten Zusammenhang werden als Messfehler bewertet. Übersicht Methoden zur Reliabilitätsbestimmung Zur Bestimmung der Reliabilität stehen mehrere »klassische«, aber auch moderne Methoden zur Verfügung: " Retest-Methode: Dabei wird dasselbe Instrument bei derselben Personenstichprobe zweimal eingesetzt. Die Korrelation der Testwerte zwischen erstem und zweitem Messzeitpunkt ist ein Maß der Messgenauigkeit des Instruments. Die Wahl des Zeitintervalls zwischen den beiden Messzeitpunkten sollte von Annahmen zur zeitlichen Stabilität des Konstrukts abhängig gemacht werden: Je stabiler das Konstrukt ist, desto länger kann das Zeitintervall gewählt werden (Schermelleh-Engel & Werner, 2012). " 19.1 Diagnostik 497 © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 " " " " Paralleltest-Methode: Dabei werden zwei nach den gleichen Kriterien konstruierte Tests in derselben Personenstichprobe eingesetzt. In diesem Fall ist die Korrelation zwischen den Testwerten der beiden Paralleltests das Maß für die Messgenauigkeit des Instruments. Testhalbierungs-Methode: Dabei werden die einzelnen Indikatoren eines Messinstruments (z. B. die Testaufgaben eines Lesetests) per Zufall in zwei Hälften eingeteilt und für jede Hälfte jeweils ein Testwert berechnet. Das Maß für die Messgenauigkeit des Instruments ist die Korrelation dieser beiden Testwerte. Interne Konsistenz: Reliabilitätskoeffizienten zur Bestimmung der internen Konsistenz basieren auf den Interkorrelationen zwischen den Werten aller Einzelindikatoren (z. B. Aufgaben eines Lesetests) untereinander. Das am häufigsten eingesetzte Maß zur Bestimmung der internen Konsistenz ist Cronbachs Alpha (Schmitt, 1996). Faktoranalytische Modelle: Über die vier bereits genannten »klassischen« Verfahren zur Bestim- Auswahlkriterien des Reliabilitätskoeffizienten. Welchen Reliabilitätskoeffizienten soll man nun zur Bewertung der Messpräzision von Testwerten heranziehen? Die Retest-Reliabilität ist insbesondere dann relevant, wenn die zeitliche Stabilität einer Eigenschaft für das jeweilige Entscheidungsproblem eine wichtige Rolle spielt (z. B. bei Selektionsstrategien). Wenn hingegen die zeitliche Stabilität weniger wichtig ist, sind die anderen Reliabilitätskoeffizienten vorzuziehen, da diese eine Aussage über die Messgenauigkeit der Testwerte für einen bestimmten Zeitpunkt machen. Beispielsweise ist die zeitliche Stabilität von Testwerten zur Bestimmung der Lesekompetenz von nachrangiger Bedeutung, wenn Veränderungen des Leseverstehens von Karl im Laufe einer Fördermaßnahme erfasst werden sollen. Bewertung der Reliabilitätskoeffizienten. Unabhängig von der Methode der Reliabilitätsbestimmung können Reliabilitätskoeffizienten Werte zwischen 0 (keine Reliabilität) und 1 (perfekte Reliabilität) annehmen. Wie wir oben bereits dargestellt haben, ist die Reliabilität der Testwerte als Maß der Messgenauigkeit ein wichtiger Faktor, der die Breite der Konfidenzintervalle um gemessene Testwerte und damit die Sicherheit der Prüfung diagnostischer Hypothesen beeinflusst. In diesem 19 498 19 Diagnostik und Evaluation " mung der Reliabilität hinaus wurden in jüngerer Zeit Reliabilitätskoeffizienten entwickelt, die auf faktoranalytischen Modellen basieren (z. B. Omega; s. McDonald, 1999). Ihr besonderer Mehrwert liegt darin, dass sie explizit die hierarchische Struktur des Zielkonstrukts bei der Berechnung der Reliabilität berücksichtigen können (Brunner et al., 2012). So kann beispielsweise untersucht werden, wie messgenau Testwerte Intelligenz auf einem übergeordneten Niveau (allgemeine Intelligenz) und auf dem Niveau untergeordneter, spezifischerer Facetten wie schlussfolgerndes Denken erfassen. Modelle der Item-Response-Theorie: Weiterhin sind die statistischen Modelle der Item-ResponseTheorie (IRT) interessant, da diese es ermöglichen, die Messgenauigkeit eines Instruments in Abhängigkeit von der Ausprägung der Testwerte zu berechnen (McDonald, 1999; Rost, 2004). Damit lässt sich beispielsweise bestimmen, ob das Instrument sehr schwache und sehr gute Leistungen ebenso präzise erfasst wie Leistungen im mittleren Bereich. Zusammenhang stellt sich die Frage, was ein guter Wert für die Reliabilität von Testwerten ist. Generell ist es bei der Beantwortung dieser Frage wichtig, zwei Aspekte zu beachten (vgl. Testkuratorium, 2010): " den Anwendungskontext des Tests und " die Referenzpopulation, für die der Reliabilitätskoeffizient bestimmt wurde. Reliabilitätskoeffizienten können auf einen aktuellen Anwendungskontext generalisiert werden, (1) wenn der vorliegende Anwendungskontext mit dem bei der Konstruktion des Tests ins Auge gefassten Anwendungskontext möglichst übereinstimmt und (2) wenn die zu untersuchende Person Teil derjenigen Referenzpopulation ist, für welche die Reliabilitätsschätzung des Messverfahrens ursprünglich erfolgte. Sind diese Bedingungen (weitgehend) erfüllt, so werden bei Verwendung von Testwerten im Kontext von individualdiagnostischen Entscheidungsproblemen mit weitreichenden individuellen Konsequenzen (z. B. die Diagnose einer LRS) häufig die folgenden Bewertungskonventionen herangezogen: Reliabilitäten größer 0,90 gelten als gut, Werte zwischen 0,80 und 0,90 als ausreichend und Werte kleiner 0,80 als unzureichend (Evers, 2001). Hiervon abzugrenzen ist der Forschungskontext, in dem © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 auch niedrigere Reliabilitätswerte von Testwerten akzeptabel sein können, wenn das Instrument z. B. nur für Aussagen auf Gruppenebene verwendet werden soll (für eine ausführlichere Diskussion s. Schermelleh-Engel & Werner, 2012; Schmitt, 1996). Validität Messen die Testwerte das Konstrukt, das sie messen sollen? Diese fundamentale Frage zur Validität von Testwerten stellt sich, da die individuelle Konstruktausprägung nicht direkt beobachtbar ist, sondern (indirekt) anhand von Testwerten abgebildet wird (s. o.). Um zu beurteilen, wie gut diese Abbildung mit einem bestimmten Instrument gelingt, muss die Validität von Testwerten analysiert werden. Da die Testwerte die empirische Grundlage bei der diagnostischen Entscheidungsfindung bilden, schließt sich eine zweite, praxisorientierte Frage zur Validität von Testwerten an: Inwieweit stützen Theorie und empirische Befunde die Interpretation von Testwerten im Hinblick auf die vorgesehene Testanwendung? Zur Beantwortung beider Fragen sollten systematisch verschiedene Formen empirischer Evidenz herangezogen werden (American Educational Research Association et al., 1999). Hierzu gehört die Analyse " der Inhaltsvalidität, " von Antwortprozessen, " der internen Struktur sowie " von konvergenten und diskriminanten Zusammenhängen. Inhaltsvalidität. Bei der Inhaltsvalidität geht es darum, ob die einzelnen Indikatoren (Testaufgaben, Fragen im Fragebogen u. Ä.), die zu einem Testwert zusammengefasst werden, das jeweilige Zielkonstrukt repräsentativ abbilden. Die inhaltliche Validität wird häufig anhand von Experteneinschätzungen überprüft. Es wird beurteilt, inwieweit die Indikatoren das definierte Konstrukt inhaltlich und in seiner Breite und Struktur angemessen abdecken. Hierbei ist insbesondere auch darauf zu achten, dass Konstruktfacetten, die zentral für die Definition des Konstrukts sind, durch eine größere Anzahl von Indikatoren abgebildet werden (Haynes, Richard & Kubany, 1995), wie etwa bei einem Lesekompetenztest verschiedene Ziele des Lesens (z. B. Heraussuchen von Informationen, textimmanente Interpretation, Reflexion und Bewertung) in Bezug auf verschiedene Textsorten (Artelt, Stanat, Schneider & Schiefele, 2001). Ein üblicherweise verwendeter Indikator und Gradmesser für die inhaltliche Validität stellt die Übereinstimmung der Expertenurteile dar (s. Wirtz & Caspar, 2002, zu Methoden zur Bestimmung der Beurteilerübereinstimmung). Antwortprozesse. Die Analyse individueller Antwortprozesse untersucht die Passung zwischen Zielkonstrukt und den (kognitiven) Prozessen, die Personen bei der Bearbeitung des diagnostischen Instruments tatsächlich zeigen. Zur Erfassung der Bearbeitungsprozesse können vielfältige Methoden herangezogen werden. Neben »klassischen Methoden«, wie etwa dem lauten Denken, sind insbesondere technologiegestützte Verfahren (z. B. Erfassung des Leseverstehens am Computer) sehr vielversprechend. Denn mit solchen Verfahren können detailgenaue Bearbeitungsprotokolle aufgezeichnet werden. Die Abfolge und Dauer der Bearbeitungsschritte dienen dabei als Indikatoren für individuelle Antwortprozesse beim Lösen von Testaufgaben (für Leseaufgaben vgl. z. B. Organisation for Economic Co-operation and Development [OECD], 2011). Interne Struktur. Die Analyse der internen Struktur eines Instruments beschäftigt sich mit dem Zusammenhangsmuster zwischen den Konstruktindikatoren. Es wird der Frage nachgegangen, ob das empirisch vorgefundene Zusammenhangsmuster die angenommene Unterscheidung von Facetten oder die angenommene hierarchische Struktur des Konstrukts stützt. So wird beispielsweise im Rahmen von PISA zwischen Lesekompetenz bei verschiedenen Textformaten unterschieden (OECD, 2010). Ein sehr wichtiges Unterscheidungsmerkmal ist hierbei, ob es sich um kontinuierliche Texte (z. B. Erzählungen) oder um nicht-kontinuierliche Texte (z. B. Zeitungsartikel, die Texte und Bilder oder Tabellen enthalten) handelt. Statistische Methoden zur Prüfung von Konstruktstrukturen sind fortgeschrittene multivariate statistische Verfahren, wie etwa die exploratorische und die konfirmatorische Faktorenanalyse (McDonald, 1999), Modelle der Item-Response-Theorie sowie Mischverteilungsmodelle (z. B. Rost, 2004). Konvergente und diskriminante Validität. Bei Analysen konvergenter und diskriminanter Validität werden Zusammenhangsmuster zwischen den Testwerten des zu validierenden Instruments mit externen Kriterien untersucht. Zu diesen Kriterien gehören Messwerte, die mit anderen Testinstrumenten gewonnen werden, aber auch einschlägige Verhaltensmaße und vielfältige andere praktisch relevante Indikatoren (z. B. Bildungszertifikate wie das Abitur oder Studienabschlüsse, Urteile 19.1 Diagnostik 499 © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 von Lehrkräften oder Eltern, Vorgesetztenurteile). Konvergente Validität lässt sich dadurch belegen, dass die Testwerte substanziell mit Indikatoren für dasselbe oder ein eng verwandtes Konstrukt bzw. inhaltlich relevanten Indikatoren zusammenhängen, etwa wenn die Leistungen in einem Lesetest mit den Noten im Fach Deutsch oder Lehrereinschätzungen der Lesekompetenz korrelieren. Diskriminante Validität bedeutet, dass keine oder nur geringe Zusammenhänge zu inhaltlich nicht oder nur entfernt verwandten Indikatoren bestehen, etwa wenn die Korrelation zwischen der Leistung in einem Lesetest und der Sportnote gering ist oder um 0 liegt. Bei Fragen zur konvergenten Validität von Testwerten trifft man in der Fachliteratur häufig auf zwei weitere verwandte Begriffe: " Kriteriumsvalidität: Handelt es sich bei Befunden zur konvergenten Validität um Zusammenhänge mit praktisch relevanten Kriterien (z. B. den oben genannten Indikatoren), dann bezeichnet man dies häufig auch als Nachweis der Kriteriumsvalidität der Testwerte. " Prognostische Validität: Wenn Testwerte ein Kriterium vorhersagen können, das zeitlich später auftritt bzw. erfasst wird, wird dies auch als Nachweis für deren prognostische Validität betrachtet, etwa wenn die Leistungen 15-jähriger Schüler mit ihren später erworbenen Berufsabschlüssen korrelieren. 19 500 Normen und Schwellenwerte Wie sind die resultierenden Testwerte zu beurteilen? Wie oben beschrieben, können zur Beantwortung dieser Frage Testwerte einer Person (a) in Bezug zur Verteilung der Testwerte in einer Referenzgruppe (soziale Bezugsnorm) oder (b) in Bezug zu einem definierten Kriterium (kriteriale Bezugsnorm) gesetzt werden. Welche Qualitätskriterien sind hier zu beachten? Bei der sozialnormorientierten Diagnostik sind die Aktualität, Repräsentativität und Größe der Vergleichsstichprobe, anhand derer die Normwerte bestimmt wurden, von zentraler Bedeutung (Testkuratorium, 2010). Darüber hinaus gilt es zu beurteilen, wie genau die Population definiert wurde und wie die Stichprobe gezogen wurde, um diese Population abzubilden. Bei der kriteriumsnormorientierten Diagnostik spielt die Validität der Schwellenwerte eine wichtige Rolle, weil diese Auskunft darüber geben, ob eine Person ein bestimmtes (Lernziel-)Kriterium erfüllt oder nicht und daraus ggf. handlungsrelevante Schlussfolgerungen gezogen werden können (z. B. 19 Diagnostik und Evaluation Sprachförderbedarf). Wichtig ist hierbei, dass der Prozess der Schwellenwertbestimmung hinreichend wissenschaftlich abgesichert und dokumentiert ist (z. B. durch Anwendung einer etablierten Standardsetting-Prozedur; s. hierzu Pant et al., 2010) und die Schwellenwerte durch ausgewiesene Experten bestimmt wurden. 19.1.5 Diagnostik im schulischen Alltag von Lehrkräften Die bislang diskutierten Konzepte, Begriffe und Methoden der pädagogisch-psychologischen Diagnostik sind allgemein anwendbar. Insbesondere die Konzepte und Begriffe sind auch auf den schulischen Alltag von Lehrkräften anwendbar, der in vielerlei Hinsicht durch diagnostische Aufgaben geprägt ist. Das methodische Vorgehen lässt sich jedoch nur sehr eingeschränkt auf den schulischen Alltag übertragen. Diagnose von Lernausgangslagen und Lernfortschritt. Eine wichtige diagnostische Aufgabe von Lehrkräften ist die Erfassung von Lernausgangslagen (z. B. Vorwissen oder Interesse) und des Lernfortschritts einzelner Schüler. Diese Arten der Diagnostik bilden wichtige Komponenten im Handeln von Lehrkräften, um die Unterrichtsanforderungen optimal an die Lernausgangslagen der Schüler anzupassen und so deren Lernfortschritt effektiv zu unterstützen (Helmke, 2006). Viele Studien haben gezeigt, dass Lehrkräfte generell sehr gut darin sind, die Schüler in ihren Klassen in eine Leistungsrangreihe zu bringen (Südkamp, Kaiser & Möller, 2012). Sie haben aber häufig große Probleme, das Leistungsniveau ihrer Klasse genau einzuschätzen (Artelt et al., 2001; Brunner, Anders, Hachfeld & Krauss, 2011). Deshalb fällt es ihnen auch schwer, das absolute Leistungsniveau von einzelnen Schülern exakt zu beurteilen. Bewertung durch Schulnoten. Eine zweite wichtige diagnostische Aufgabe von Lehrkräften ist die Bewertung von Schülerleistungen anhand von Noten. Schulnoten sind wichtig für die Bildungskarriere und damit den Lebensweg der Schüler, denn sie bilden die Grundlage von Empfehlungen für weiterführende Schulformen. Weiterhin sind Noten entscheidend für das Erreichen von Schulabschlüssen und erlauben oder verwehren somit den Zugang zu bestimmten Berufen oder Studiengängen. Die Notengebung sollte auf einem Vergleich der Schülerleistung mit einem Leistungsmaßstab basieren bzw. die Passung zwischen Leistung und Anforderungen abbilden. © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 Allerdings sind die Leistungsmaßstäbe und Anforderungen (z. B. in den Lehrplänen), mit denen individuelle Leistungen verglichen werden, in aller Regel nicht genau genug definiert. Dies macht es für die Lehrkräfte besonders schwierig, die individuellen Leistungen ihrer Schüler sachgerecht (»kriterial«) zu beurteilen. Daraus folgt fast zwangsläufig, dass Lehrkräfte sich (zumindest zu einem gewissen Maß) darin unterscheiden, wie sie die »Anforderungen« im Unterricht und damit bei der Notenvergabe definieren. Zum anderen ist es empirisch gut gesichert, dass sich Lehrkräfte auch darin unterscheiden, in welchem Ausmaß sie bei der Notenvergabe die Leistung in Bezug setzen (a) zur Leistung der anderen Schüler im Klassenverband (soziale Bezugsnorm) oder (b) zur individuellen Leistungsentwicklung einer Schülerin oder eines Schülers (individuelle Bezugsnorm). Dementsprechend sind die empirischen Befunde zur Objektivität von Schulnoten ernüchternd. Beispielsweise zeigte eine Untersuchung mit den Daten aus PISA-2000, dass Jugendliche mit ähnlichen Mathematikleistungen im PISA-Test im selben Bundesland an unterschiedlichen Gymnasien sehr unterschiedliche Mathematiknoten erhielten (Baumert, Trautwein & Artelt, 2003). Ebenso ergaben zahlreiche Studien, dass dieselbe Schülerarbeit (z. B. ein Aufsatz oder eine Mathematikarbeit) von unterschiedlichen Lehrkräften oft sehr unterschiedlich benotet wird und dass selbst ein und dieselbe Lehrkraft bei wiederholter Benotung derselben Schülerarbeit häufig nicht mit ihren früheren Benotungen übereinstimmt (zsf. Ingenkamp & Lissmann, 2008). Trotz dieser Mängel konnte in vielen empirischen Studien auch gezeigt werden, dass Abschlussnoten weiterführende Studien- oder Ausbildungserfolge in substanziellem Maße vorhersagen können (Richardson, Abraham & Bond, 2012; Trapmann, Hell, Weigand & Schuler, 2007). Dieser breiten Befundlage zufolge weist also die schulische Leistungsbewertung konvergente, prognostische Validität in Bezug auf spätere Bildungserfolge auf. Bildungsstandards zur Qualitätssicherung schulischer Diagnostik. Die professionelle Entwicklung von diagnostischen Instrumenten, wie auch professionelle Diagnostik selbst, ist mit einem hohen zeitlichen, finanziellen und personellen Aufwand verbunden. Zudem macht die Diagnostik zwar einen wichtigen, aber eben doch nur einen Teil der vielfältigen Arbeit von Lehrkräften aus. Daher ist klar, dass von Lehrkräften entwickelte Verfahren der Leistungsüberprüfung (z. B. Klassenarbeiten) und ihre diagnostischen Urteile nicht in vollem Umfang dem Anspruch an professionelle Diagnostik gerecht werden können. Verschiedene Befunde zur Güte von Diagnosen im schulischen Alltag durch Lehrkräfte weisen darauf hin, dass die Güte dieser Urteile oft eingeschränkt ist, was vor dem Hintergrund der oft weitreichenden Konsequenzen für das spätere Leben von Schülern ein Problem darstellt (vgl. Ingenkamp & Lissmann, 2008). Dies ist ein Grund dafür, dass in Deutschland Bildungsstandards eingeführt wurden. Sie sollen dazu beitragen, die diagnostische Kompetenz von Lehrkräften zu verbessern. Bildungsstandards definieren die inhaltlichen Anforderungen in verschiedenen Schulfächern und Kompetenzbereichen (vgl. Abb. 19.5) und konkretisieren diese Anforderungen durch zahlreiche Aufgabenbeispiele und Unterrichtsmaterialien. Zudem erhalten Lehrkräfte für Schüler der 3. und 8. Jahrgangsstufe jährlich Rückmeldungen aus landesweiten Lernstandserhebungen bzw. Vergleichsarbeiten, die auf den Bildungsstandards basieren (Pant, Emmrich, Harych & Kuhl, 2011; s. Abschn. 19.2.1). Diese informieren die Lehrkräfte über die Leistungen ihrer Schüler (z. B. in Form von erreichten Kompetenzstufen) wie auch über den relativen Leistungsstand ihrer Klassen im Vergleich zu anderen Klassen (z. B. Klassen derselben Schule oder allen Klassen derselben Schulart im Land). Auf dieser Datengrundlage können Lehrkräfte ihre klassenspezifischen Leistungsniveaus mit den Anforderungen der Bildungsstandards abgleichen, die Leistungserwartungen mit Kollegen an ihren Schulen abstimmen und Förderbedarf für ihre Klasse identifizieren. Als weitere Maßnahme zur Qualitätssicherung der Diagnostik durch Lehrkräfte wurden in vielen Bundesländern Konzepte und Methoden pädagogisch-psychologischer Diagnostik als feste Bestandteile in die Lehreraus- und -fortbildung integriert. Hierzu gehört v. a. die Vermittlung methodischer Kenntnisse darüber, wie man Klassenarbeiten konstruiert oder mündliche Prüfungen durchführt, um die Objektivität, Reliabilität und Validität daraus resultierender Messwerte zu verbessern. Informationen hierzu finden sich auch auf den Internetseiten des Projekts UDiKom (www.kmk-udikom.de), das von der KMK gefördert wurde. 19.1 Diagnostik 501 © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 19.2 Evaluation 19.2.1 Begriffe, Funktionen und Beispiele Im allgemeinen Sprachgebrauch bezeichnet der Begriff Evaluation eine »Beurteilung« oder »Bewertung«. Diese Bewertungen zielen nach Kuper (2005) darauf ab, anwendungsbezogene Entscheidungen zu treffen (vgl. Sechrest & Figuerado, 1993). Gegenstand von pädagogisch-psychologischen Evaluationen sind z. B. Interventionsprogramme (s. Abschn. 20.2.2) sowie größere organisatorische Einheiten wie einzelne Schulen, Schularten oder ganze Bildungssysteme, die im Hinblick auf ihre Input-, Prozess- oder Ergebnisqualität beurteilt werden. Die Evaluation von Bildungssystemen im Rahmen großer internationaler Schulleistungsstudien wie PISA, TIMSS (Trends in International Mathematics and Science Study) und IGLU (Internationale GrundschulLese-Untersuchung) sowie im Rahmen des Ländervergleichs zur Überprüfung des Erreichens der Bildungsstandards durch das Institut zur Qualitätsentwicklung im Bildungswesen (IQB) wird auch Bildungsmonitoring genannt (s. u.). Am Ende dieses Abschnitts erläutern wir zentrale Konzepte und Methoden der Evaluation im pädagogischen Kontext am Beispiel einer Evaluation von Maßnahmen zur Leseförderung (s. Kasten). Die auf der Basis von Evaluationen getroffenen Entscheidungen sollen dazu beitragen, die Qualität von pädagogischen Maßnahmen, Einrichtungen oder Bildungssystemen zu sichern oder zu verbessern. Die Entscheidungen haben eine normative Komponente, eine technologische Komponente oder beides (Kuper, 2005). Die normative Komponente betrifft die Bewertung, inwieweit eine bestimmte pädagogische Intervention, eine pädagogische Einrichtung oder ein Bildungssystem vorgegebene Zielkriterien erreicht. Die technologische Komponente hingegen bewertet alternative pädagogische Einrichtungen oder Maßnahmen im Hinblick darauf, inwieweit sie diese Zielkriterien in unterschiedlichem Ausmaß erreichen. Zentral für Evaluationen im pädagogischen Kontext ist dabei die Anwendung sozialwissenschaftlicher Methoden, um die Entscheidungen evidenzbasiert zu treffen, d. h. auf der Grundlage von Analysen empirischer Daten (Kuper, 2005). Empirische Daten können mithilfe von qualitativen oder quantitativen Methoden oder auch durch Kombination beider Methoden gewonnen werden (Mayring, 2002; Sechrest & Figuerado, 1993, vgl. Abschn. 4.1.2). Dieser Beitrag fokussiert auf Evaluationen, die auf quan- 19 502 19 Diagnostik und Evaluation titativen Methoden beruhen. Ausgehend von diesen Bestimmungsstücken kann pädagogisch-psychologische Evaluation wie folgt definiert werden. Definition Evaluationen im pädagogischen Kontext zielen darauf ab, pädagogische Maßnahmen oder Prozesse, Einrichtungen oder Systeme im Bildungswesen zu bewerten. Diese Bewertung dient dazu, evidenzbasierte Entscheidungen zu treffen, um die Qualität im Bildungswesen zu sichern und zu verbessern. Als Entscheidungsgrundlage werden empirische Daten herangezogen, die mit sozialwissenschaftlichen Methoden gewonnen und ausgewertet werden. Bildungsmonitoring und Qualitätssicherung im Bildungswesen Input- vs. Output-orientierte Steuerung des Bildungswesens. Mit den internationalen Schulleistungsstudien wie TIMSS und v. a. PISA wurde in Deutschland eine grundsätzliche Wende der Steuerung des Bildungswesens durch Bildungspolitik und Bildungsverwaltung eingeleitet (Klieme et al., 2007). Vor Durchführung dieser Studien erfolgte Steuerung primär über den Input, der solche Elemente wie Lehrpläne und Ausbildungsbestimmungen für Lehrpersonen oder Prüfungsregelungen umfasst. Bei einer solchen Input-orientierten Steuerung sind der Anteil der Bildungsausgaben am Bruttosozialprodukt, die Größe von Schulklassen oder die Anzahl qualifizierter Lehrpersonen wichtige Qualitätskriterien für die Evaluation des Bildungssystems. Eine Output-orientierte Steuerung des Bildungswesens stellt hingegen die Erträge von Bildungsprozessen stärker in den Vordergrund. Bei diesem Ansatz bemisst sich die Qualität eines Bildungssystems v. a. daran, inwieweit Schüler fachspezifische und fächerübergreifende Kompetenzen, motivationale Orientierungen, Werthaltungen und persönliche Eigenschaften erworben haben, die wichtig für lebenslanges Lernen sowie die erfolgreiche Beteiligung in der Berufswelt und an einer demokratischen Gesellschaft sind (Klieme et al., 2007). Steuerung, die sich am Output orientiert, benötigt regelmäßige Rückmeldungen darüber, inwieweit die angestrebten Ziele erreicht werden. Gesamtstrategie zum Bildungsmonitoring. Um die Datengrundlage für solche Rückmeldungen zu schaffen, © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 hat die KMK eine Gesamtstrategie zum Bildungsmonitoring verabschiedet, die vier Säulen umfasst (Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland [KMK], 2006): (1) internationale Schulleistungsstudien (PISA, IGLU, TIMSS), (2) zentrale Überprüfungen des Erreichens der Bildungsstandards im Ländervergleich, (3) auf den Bildungsstandards beruhende flächendeckende Vergleichsarbeiten (VERA) zur Überprüfung der Leistungsfähigkeit aller Klassen und Schulen in der 3. Jahrgangsstufe (VERA 3) und in der 8. Jahrgangsstufe (VERA 8) sowie (4) gemeinsame Bildungsberichterstattung von Bund und Ländern (Autorengruppe Bildungsberichterstattung, 2012). Die Analysen dieser Datenquellen liefern kontinuierlich, aus unterschiedlichen Perspektiven und auf unterschiedlichen Ebenen Informationen über Bildungsprozesse und Bildungserträge sowie deren Rahmenbedingungen. Schulleistungsstudien. So bieten die internationalen und nationalen Schulleistungsstudien eine Vielzahl an Informationen, die zur Evaluation des deutschen Bildungssystems bzw. der Systeme der einzelnen Bundesländer herangezogen werden können. Solche Standortbestimmungen erscheinen vor dem Hintergrund eines nationalen und internationalen Wettbewerbs notwendig, da die Bildungsqualität in vielfacher Hinsicht eine wichtige Rolle spielt, etwa aufgrund ihrer Bedeutung für die Ausbildung von Fachkräften (Bos, Postlethwaite & Gebauer, 2009). Ein datengestützter Vergleich mit anderen Bildungssystemen kann zudem Aufschluss geben über wichtige bildungsplanerische Fragen (z. B. »Welche Rolle spielt die Klassengröße für den Kompetenzerwerb?«) sowie Hinweise geben, ob politisch heftig umkämpfte Themen, wie die Frage nach der besten Schulstruktur (z. B. gegliedertes Schulsystem vs. Gesamtschulsystem), überhaupt die unterstellte Relevanz für die Bildungserträge haben (Bos et al., 2009). Weiterhin liefern Leistungserhebungen auf der Grundlage von Bildungsstandards bzw. Vergleiche mit den Ergebnissen aus früheren Jahren (Trendanalyse) Hinweise darauf, ob politische Zielsetzungen zur Standardsicherung tatsächlich erreicht wurden und bildungspolitische Entscheidungen zielführend waren. Vergleichsarbeiten. Einen wesentlichen Beitrag zur Qualitätsentwicklung im Bildungswesen sollen weiterhin die Vergleichsarbeiten in den Klassenstufen 3 (VERA 3) und 8 (VERA 8) leisten (vgl. Pant et al., 2011). In VERA 3 und VERA 8 bearbeiten alle Schüler der jeweiligen Bundesländer Testaufgaben, die auf den Bildungsstandards und den auf der Grundlage der Bildungsstandards entwickelten Kompetenzstufenmodellen basieren. In der Regel führen die Lehrkräfte dieser Schüler die Tests in ihren Klassen durch und werten die Antworten auf die Testaufgaben nach vorgegebenen Korrekturanweisungen aus. Die Lehrkräfte erhalten anschließend eine externe Rückmeldung zum Kompetenzstand der Schüler in ihren Klassen, die Schulleitungen ein Feedback zum Leistungsstand ihrer Schule insgesamt sowie zur schulinternen Leistungshomogenität in den Parallelklassen und die Eltern eine lehrkraftunabhängige Information über den Leistungsstand ihrer Kinder. Weiterhin werden in vielen Bundesländern sog. »faire Vergleiche« durchgeführt, bei denen in der Leistungsrückmeldung die Ergebnisse der einzelnen Klasse oder Schule in Bezug gesetzt werden zur Leistung von Klassen oder Schulen, deren Schülerschaft hinsichtlich leistungsrelevanter Merkmale (z. B. sozioökonomischer Hintergrund und Bildungshintergrund der Eltern, Migrationsstatus) ähnlich zusammengesetzt ist (Kuhl, Lenkeit, Wendt & Pant, 2011). Insgesamt sollen damit die Ergebnisse von VERA 3 und VERA 8 eine inhaltliche Auseinandersetzung mit den kompetenzorientierten Bildungsstandards durch Lehrkräfte, Schulleitungen und Eltern fördern. Diese Informationen können Lehrkräfte und Schulleitungen als wertvolle Impulse für die Sicherung der Qualität von diagnostischen Urteilen sowie die Unterrichts- und Schulentwicklung nutzen, wie sie in Konzepten einer eigenverantwortlichen Schule eingefordert werden. 19.2 Evaluation 503 © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 Studie Interventionsstudie zur Evaluation eines Programms der Leseförderung Die Frage, wie sich die Lesekompetenz von Kindern wählen. Weiterhin übernahmen die Schüler in der und Jugendlichen gezielt fördern lässt, ist in zahlrei- Förderung eine Expertenrolle bei der Bearbeitung der chen Studien untersucht worden. Als Beispiel für eine Texte zu den von ihnen gewählten Themen, und es solche Untersuchung soll eine neuere Studie von Stre- wurde ihnen der Nutzen des Trainings ausführlich blow, Schiefele und Riedel (2012) herangezogen wer- erläutert. Als motivierend wurde zudem die Arbeit in den, in der die Effekte eines Trainings zur Förderung Kleingruppen erachtet und der häufige Einsatz positivon Lesekompetenz und Lesemotivation (»LekoLe- ver Rückmeldungen durch die Personen, die das Traimo«) überprüft wurden. Die Trainingsaktivitäten zur ning durchführten. Am Training nahmen Schüler aus 13 Klassen an vier Förderung der Lesekompetenz bezogen sich auf die Vermittlung und das Anwenden von vier Lesestrate- Realschulen und an jeweils einer Haupt- und Gesamtgien: Aktivierung des Vorwissens, Wichtiges unter- schule teil. In Schulen, in denen sich zwei oder drei streichen, Methoden zum Umgang mit Verständnis- Klassen für die Teilnahme an der Studie zur Verfügung schwierigkeiten und Wichtiges zusammenfassen. Um gestellt hatten, wurde jeweils eine Klasse der Kontrolldie Lesemotivation zu fördern, wurden für die in der gruppe zugewiesen. Nach Ausschluss von JugendFörderung verwendeten Sachtexte Themen aus- lichen mit unzureichenden Daten umfasste die Traigewählt, die auf die Interessen der Zielgruppe (Schüler ningsgruppe n = 150 und die Kontrollgruppe n = 85 der 7. Jahrgangsstufe) abgestimmt waren. Die Jugend- Schüler. Die Förderung erfolgte in Kleingruppen von 4 lichen konnten aus dem Angebot dieser Texte frei bis 6 Schülern durch Studierende der Psychologie, der 0,6 Posttest Follow-up 0,49 0,5 0,47 0,43 Effektgröße d 0,4 0,3 0,3 0,28 0,3 0,2 0,1 0 gegenstandsbezogene Lesemotivation erlebnisbezogene Lesemotivation Leseselbstkonzept Verstehenstest (Gesamtwert) Verstehenstest Verstehenstest (Multiple-Choice- (offene Fragen) Aufgaben) Abbildung 19.7 Ergebnisse der Evaluation des LekoLemo-Trainings (Streblow et al., 2012). Die Trainingswirkung auf die Lesekompetenz wurde ausgewiesen in Bezug auf den Gesamtwert im Verstehenstest sowie auf die Leistungen bei offenen Fragen und Multiple-Choice-Aufgaben. Streblow et al. berechneten für alle Ergebnisse eine standardisierte Effektgröße dkorr, die im Prätest bestehende Leistungsunterschiede zwischen den Gruppen berücksichtigt. Die Autoren interpretieren Werte von dkorr zwischen 0,20 und 0,50 als »klein« und zwischen 0,50 und 0,80 als »mittel«. Einige Werte von dkorr fehlen in dieser Abbildung, da Streblow et al. nur Effektgrößen berichteten, die statistisch bedeutsam waren 19 " 504 19 Diagnostik und Evaluation © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 Pädagogik oder des Lehramts. In den Förderstunden wurde jeweils ein Text anhand eines vorgegebenen Strategiefahrplans bearbeitet. Das Training umfasste acht Sitzungen von jeweils 90 Minuten Dauer über einen Zeitraum von bis zu drei Wochen. Die Kontrollgruppe nahm während der Förderung am regulären Unterricht teil. In der Studie wurde ein sog. Prä-Post-Kontrollgruppendesign mit Follow-up umgesetzt. Da die Zuweisung zur Trainings- und Kontrollgruppe nicht per Zufall erfolgte, handelt es sich um eine quasi-experimentelle Studie. Die Erfassung von Lesekompetenz, Lesemotivation und lesebezogenem Selbstkonzept er- 19.2.2 Ablauf Unabhängig von ihrer Zielsetzung befinden sich Evaluationen generell im Schnittbereich von grundlagenwissenschaftlicher und anwendungsbezogener Forschung. Der Ablauf von Evaluationen (s. Abb. 19.8) orientiert sich daher einerseits am typischen Ablauf von sozialwissenschaftlichen Studien (s. Punkte 2 bis 6), berücksichtigt dabei aber andererseits die praktischen Rahmenbedingungen der Evaluation und das Ziel, anwendungsbezogene Empfehlungen abzuleiten oder gar Entscheidungen zu treffen (s. Punkte 1 und 7). 19.2.3 Qualitätsstandards zur Durchführung von Evaluationsstudien Worauf ist bei der Durchführung von Evaluationen zu achten? Unabhängig davon, ob qualitative oder quantitative Methoden eingesetzt werden, zeichnen sich professionell durchgeführte Evaluationen dadurch aus, dass mehrere Qualitätsstandards berücksichtigt werden, die wegweisend für die Planung einer Evaluationsstudie sind (s. Abb. 19.8). Diese Standards zielen auf vier zentrale Aspekte ab (Deutsche Gesellschaft für Evaluation, 2008): (1) Nützlichkeit (2) Genauigkeit (3) Durchführung (4) Fairness Nützlichkeitsstandards. Damit ist gemeint, dass sich die Evaluation an ihren jeweils vorab definierten Zielen und Fragestellungen orientiert sowie den Informationsbedarf der Auftraggeber erfüllt. Typische Zielkriterien folgte unmittelbar vor (Prätest) und direkt nach der Förderung (Posttest) sowie nochmals zwei Monate nach Abschluss des Trainings (Follow-up-Test). Die statistischen Analysen, in denen die Testergebnisse der Trainingsgruppe mit den Testergebnissen der Kontrollgruppe verglichen wurden, zeigten, dass das Training statistisch bedeutsam positive Effekte auf die Lesekompetenz hatte, die auch noch zwei Monate nach der Förderung nachgewiesen werden konnten. Für die Lesemotivation und das Leseselbstkonzept konnten dagegen zwar kurzfristige positive Effekte der Förderung identifiziert werden, diese waren jedoch nicht nachhaltig (s. Abb. 19.7). im pädagogischen Kontext sind zum Beispiel die Förderung von " schulfachbezogenen Kompetenzen (z. B. im Bereich Lesen, in Mathematik oder in den Naturwissenschaften), " allgemeinen oder spezifischen kognitiven Fähigkeiten (z. B. allgemeine Problemlösefähigkeit; kognitive Lernstrategien), " sozialen Kompetenzen (z. B. Bewältigung sozialer Konfliktsituationen), " motivationalen oder affektiven Merkmalen (z. B. schulische und berufliche Interessen, schulbezogene Selbstkonzepte oder Reduktion von Leistungsängstlichkeit) oder " pädagogisch wünschenswerten Persönlichkeitsmerkmalen (z. B. Gewissenhaftigkeit). Genauigkeitsstandards. Informationen, die im Rahmen einer Evaluation zur Beantwortung der Fragestellungen erhoben werden, sollen reliabel und valide sein. Für die professionelle Auswahl von geeigneten Messinstrumenten ist daher die Berücksichtigung der Gütekriterien maßgeblich (s. Abschn. 19.1.4). Oftmals sind jedoch die Fragestellungen einer Evaluation sehr spezifisch und es sind keine geeigneten Messinstrumente verfügbar, die zur Erhebung der relevanten Informationen eingesetzt werden könnten. In solchen Fällen ist es erforderlich, neue Messinstrumente zu entwickeln und deren Gütekriterien vor Durchführung der Evaluation in sog. Pilotstudien empirisch zu überprüfen. Durchführbarkeitsstandards. Es ist darauf zu achten, dass die Belastung, die mit der Datensammlung verbunden ist, für alle Beteiligten in einem angemessenen Verhältnis zum Nutzen der Evaluation steht. 19.2 Evaluation 505 © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 Fairnessstandards. In einer Evaluation soll mit allen Akteuren respektvoll und fair umgegangen werden. Dies erfordert, dass die Datensammlung den ethischen Richtlinien für Forschung mit Menschen entsprechend erfolgt und relevante Datenschutzauflagen beachtet werden (Deutsche Gesellschaft für Psychologie & Berufsverband Deutscher Psychologinnen und Psychologen, 2004). Ebenso soll der Fairnessstandard sicherstellen, dass pädagogische Interventionen und Einrichtungen möglichst vollständig, unvoreingenommen und ergebnisoffen überprüft werden, damit ihre Stärken weiter ausgebaut und ihre Schwachpunkte reduziert werden können. 19.2.4 Die Konzeption von Evaluationsstudien Die empirischen Ergebnisse von Evaluationsstudien im pädagogischen Kontext dienen dazu, evidenzbasierte Entscheidungen zu treffen, um die Qualität im Bildungswesen zu sichern und zu verbessern. Um die Aus- Qualitätsstandards: Nützlichkeit, Genauigkeit, Durchführung, Fairness (Abschnitt 19.2.3) 1. Entscheidung über die Durchführbarkeit einer Evaluation 2. Konzeptualisierung: Definition der Fragestellung, der Zielkriterien und des Forschungsdesigns 3. Auswahl und/oder Neuentwicklung von Messinstrumenten und Indikatoren ▶ theoretische Fundierung ▶ Erfassung von Bildungsprozessen ▶ interne Validität ▶ externe Validität ▶ Studiendesign ▶ Einbezug mehrerer Messzeitpunkte (Abschnitt 19.2.4) 4. Definition der Population, Ziehung der Stichprobe und Datensammlung 5. Auswertung der Daten im Hinblick auf die Fragestellung 6. Berichtlegung und Präsentation der Ergebnisse ▶ Effektgrößen ▶ Konfidenzintervalle (Abschnitt 19.2.5) 7. Empfehlungen und/oder Treffen von Entscheidungen 19 Abbildung 19.8 Ablauf von Evaluationen und zentrale Konzepte und Methoden. In Klammern sind die Abschnitte genannt, in denen die jeweiligen Begriffe etc. beschrieben werden 506 19 Diagnostik und Evaluation © Dies ist urheberrechtlich geschütztes Material. Bereitgestellt von: UB Hagen Di, Okt 3rd 2023, 16:38 sagekraft der empirischen Daten zu gewährleisten, sind bei der Planung von Evaluationsstudien mehrere theoretische und methodische Konzepte zu berücksichtigen, die sich (teilweise) inhaltlich überlappen und wechselseitig bedingen: " theoretische Fundierung " Erfassung von Bildungsprozessen " interne Validität " externe Validität " Studiendesign " Einbezug mehrerer Messzeitpunkte Theoretische Fundierung In wissenschaftlich fundierten Evaluationen werden pädagogische Interventionen auf der Basis von Theorien konzipiert oder es wird bei bereits bestehenden pädagogischen Programmen auf Theorien zurückgegriffen, um Annahmen über ihre Wirkmechanismen zu generieren. In die Konzeption des LekoLemo-Trainings beispielsweise wurde ein Bündel von Maßnahmen integriert, für die in früheren, theoretisch fundierten Studien empirisch nachgewiesen werden konnte, dass sie sich positiv auf die Entwicklung der Leseleistung und -motivation auswirken. Hierzu gehören die Vermittlung von effektiven Lesestrategien, die Berücksichtigung bereits vorhandener thematischer Interessen der Jugendlichen, die Übernahme der Expertenrolle durch die teilnehmenden Kinder, die Arbeit in Kleingruppen sowie positive Rückmeldungen. Weiterhin betrifft die theoretische Fundierung der Evaluation die Auswahl der Zielkriterien, die zur Bewertung der pädagogischen Intervention bzw. der Einrichtungen oder Systeme im Bildungswesen herangezogen werden sollen. Da das LekoLemo-Training auf eine Förderung der Leseleistung und -motivation abzielt, wurden für die Evaluation des Trainings sowohl kognitive Maße (Lesekompetenz und Lesestrategien) als auch motivationale Maße (Lesemotivation, Leseselbstkonzept) eingesetzt. Erfassung von Bildungsprozessen Um die Wirkung einer pädagogischen Intervention zu evaluieren, vergleicht man häufig die Ergebnisse der Interventionsgruppe mit den Ergebnissen einer Kontrollgruppe. Für die Interpretation der Ergebnisse ist es dabei wichtig, dass für alle experimentell manipulierten Bedingungen (also Experimentalgruppe und Kontrollgruppe) bzw. für alle untersuchten pädagogischen Interventionen detailliert erfasst wird, in welcher Weise und in welchem Ausmaß die theoretisch postulierten Bildungsprozesse tatsächlich implementiert wurden (Cook & Shadish, 1994; Lipsey & Cordray, 2000). Dies wird als Grad der Implementationstreue bezeichnet. Durch die sorgfältige Analyse der tatsächlich implementierten Bildungsprozesse in der Interventionsgruppe (z. B. durch Videoanalysen) kann beispie

Use Quizgecko on...
Browser
Browser