Vorlesung Testen und Entscheiden Fairness (PDF)
Document Details
Uploaded by WholesomeTonalism
Heinrich-Heine-Universität Düsseldorf
Prof. Dr. Jochen Musch
Tags
Summary
This document is a lecture on testing and decision-making, focusing on fairness. The lecture, from Heinrich-Heine-Universität Düsseldorf, discusses various aspects of test fairness, including examples from different contexts and fields. It also includes a discussion of the theoretical models related to fairness and bias in testing.
Full Transcript
Vorlesung Testen und Entscheiden Fairness Heinrich-Heine-Universität Düsseldorf Institut für Experimentelle Psychologie Diagnostik und Differentielle Psychologie Prof. Dr. Jochen Musch Testgütekriterien in der Diagnostik Objektivität Reliabilität Validität Nebengütekriterium: Fa...
Vorlesung Testen und Entscheiden Fairness Heinrich-Heine-Universität Düsseldorf Institut für Experimentelle Psychologie Diagnostik und Differentielle Psychologie Prof. Dr. Jochen Musch Testgütekriterien in der Diagnostik Objektivität Reliabilität Validität Nebengütekriterium: Fairness 2 Beispiel: Gericht verbietet "Jungs-Quote" für Gymnasium (DLF 20.10.2017) https://web.archive.org/web/20171023051858/http://www.deutschlandfunk.de/bildung-gericht-verbietet-jungs-quote-fuer-gymnasium.2849.de.html?drn:news_id=805783 „Ein Gymnasium darf keine Mindestquote für Jungen einführen. Das hat das Oberverwaltungsgericht Berlin-Brandenburg entschieden. Die Richter urteilten, eine Quote für männliche Schüler verstoße gegen den Gleichheitsgrundsatz und das Verbot, Menschen wegen ihres Geschlechts zu bevorzugen. Das Gymnasium wählt seine Schüler aus Bewerbern aufgrund ihrer schulischen Leistungen aus. Da aber die Mädchen überwiegend bessere Noten haben, bekommen sie auch mehr Plätze an der Schule. Ein Schüler hatte dagegen geklagt und vor einem Verwaltungsgericht Recht bekommen. Die Verwaltungsrichter hatten entschieden, dass das Gymnasium ein Drittel der Plätze für Jungen reservieren muss. Nur so könne ein gemeinsamer Unterricht von Jungen und Mädchen sichergestellt werden. Das Oberverwaltungsgericht hob dieses Urteil nun auf.“ 3 Beispiel: Aufnahmetest fürs Medizinstudium an der Universität Wien „Gender Gap“ beim „Eignungstest Medizinstudium“ (EMS) in Österreich (weibliche Teilnehmer ca. 0,4 Standardabweichungen schlechter; in der Schweiz und in Deutschland nur maximal ca. 0,1 Standardabweichungen) Erfassung von Wissen (Biologie, Chemie, Physik, Mathematik), Textverständnis, Faktenlernen, kognitiven Fähigkeiten in 10 Untertests Deutlichster Geschlechtsunterschied in Österreich bei den Subtests "Quantitative und Formale Probleme" und "Diagramme und Tabellen" sowie 2011 im "Medizinisch-naturwissenschaftlichen Grundverständnis“ (jedoch nur 1 Rohwertpunkt = ca. 0.1 SD bei den Schlauchfiguren) Beratender Psychologe (Prof. Arendasy, Psychologische Methodik, Uni Graz) begründet unterschiedliche cut-off-Werte für Männer und Frauen, die 2012 auch erstmals angewendet werden (d.h. Anhebung der Testwerte der Frauen) 4 Beispiel: Aufnahmetest fürs Medizinstudium an der Universität Wien Kritik an „Männerdiskriminierung“ durch FPÖ Kritik an Schaffung von „Quotenfrauen“ durch HochschülerInnenschaft (ÖH) Klagen abgewiesener Bewerber Änderung des Verfahrens im Folgejahr 5 Fairness Leitfrage: Wann ist ein Auswahlverfahren fair? 6 Nebengütekriterium: Fairness 7 Fairness Definitionsversuch: „Ein Test ist fair, wenn die Testwerte zu keiner systematischen Diskriminierung bestimmter Testteilnehmer zum Beispiel aufgrund ihrer ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit führen.“ Testfairness soll verhindern, dass bestimmte Gruppen systematisch benachteiligt werden, wenn dem Testergebnis Selektions- entscheidungen folgen. 8 Einordnung Testfairness wird seit den 70er Jahren als Gütekriterium für psychologische Testverfahren gefordert. Sie wird jedoch, anders als z.B. die Validität oder Reliabilität, in der Regel nicht als Hauptgütekriterium gesehen. Testbias Bevorzugung einer Gruppe 10 Testbias Beispiel: Werden computerunerfahrene Testteilnehmer bei einer Testung am PC benachteiligt? ⚫ Unerfahrenheit mit dem PC bindet kognitive Ressourcen für die Bedienung ⚫ Vorheriges Maustraining nivelliert Unterschiede ⚫ Leistungsunterschiede zwischen Paper/Pencil- und computergestützter Durchführung verschwinden allmählich 11 Geschlechtsunterschiede beim Studenten-PISA-Test von Spiegel Online 12 Mangelnde (Geschlechts-)Fairness von Items Beispiel: Hangar / Arnika Differential Item Functioning in der Item Characteristic Curve 13 Geschlechtsfairness der 9 Items des dritten Wirtschafts-Itemsets im SPIEGEL Studenten-PISA (Bertling et al., 2010) Vorteil für Männer: Vorteil für Frauen: In welchem Zweig der gesetzlichen Sozialversicherung ist der Beitragssatz am höchsten? ▪ Arbeitslosenversicherung ▪ Pflegeversicherung ▪ Krankenversicherung ▪ Rentenversicherung 14 Geschlechtsunterschiede beim Studenten-PISA-Test von Spiegel Online 15 Takala, S. & Kaftandjieva, F. (2000). Test fairness: a DIF analysis of an L2 vocabulary test. Language Testing, 17, 323-340. 16 Culture Fair Tests Diskriminierung bei Einwanderung in die USA (19./20. Jahrhundert) „Was fehlt diesem Mann?“ – Die Krawatte Kultur- und sprachfreie (Intelligenz-)Tests Faire Testung von Minoritäten 17 Sprachfreier Intelligenztest? Advanced Progressive Matrices Wortschatz und Sprachstil bedeutungslos, dennoch: Türkische Gastarbeiterkinder steigern ihre Leistungen mit zunehmender Dauer des Aufenthalts in der Bundesrepublik (Taschinski, 1985) 18 The Chitling Intelligence Test (Aiken, 1971) by Adrian Dove (black sociologist) Many people say that "Juneteenth" (June 19) should be made a legal holiday because this was the day when: (a) the slaves were freed in the USA (b) the slaves were freed in Texas (c) the slaves were freed in Jamaica (d) the slaves were freed in California (e) Martin Luther King was born (f) Booker T. Washington died. 19 The Chitling Intelligence Test (Aiken, 1971) by Adrian Dove (black sociologist) Many people say that "Juneteenth" (June 19) should be made a legal holiday because this was the day when: (a) the slaves were freed in the USA (b) the slaves were freed in Texas (c) the slaves were freed in Jamaica (d) the slaves were freed in California (e) Martin Luther King was born (f) Booker T. Washington died. 20 The "Original Australian Test of Intelligence" (Quelle: unbekannt) What number comes next in the sequence, one, two, three, __________? 21 The "Original Australian Test of Intelligence" (Quelle: unbekannt) What number comes next in the sequence, one, two, three, __________? „One, two, three, many....the kuuk thaayorre system of counting only goes to three...thana, kuthir, pinalam, mong, mong, mong, etc“. „The word mong is best translated as "many" since it can mean any number between 4 and 9 or 10 after which yuur mong – "many figures" - would be more appropriate". 22 Beispiele für Probleme der Testfairness Kommissionen sollen dafür sorgen, dass Minoritäten bei der Jobvergabe nicht zu kurz kommen: Quotensysteme kommen zum Einsatz (z.B. in den USA). Nachteil von Quotenregelungen: Hochqualifizierte können zugunsten von weniger qualifizierten Angehörigen von Minderheitsgruppen abgelehnt werden (Beispiel: Vietnam- heimkehrer Murphy Archibald) → unvorhersehbare Langzeiteffekte: Je mehr Plätze für Minderheiten „reserviert“ werden, desto stärker werden die Bewerber der Mehrheit selegiert, d.h., umso größer wird der Leistungsunterschied zwischen ihnen und der Minderheiten-Quote 23 Beispiele für Probleme der Testfairness Juristen in den Kommissionen stellen z.T. unmögliche Forderungen an Einstellungstests, z.B. perfekte Validität als Minimalkriterium. Aufgrund dieser rigiden Forderungen wurden in den USA subjektive Einstellungsverfahren wie das Interview wieder beliebter, da hier eine Diskriminierung schwerer zu beweisen war; die Einstellungssituation für Minoritäten verschlechterte sich dadurch sogar noch. 24 Modelle der Testfairness Es gibt keinen einheitlichen Maßstab zur Beurteilung der Fairness eines Tests, sondern verschiedene Konzepte von Testfairness. Je nachdem, welches gesellschaftspolitische Ziel handlungsbestimmend ist, wird ein anderes Fairnessmodell angewandt. → Fairness gibt es nur im Hinblick auf Handlungs-/ Entscheidungsaspekte, die genau expliziert werden müssen. 25 Fairnesskonzeptionen Modell der proportionalen Repräsentation („Quotenmodell“ / „Identitätskonzept“) Regressionsmodell von Cleary Modell konstanter Verhältnisse (Thorndike) Fairnessmodell von Cole ⚫ „conditional probability model“ Fairnessmodell von Linn ⚫ „equal probability model“ 26 Modell der proportionalen Repräsentation (Quotenmodell/Identitätskonzept) Stichprobe der ausgewählten Bewerber soll der Population proportional entsprechen Das ist nur bei Gültigkeit der (unrealistischen) Modellannahme erreichbar, dass sich Teilgruppen von Bewerbern „in Wirklichkeit“ nicht in ihren Mittelwerten unterscheiden Mittelwerte sind jedoch oft von Gruppierungs- gesichtspunkten abhängig Erfüllung der Forderung ist deshalb methodisch fragwürdig und kann nur zu Lasten der Validität erfolgen. Sie kann jedoch politisch gewünscht sein („Quotenbildung“). 27 Modell der proportionalen Repräsentation Normierung zum Umgang mit systematischen Gruppenunterschieden Individuelle Punktwerte werden an den Testwerten bestimmter Gruppen (z.B. alters- oder geschlechtsgleicher Personen) relativiert; dies entspricht de facto der Vergabe von gruppenspezifischen Bonus- oder Maluspunkten Aber nur in Grenzen: niemand soll Fluglotse werden dürfen, nur weil er noch eine relativ hohe Konzentrationsfähigkeit besitzt (für einen 50jährigen Alkoholiker) Fast nie erfolgt eine Normierung für verschiedene soziale Schichten, obwohl Mittelwertsunterschiede hier besonders groß sind. 28 Modell der proportionalen Repräsentation Das Identitätskonzept wird kaum ernsthaft vertreten. Ausschlaggebende Frage sollte nicht sein, ob es überhaupt Unterschiede in Testmittelwerten gibt, sondern ob bestimmte Verfahren zu subgruppen- spezifischen Fehleinschätzungen führen 29 Das Regressionsmodell (Cleary, 1968) Ein Selektionsverfahren ist dann fair, wenn bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht. Die zur Vorhersage des Kriteriums verwendeten gruppenspezifischen Regressionsgeraden sollen Anne Cleary identisch sein (gleiche Steigung und gleicher 1935 - 1991 Ordinatenabschnitt) → Selektion allein aufgrund des vorhergesagten Kriteriumswerts, nicht aufgrund anderer Gruppierungsmerkmale → jeder im Kriterium voraussichtlich bessere Bewerber wird bei der Auswahl einem https://tinyurl.com/annecleary voraussichtlich weniger leistungsfähigen Bewerber vorgezogen 30 Testbias Wenn Test- und Kriteriumswert als z-Standardwerte ausgedrückt werden, entspricht die Steigung der Regressionsgerade dem Korrelationskoeffizienten Unterschiedliche Steigung in unterschiedlichen Gruppen zeigt differentielle Validität des Tests an 31 Testbias Unterschiedliche Regressionsgeraden B Test hat in einer Gruppe (z.B. einer Minorität A) eine A geringere Validität Beispiel: Schulnoten sind aus IQ-Tests für Mädchen besser vorhersagbar als für Jungs (Amelang & Vagt, 1970) 32 Testbias B A Bei Verwendung einer gemeinsamen Regressionsgleichung für beide Gruppen kommt es zu Fehleinschätzungen, wenn der Test in beiden Gruppen unterschiedlich valide ist. 33 Testbias Wichtig: Test auf Signifikanz der Unterschiedlichkeit der Steigungen (wegen oft unterschiedlicher Stichprobengröße genügt signifikante Validität bei Majorität und nicht signifikante Validität bei Minorität nicht) 34 Testbias In methodisch sorgfältig durchgeführten Studien meist kein Hinweis auf differentielle Validität (z.B. für Bewerber unterschiedlicher Hautfarbe in den USA und für Männer und Frauen beim Medizinstudium in Österreich) 35 Kein Testbias nach dem Regressionsmodell von Cleary (1968) Mitglieder der Minorität haben im Mittel niedrigere Testscores Aber: Identische Regressionsgerade (gleiche Steigung, gleicher Schnittpunkt mit der Ordinate) Das Abschneiden der Testteilnehmer im Kriterium wird also nicht für eine Gruppe systematisch unterschätzt In beiden Gruppen entspricht derselbe Testscore demselben Kriteriumsscore Beispiel: Arbeiter- und Akademikerkinder bei Simons und Möbus (1976) 36 Testbias unterschiedlicher Achsenabschnitt Mitglieder der Gruppe A erzielen bei gleichen Testscores systematisch höhere Werte im Kriterium als Mitglieder der Gruppe B Gruppenabhängige systematische Unter- oder Überschätzung der Kriteriumsperformanz Eine Gruppe erzielt im Mittel zwar höhere Testwerte, aber nur genauso hohe Kriteriumswerte Typische Ursache: Test erfaßt eher gruppenspezifische Merkmale statt Kriteriumsvarianz (Beispiel: Abinoten im Ländervergleich, ZVS) 37 Länderunterschiede in der Benotungspraxis Notwendigkeit standardisierter Testungen Testleistung in Mathematik, die an Gymnasien in Bayern bzw. Hamburg im Mittel den Noten 1 und 2 bzw. den Noten 4 und 5 entspricht (Auswertungen auf Einzelschulebene, dargestellt durch Punkte) 38 Notwendigkeit standardisierter Testungen Mathematikleistung und Mathematiknoten haben unterschiedliche individuelle und institutionelle Varianzquellen 39 Lesekompetenz in der PISA-Studie in Abhängigkeit vom Bildungsgang 40 Das Geheimnis des Erfolges: Glück bei der Geburt https://www.hochschulbildungsreport2020.de/chancen-fuer-nichtakademikerkinder Ugur Sahin: Keine Gymnasialempfehlung Ugur Sahin (zusammen mit seiner Frau Öslem Türeci Gründer von Biontech) 42 Modell konstanter Verhältnisse (Thorndike) Der Anteil der Ausgewählten an allen Bewerberinnen und Bewerbern (die „Selektionsrate“) soll in allen Gruppen gleich sein. Anders als bei Cleary wird dadurch die Kriteriumsleistung gegenüber dem erreichbaren Maximum reduziert. In den USA nach einem Urteil des Supreme Court in abgeschwächter Form verankert in den (vor Gericht häufig verwendeten) “Uniform Guidelines for Employee Selection Procedures”. Ein Auswahlverfahren gilt darin als diskriminierend bzw. unfair, wenn die Selektionsrate in einer Subgruppe unterhalb von 80 % der Gruppe mit der höchsten Selektionsrate liegt. 43 Modell konstanter Verhältnisse (Thorndike) Selektionsrate: (RP+FP):(RP+FN+RN+FP) 44 Alternatives Fairnessmodell von Cole (1973) „conditional probability model“ Forderung nach identischen Proportionen (RP):(RP+FN) in allen Gruppen; d.h. in beiden Gruppen sollen die im Kriterium erfolgreichen mit gleicher Wahrscheinlichkeit auch ausgewählt werden (soll die Rate fälschlich nicht ausgewählter gleich sein) 45 Alternatives Fairnessmodell von Linn (1973) „equal probability model“ Forderung nach identischen Proportionen (RP):(RP+FP) in allen Gruppen; d.h. für die Zugelassenen in den beiden Gruppen soll die Wahrscheinlichkeit eines Erfolges im Kriterium gleich sein 46 Testfairness Prinzipielles Problem: Testfairness kann immer nur im Hinblick auf ein bestimmtes Kriterium geprüft werden Es gibt aber ganz unterschiedliche Kriterien, nach denen Gruppen gebildet werden können, für die Testfairness verlangt werden kann Eine Bevorzugung gesellschaftlich (bisher) benachteiligter Gruppen kann nach vielen Kriterien unfair, aber dennoch politisch erwünscht sein 47 Stetz,T. (2022). Test Bias in Employment Selection Testing. A Visual Introduction. Springer. https://katalog.ulb.hhu.de/Record/99371160444006441 48 The veil of ignorance https://plato.stanford.edu/entries/original-position/ „Veil of ignorance“ = „Schleier des Nichtwissens“ Gedankenexperiment aus der Gerechtigkeitstheorie des US- amerikanischen Philosophen John Rawls Menschen sollen über die zukünftige Gesellschaftsordnung entscheiden, ohne zu wissen, an welcher Stelle dieser Ordnung sie sich später befinden werden. Sie wissen also nichts über ihre spätere Hautfarbe, Geschlecht, Religion, sozialen Status, materiellen Besitz, geistige und physische Fähigkeiten, Zugehörigkeit zu einer bestimmten Generation. Was empfinden sie dann als gerecht? 49 ENDE