Diagnostik - Zusammenfassung Emma PDF

Diagnostik 2. Vorlesung 1. Definition Pädagogik: - Alle diagnostischen Tätigkeiten, bei der Voraussetzungen und Bedingungen planmäßiger Lernprozesse ermittelt, Lernprozesse analysie...

Diagnostik 2. Vorlesung 1. Definition Pädagogik: - Alle diagnostischen Tätigkeiten, bei der Voraussetzungen und Bedingungen planmäßiger Lernprozesse ermittelt, Lernprozesse analysiert und Lernergebnisse festgestellt werden, um individuelles Lernen zu optimieren Diagnostische Tätigkeiten: - Beobachtung und Befragung nach wissenschaftlichen Kriterien - Interpretation und Kommunikation der Ergebnisse Psychologie: Gegenstand: - Verhalten und Erleben von Menschen - Interindividuelle Unterschiede - Intraindividuelle Merkmale und Veränderungen - incl. der relevanten Bedingungen Aufgabe: - Beschreibung - Erklärung - Prognose - Intervention (Problemlösung) Vorgehen: - Systematisch und strukturiert – wissenschaftlich fundiert Sportwissenschaft: Leistungsdiagnose: - Erkennen und beurteilen des individuellen Niveaus der sportlichen Leistung oder des sportlichen Leistungszustandes Sportliche Motodiagnostik: - Methoden zur quantitativen und qualitativen Erfassung menschlicher Motorik Ziel: - Gewinnung von Entscheidungshilfen für (psycho)motorische Interventionen Gemeinsamkeiten der 3 Bereiche: - Ermittlung und Analyse individueller Merkmale (einzeln, Gruppe) - unter Beachtung wissenschaftlicher Kriterien Gegenstand: - Prozesse, Ergebnisse, Voraussetzungen und Bedingungen Ziel: - Beschreibung – Erklärung – Prognose - Urteilsbildung – Entscheidungsfindung Zweck: - Optimierung – Klassifikation Kontext: vielfältig - Pädagogik – Lernen/Lehren - Psychologie – Verhalten/Erleben - Sport – Leistung/Bewegung/Motorik 2. Menschenbild Welches Menschenbild bestimmt die humanwissenschaftliche Diagnostik? Mensch: - Verhalten - Kommunikation - Entwicklungsfähig - Handlung - Motivation - Lernfähig - Kognitionen - Emotion - Selbstreflexion (Meta- - Volition Kognitionen) - Soziale Interkation 3. Diagnostischer Zugang Verschiedene Vorannahmen und Vorgehensweisen, um Diagnostik zu stellen: - Eigenschaften als (hypothetische) Konstrukte (Ist Intelligenz ein Konstrukt, um Lernfähigkeit zu verdeutlichen?) - Erfassbarkeit der Eigenschaften: Verhalten(sindikatoren) → Eigenschaften (Herausfinden durch Beobachtung, Befragung, Messung, Test) - Prognostizierbarkeit von Verhalten – über Eigenschaften und Situationsmerkmale (Lernprognose – über Lernfähigkeit/-situation) - Zeitliche Stabilität - Situationsabhängigkeit: Eigenschaften vs. Zustände (trait – state) (Modalitätspräferenz vs. Aktuelle Leistung) - S-O-R-K-C-Ansatz (Stimulus – Organismus – Reaktion – Kontingenz – Konsequenz) 4. Ziele und Zwecke Ziele: Zwecke: - Beschreibung, Erklärung, Vorhersage/ - Selektion Prognostik (z. B. Talent, Potenziale) - Bewertung, Zuordnung und Klassifikation - Eigenschafts- und Verhaltensdiagnostik - Intervention: Förderung – Modifikation - Ergebnis- und Prozessdiagnostik - Bewertung - Zustands- und Veränderungsdiagnostik - Feedback ➔ Es handelt sich bei Diagnostik um eine systematische und strukturierte Beurteilung, Ihr liegt ein komplexes Menschenbild zugrunde und ihre Ziele und Zwecke sind vielfältig 5. Zusammenfassung 3. Vorlesung 1. Begriffserklärung - Etymologisch - „Zerlegung des Ganzen in seine Teile“ (dia) - „kennen lernen, erkennen“ (cognoscere) - „unterscheidende Beurteilung“ (diagnosis) - „durch und durch erkennen“ (dia-gi-gnoskein) - „Lehre und Kunst, die das Stellen von Diagnosen zum Gegenstand hat“ 2. Begriffserklärung - Diagnostik bzw. diagnostische Tätigkeiten Wir unterschieden zwischen Diagnostik und diagnostischen Tätigkeiten Diagnostische Tätigkeiten findet man auch in anderen Bereichen und Kontexten – man versteht unter ihnen: - Entwicklung systematischer Verfahren und Instrumente zur genauen Erfassung (Beschreibung) von Zuständen eines Systems - Vergleich des erfassten Zustands an einer Referenz (Bezugsnorm) - Analyse und Bewertung der Ergebnisse des Vergleichs Aufgaben bzw. Zwecksetzungen (diagnostische Entscheidungen) - Erklärung von Abweichungen (Fehler, Krankheit,...) - Prognose von potenziellen Veränderungen (Erfolg, Gefahr, …) - Intervention (Maßnahmen, Behandlungen, …) 3. Begriffserklärungen – Moral & Ethik Normen, Werte und Prinzipien als Grundlagen und Leitlinien für „richtiges“ menschliches Handeln Moral: - Katalog materialer Norm- und Wertvorstellungen (eigene Erfahrungen) – „Praxis“ Normen: - allgemeine Maßstäbe des richtigen Handelns des Menschen (Reflexion über Normen & Werte) – „Theorie“ Universalethiken: - erheben Anspruch auf universelle Gültigkeit Bereichsethiken: - Ethik des Rechts / der Medizin / … Individualethik / Institutionenethik - Je nachdem, an wen die ethische Anforderung gerichtet wird 4. Rahmenbedingungen – Relevant für Diagnostik UN (1949) – Allgemeine Erklärung der Menschenrechte – Artikel 1 bis 30: - Freiheit und Gleichheit - Sicherheit und Gesundheit - Schutz durch Recht und Gesetz (Unschuld – Strafbarkeit – Eingriffe in Leben, Familie, Beruf etc.) - Aufenthalt - Ehe und Familie - Eigentum - Meinung, Gedanken, Religion - Versammlung und Vereinigung - Arbeit und Beruf – Bildung - Erholung, Freizeit, Urlaub - Kultur und Kunst Grundgesetz der Bundesrepublik Deutschland (BRD, 2020): - Menschenwürde - Persönlichkeitsentfaltung - Leben – körperliche Unversehrtheit - Gleichheit (u.a. Geschlecht, Glaube, Abstammung, Sprache) - Meinungsfreiheit - Kunst und Wissenschaft, Forschung und Lehre - Versammlung - Vereine - Wohnung - Eigentum 5. Ethische Grundsätze – Dual Use Besorgniserregende sicherheitsrelevante Forschung - Wissenschaftliche Arbeiten, welche Wissen/Technologien/Produkte hervorbringen könnten, welche von Dritten missbraucht werden könnte Schlussfolgerung: schützenswerte Aspekte: - Menschenwürde - Eigentum - Leben & Gesundheit - Umwelt - Freiheit - friedliches Zusammenleben Testperson: - Menschen als „einzigartige Personen“ – Menschrechte (siehe UN, 1949) - Eigenverantwortliches Leben, Freiheit, Chancengleichheit - Wohl und Wohlbefinden - Förderung Diagnostiker:in: - Sensibilität, Vertraulichkeit und Transparenz - Kommunikation, Fairness und Respekt - Eigene Kompetenzen - Unabhängigkeit 6. Humanwissenschaftliche Anwendungsfelder Pädagogik - Bsp.: Leistungsbeurteilung in der Schule Mensch: - Schülerinnen mit Wissen - Kompetenzen - Motivation und Emotion - Alter, Geschlecht, sozialer Status, aktueller Zustand u.v.m. Daten: - mündliche und schriftliche Leistungen - Verhalten; qualitativ vs. Quantitativ - Produkt – Prozess - formativ – summativ - Feedback (Lernoptimierung) - Qualifikation Technik: - analog – digital - Präsenz - online Gesellschaft: - Mitschüler:innen; Freunde; Familie - Gesetzliche Bestimmungen für Schule, Bildung und Datenmanagement Psychologie - Bsp.: Klinisch-psychologische Diagnostik Mensch: - Alter, Geschlecht, Gesundheitszustand, Berufsstatus - Erwartungen und Bedürfnisse, Beschwerden Daten: - psychisch, physisch, sozial (Befragung, Messung, Test …) - DSM-5, ICD-11-06 Technik: - Analog – digital Gesellschaft: - Gesetzliche Bestimmungen (Klinik, Beruf, Daten, …) - Institutionen (Klinik, Praxis, Reha- und Beratungszentren, …) Weitere psychologische Diagnosefelder: - Arbeits-, Organisations- und Wirtschaftspsychologie - Pädagogische Psychologie - Neuropsychologische, rechtspsychologische und verkehrspsychologische Diagnostik Sportwissenschaft - Bsp.: Diagnostik zur Prüfung von Trainingseffekten – Gesundheit Mensch: - Leistungsniveau, Gesundheitszustand - Wissen, Erwartungen, Motivation - Alter, Geschlecht, sozialer Status, … Daten: - Primärdaten: Ausdauer, Kraft, Flexibilität, Schnelligkeit, Koordination, Wohlbefinden - Sekundärdaten: körperliche Aktivität, Einstellung, Motivation Technik: - Online – offline - Mobil – stationär 7. Zusammenfassung Gesellschaft/Umwelt/Natur: - Nachhaltigkeitsziele etc. Herausforderungen: - Komplexe Wechselwirkungen - Verschiedene Wirkungsebenen (physisch – psychisch – sozial) Lösungen: - Komplexe Diagnostik - Evidenz-Basierung 4. Vorlesung Anwendungsgebiete psychologischer, pädagogischer und sportwissenschaftlicher Diagnostik – Beispiele 1. Beispiel aus der Pädagogik Sammlung von Informationen über den Lernstand Förderkreislauf Langfristiges Ziel: Schüler*innen übernehmen diese Schritte selbst Methodenvielfalt Pädagogischer Diagnostik Wichtige Grundsätze pädagogischer Diagnostik: - Professionalität - Aktive Nutzung – Theorie-Bildung 2. Beispiel aus der Psychologie Psychische Störungen Diagnostizieren Ziel: - Feststellen, ob eine Person, die über bestimmte Symptome klagt, eine psychische Störung aufweist Klassifikationsansätze: - ICD-11 (International Classification of Diseases 11th Revision, WHO) - DSM-5-TR (Diagnostic and Statistical Manual of Mental Disorders, 5th Revision) - ICD-11-06: Psychische Störungen, Verhaltensstörungen oder neuronale Entwicklungsstörungen Psychische Störungen, Verhaltensstörungen und neuronale Entwicklungsstörungen: - Syndrome, welche durch eine klinisch bedeutsame Störung der Kognition/Emotionsregulation/Verhaltens einer Person gekennzeichnet sind - Spiegelt eine Störung der psychologischen/biologischen/entwicklungsbedingten Prozesses wieder - Störungen sind mit Stress/Beeinträchtigungen in persönlichen/familiären/sozialen/schulischen/ beruflichen/andren wichtigen Funktionsbereichen verbunden Erziehung, Bildung und Weiterbildung Ziel: - Erfassung von Leistungsstand und Leistungsfähigkeit Beispiele: - Schulreife- und Schulleistungstests; Intelligenz- und Konzentrationstests Intelligenztestaufgabe Bsp.: Ordnen Sie den fehlenden Begriff zu. Dach : Haus = Deckel : ? (a) Herd (b) Topf (c) Henkel (d) Dampf (e) Küche Erläuterung: Das im 1. Wortpaar (Dach : Haus) implizierte Verhältnis soll auf das 2. Wortpaar übertragen werden. Richtige Lösung: (b) Topf Diagnostik in beruflichen Kontexten Ziel: - Unterstützung bei Personalauswahl, Personalentwicklung und Laufbahnplanung Beispiele: - strukturiertes Interview, Assessment-Center (Präsentation, Rollenspiel, Fallstudie etc.), Persönlichkeitsfragebögen, berufsbezogene Interessentests, Arbeitsproben 3. Beispiel aus der Sportwissenschaft Auswahl-Optionen - Motorische Testverfahren - Sportspielanalyse - Leistungsdiagnostik MOMO-Projekt – KiGGS Gegenstand der Diagnose: - Gesundheit von Kindern und Jugendlichen in Deutschland Ziel der Diagnose: - Bereitstellung von bundesweit repräsentativen Befragungs- und Messdaten zur Gesundheit der Kinder und Jugendlichen in Deutschland Zweck der Diagnose: - Erstellung von Normdaten - Ableitung von Interventionen und Maßnahmen Forschungsdesign: - Wiederholte repräsentative Querschnittstudien - KiGGS-Kohorte im Längsschnitt - Stichproben-Ziehung: - Zweistufig geschichtete Zufallsauswahl (Gemeinde – Altersgruppe) - Erhebungsmethoden: - Befragungen und Untersuchungen vor Ort - Komponenten: - Körperliche, psychische & soziale Gesundheit - Zeitpunkte: - Basiserhebung – 2003 – 2006 - 1./2. Welle – 2009 – 2012/ 2014 – 2017 - Ethik: - Begutachtung und Genehmigung durch Ethikkommission am Universitätsklinikum der Charité der Humboldt-Universität zu Berlin „Motorische Fähigkeiten“ – Testaufgaben - Seitliches Hin- und Herspringen (SHH) - Einbeinstand (EBS) - Balancieren rückwärts (BAL) - Vertikalsprung – KMP (VS) - Standweitsprung (SWS) - Liegestütze (LS) - Fahrrad-Ausdauertest (RAD) - MLS Linien nachfahren (MLS-L) - Rumpfbeuge (RB) - Reaktionstest (RZ) - MLS Stift einstecken (MLS-S) 4. Zusammenfassung Humanwissenschaftliche Diagnostik – breit gefächert: - Ziele - Zielgruppen - Verfahren - Kontexte - Verwendungszwecke Was zeigen die Beispiele noch? - Diagnostik erfordert fundierte Kompetenzen. - Diagnostik sollte professionell erfolgen. - Diagnostik hat Konsequenzen. 5. Vorlesung Diagnostik als (zyklischer) Prozess 1. Einleitung Definition - als diagnostischer Prozess wird die Abfolge von Maßnahmen zur Gewinnung diagnostisch relevanter Informationen und deren Integration zur Beantwortung einer Fragestellung bezeichnet Prozess-Modelle: - idealisierende Abstraktionen zur Vorgehensweise - Praxis: häufige Abweichungen 2. Allgemeiner Diagnostischer Prozess – Überblick Pädagogik: - kein Modell für den reinen Diagnostik-Prozess identifiziert - Kontextspezifische Modelle Psychologie: - Vereinfachtes Modell von Schmidt-Atzert, Krumm und Amelang Sportwissenschaft – Sportpsychologie: - Vereinfachtes Modell von Hänsel et al. (2016) Sportwissenschaft – Trainingswissenschaft: - Allgemeines Modell zur Planung von Interventionen: Fröhlich et al. 2012 – angepasst - Spezifisches Modell zur Trainingssteuerung: Hohmann et al. 2002 3. Allgemeiner Diagnostischer Prozess – Integrative Sicht 4. Allgemeiner Diagnostischer Prozess – Beispiele Hochbegabten-Förderung Talentsichtung im Turnen Fahreignungsdiagnostik 5. Kontextspezifische Modelle Diagnostik im Pädagogischen Kontext Diagnostik im Training – Trainingssteuerung Bestandteile: - Prognose - Planung - Diagnostik - Schlussfolgerung/ Empfehlung Ziele der Leistungs- und Trainingssteuerung - Einschätzung der Trainingswirksamkeit: Vergleich und Ableitung von Folgerungen - Aufdeckung von potenziellen Leistungsreserven: Analyse von Training, Wettkampf und Leistung - Feedback und Motivation 6. Zusammenfassung - „Der diagnostische Prozess“ – ein Idealfall - Abfolge von Maßnahmen – lineare und zyklische Anteile - Generisches Ablaufmodell vs. spezifische Modelle (Einbindung in Interventionen) - Verschiedene Abschnitte – mit je spezifischen Fragen, Entscheidungen und Maßnahmen 6. Vorlesung Der diagnostische Prozess: Anlass, Fragestellung, Hypothesen 1. Definition Als diagnostischer Prozess wird die Abfolge von Maßnahmen zur Gewinnung diagnostisch relevanter Informationen und deren Integration zur Beantwortung einer Fragestellung bezeichnet 2. Planungsphasen 1. Auftragserhalt: Vereinbarung der Fragestellung - Präzise, ethisch vertretbare und psychologisch beantwortbare Fragestellung(en) (schriftlich) mit den Auftraggeber*innen vereinbaren - Überarbeitung oder Rückgabe / Weitergabe des Auftrags, falls nötig 2. Ableiten spezifischer, trennscharfer Hypothesen mit Bezug zur Fragestellung - Ein Sachverhalt pro Hypothese (häufig gerichtet) - An differenzialdiagnostische Hypothesen denken - Entscheidungskriterien festlegen (z.B. mit Normbezug) 3. Operationalisierung - Auswahl geeigneter Methoden passend zu den Hypothesen - Prinzip der Multimodalität beachten - Entscheidungsstrategien und – Modelle bereits „mitdenken“ 3. Ziele psychologischer Diagnostik - Beschreibung des aktuellen Zustands, d.h. von Verhalten, Eigenschaften und situativen Faktoren (siehe Statusdiagnostik) - Spezialfall: Klassifikation (vgl. Klassifikationssysteme der Klinischen Psychologie) - Erklärung für beobachtete Phänomene (meist Verhaltensweisen) durch Ermittlung von plausiblen Ursachen (Eigenschaften und/oder situativen Faktoren) - Vorhersage der Auftretenswahrscheinlichkeit zukünftiger Phänomene - Selektions-/Zuordnungsstrategien gehen davon aus, dass Personen und/oder Umweltbedingungen gegeben sind und eine Veränderung ist nicht beabsichtigt oder nicht möglich - Modifikationsstrategien gehen von veränderbaren Personen und/oder Umweltbedingungen aus und haben dies als Ziel 4. Selektionsdiagnostik - Fragestellungen betreffen häufig (nicht immer) zeitlich relative stabile Eigenschaften (daher auch Eigenschaftsdiagnostik genannt) - Zeitliche Stabilität im Fokus, häufig prognostische Fragestellungen - Suche nach Passung zwischen Personen und Bedingungen 5. Modifikationsdiagnostik - Beginnt mit der Feststellung des Ist-Zustands (Statusdiagnostik, Querschnittdiagnostik, bei der Begleitung einer bevorstehenden Intervention auch Eingangsdiagnostik) - Kann auf Selektionsdiagnostik aufbauen - Fragestellungen betreffen häufig (nicht immer) konkretes, veränderbares Verhalten (auch Verhaltensdiagnostik genannt) - Suche nach veränderbaren Merkmalen in Personen oder Bedingungen, um Passung zu erzielen 6. Zeitlicher Verlauf - Eine diagnostische Untersuchung kann im Zeitverlauf (vor, während und nach einer Intervention) erfolgen - Findet eine Intervention statt, sollte diese idealerweise evaluiert werden. Dies wird Veränderungsdiagnostik, Längsschnittdiagnostik oder Prozessdiagnostik genannt - Erfolgskontrolle als einmalige Überprüfung der Zielerreichung nach Beendigung oder - Verlaufs- oder Prozesskontrolle als begleitende, kontinuierliche Erfassung möglicher Veränderungen, z.B. durch Experience-Sampling (erlaubt ggf. Anpassung der durchgeführten Maßnahmen) 7. Mögliche Unterscheidung der Zielmerkmale Klassifikationssystem von Westhoff & Kluck (2008): Umgebungsvariablen: - Lebensumfeld, z.B. finanzielle Situation, Wohnsituation, Verkehrsbedingungen, Kommunikationsbedingungen Organismusvariablen: - körperliche Eigenschaften, z.B. Alter, Ernährungsgewohnheiten, Behinderungen Kognitive Variablen: - weitgehend stabile Fähigkeiten, z.B. Allgemeine Intelligenz, Kreativität, Problemlösefähigkeit Emotionale Variablen: - größtenteils Persönlichkeitseigenschaften, z.B. emotionale Stabilität, Umgang mit Belastungen, emotionale Bindung Motivationale Variablen: - z.B. Motive, Interessen, Werte, Ziele Soziale Variablen: - z.B. Normen, Einstellungen „KSAs + P“-Ansatz aus der Personalpsychologie: Kenntnisse (Knowledge): - berufsbezogenes Wissen, Fachkenntnisse, interkulturelles Wissen, … Fertigkeiten (Skills): - Aufgabenwissen und -können (z. B. Präsentationsfertigkeiten, Umgang mit Werkzeugen/Software, …), soziale Fertigkeiten/Kompetenzen (im Sinne eines Verhaltensrepertoires) Fähigkeiten (Abilities): - allgemeine kognitive Fähigkeiten (Intelligenz), spezielle kognitive Fähigkeiten (z.B. Konzentration) Persönlichkeit (Personality, breit aufgefasst): - als individuell einzigartiges, relativ überdauerndes und stabiles Verhaltenskorrelat (Big 5, Motive, z.T. Interessen, Einstellungen) 8. Methoden Diagnostik - Interviews - Verhaltensbeobachtungen - Zeugnisse - Psychometrische Tests: - Ziel: die absolute und relative Ausprägung einer Eigenschaft, einer Fähigkeit oder eines Zustands bei einer oder mehreren Personen zu messen oder aber eine qualitative Aussage zu treffen, welcher Personenklasse Personen zugeordnet werden können Mögliche grobe Unterteilung von psychometrischen Tests: - Leistungstests - Persönlichkeitstests / -fragebögen (selbst-/fremdberichtet) - Persönlichkeitstests (projektiv) Viele Tests können entweder analog oder computergestützt angewandt werden Leistungstests - Erfassen Dimensionen der kognitiven Leistungsfähigkeit - Antworten können (meist) als im logischen Sinn richtig oder falsch bewertet werden - Fordern maximales Verhalten, d. h. nur Dissimulation (Verfälschung „nach unten“) möglich - Übungseffekte sollten minimiert werden - Speed- oder Geschwindigkeitstests: - Einfache Aufgaben (meist von allen Proband*innen lösbar), Differenzierung durch Begrenzung der Bearbeitungszeit - Beispiel: d2-Test (Schmidt-Atzert, 2004) - Power- oder Niveautests: - Differenzierung durch schwierige Aufgaben (theoretisch nicht von allen Probanden lösbar) - Beispiel: Advanced Progressive Matrices (Raven, Raven, & Court, 1998) Persönlichkeitstests (selbst-/fremdberichtet): - Einsatz von Fragebögen - Erfassen von typischem Verhalten/Einstellungen/Erleben/... in Abhängigkeit der Ausprägung von Persönlichkeitsmerkmalen durch Selbst- oder Fremdauskunft - Verfälschbarkeit / gezielte Beeinflussung ist möglich - Beispiel: NEO-PI-R (Ostendorf & Angleitner, 2004) Persönlichkeitstests (projektiv): - Einsatz von mehrdeutigem Stimulusmaterial (Bilder, Satzanfänge/...) - Annahme der Projektion von Unbewusstem - Gründliche Prüfung der Gütekriterien unerlässlich - Beispiel: Picture-Story-Exercise (PSE, Schultheiss & Pang, 2007) Apparative Verfahren: - Erhebung von vornehmlich sensorischen und motorischen, teils auch kognitiven Merkmalen Computergestützte Verfahren: - Umsetzung etablierter Leistungs- und Persönlichkeitstests Adaptive Testverfahren 9. Durchführungsphase 4. Untersuchungsplanung und -durchführung - Planung von zeitlichem Ablauf und Formalia - Vorbereitung von Testleiter*innen und Protokollant*innen (z.B. Einarbeitung Manual, Erarbeitung Interviewleitfaden, Umgang mit Fragen) - Besondere Vorkommnisse während der Durchführung dokumentieren und Prozess wiederholt reflektieren 5. Datenauswertung - Passend zu den Hypothesen - Gemäß der vorher festgelegten Auswertungsregeln 6. Absicherung der Hypothesen / Integration verschiedener Verfahren zu einer Hypothese - Gemäß der Entscheidungsmodelle für die Hypothesen - Bei widersprüchlichen Ergebnissen ist das Ziel: „Befunddominanz“ 7. Beantwortung der Fragestellung / Integration der Ergebnisse verschiedener Hypothesen - Gemäß der Entscheidungsmodelle für die Urteilsfindung - In der Klinischen Psychologie häufig basierend auf Klassifikationssystemen, wie ICD-10/11 oder DSM-V 8. Falls 6 oder 7 nicht möglich: Weitere Verfahren 9. Rückmeldung an den Auftraggeber / Gutachten 7. Vorlesung Auswahl und Entwicklung geeigneter Verfahren & Qualitätsanforderungen 1. Einleitung Kernfragen - Wenn Verfahren vorhanden sind – Nach welchen Kriterien werden diagnostische Verfahren ausgewählt? - Wenn es noch kein Verfahren gibt – Wie werden diagnostische Verfahren entwickelt? Anspruch: - Möglichst hohe Qualität der diagnostischen Verfahren Was bedeutet „Qualität von Diagnostik“? - Präzise Erfassung - Minimale Verzerrungen - Erfüllung von Zielen und Zwecken (u.a. Selektion, Klassifikation, Förderung) 2. Qualität und Gütekriterien – Überblick Hauptgütekriterien Nebengütekriterien 3. Hauptgütekriterien – Objektivität Definition: - Objektivität bedeutet, dass die Ergebnisse des diagnostischen Verfahrens unabhängig davon zustande kommen, wer die Untersuchung, die Auswertung und die Interpretation durchführt - Eine Messung oder Beurteilung, die nicht objektiv ist, kann auch nicht reliabel oder valide sein Arten: 1. Durchführungsobjektivität – Anwender:inunabhängigkeit: - Unabhängigkeit des Diagnoseergebnisses von der Person, die die Diagnose durchführt - (mögliche Verzerrungen: Halo-Effekt, Rosenthal-Effekt – Testleiter:inerwartung) 2. Auswertungsobjektivität – Verrechnungssicherheit: - Unabhängigkeit des Diagnoseergebnisses von der Person, die die Diagnose auswertet - (mögliche Verzerrungen: unklare Kriterien) 3. Interpretationsobjektivität – Interpretationseindeutigkeit - Unabhängigkeit des Diagnoseergebnisses von der Person, die die Diagnoseergebnisse interpretiert Beispiel: Lerndiagnostik (Ingenkamp & Lissmann, 2008): 1. Durchführungsobjektivität – Testleiter:inunabhängigkeit: - Ziel: „dass alle Lernenden den gleichen Anforderungen unter gleichen Bedingungen unterzogen werden“ - Maßnahmen: Vereinheitlichung von Aufgabenstellung, Bearbeitungszeit, Erläuterungen der Aufgaben, Instruktionen, Anweisungen, Hilfsmittel etc. (Standardisierte Bedingungen) 2. Auswertungsobjektivität – Verrechnungssicherheit - Ziel: einheitliche Bewertung von Verhalten und Lernergebnissen - Maßnahmen: eindeutige Bewertungskriterien, Schulung der Diagnostizierenden, vorgegebene Antworten (Ankreuzen, Eintragen einer Zahl oder eines Wortes) 3. Interpretationsobjektivität – Interpretationseindeutigkeit - Ziel: gleiche Interpretation des Auswertungsergebnisses - Maßnahmen: Normtabellen Quantitative Diagnostik – Quantitative Objektivitätskriterien 4. Hauptgütekriterien – Reliabilität Synonyme: - Zuverlässigkeit, Messgenauigkeit, Präzision Definition: - „wie gering oder stark ein Test durch Messfehler verzerrt ist“ (Döring & Bortz, 2016, S.442) - „dass die … gewonnenen Ergebnisse präzise sind, d.h. ohne Fehler in der Merkmalserfassung“ (Kubinger, 2019, S.62) Arten – quantitative Prüfung: - Interne Konsistenz – Testhalbierung (Split-Half), Konsistenzanalysen - Stabilität - Test-Retest-Reliabilität - Äquivalenz - Paralleltest-Reliabilität Koeffizienten und Beurteilung – Orientierungswerte 5. Hauptgütekriterien – Validität Synonym: - Gültigkeit Definition – Testvalidität: - „inwieweit ein Test auch wirklich die Eigenschaft erfasst, die er zu messen vorgibt“ Neuere Auslegung – Interpretationsvalidität: - „Ausmaß, in dem Evidenz und Theorie die Interpretation von Testwerten rechtfertigen“ Arten – „Historische Unterscheidung“ 1. Inhaltsvalidität: - „wie repräsentativ die Items eines Tests für das zu messende Merkmal sind“ 2. Konstruktvalidität (Übereinstimmungsgültigkeit): - Überprüfung theoretischer Aussagen über das zu messende Merkmal - 14 „Bedrohungen der Konstruktvalidität“: u.a. Mono-Methoden-Bias, Reaktivität (Hawthorne-Effekt), Rosenthal-Effekt 3. Kriteriumsvalidität (Vorhersagegültigkeit): - „Ausmaß, in dem das Testergebnis mit konkreten Leistungen oder Verhaltensweisen außerhalb der Testsituation korrespondiert“ 6. Hauptgütekriterien – Validität Und wie bestimmt man die Validität von qualitativen Verfahren? 2 Optionen (Döring & Bortz, 2016, S.107): - Orientierung an der quantitativen Forschung: problematisch - Entwicklung eigener Kriterien – mehr als 100 Kriterienkataloge! Döring & Bortz (2016, S.112-114) - Objektivität: im Allgemeinen nicht gegeben – Maßnahmen - Transparenz: Verfahrensdokumentation (Transparenz, Expliziertheit), Regelgeleitetheit (z. B. Transkription), reflektierte Subjektivität - Validität: - Kommunikative Validierung: Hat die diagnostizierte Person die Aussagen so gemeint, wie sie erfasst, abstrahiert und systematisiert wurden? - Explanative Validierung: Korrespondiert das Verhalten der diagnostizierten Person mit ihren Aussagen? 7. Nebengütekriterien Normung: - „Einordnung des individuellen Testergebnisses in ein Bezugssystem“ - Arten von Normen: statistisch (z. B. altersspezifische Normwerte, Mittelwert und Streuungen, Prozentränge), individuell, absolut Skalierung: - adäquate Verrechnung der Einzelitems zu einem Gesamtwert (z. B. einfache und gewichtete Summierung) Unverfälschtheit: - kein Einfluss von Fragenformulierung, sozialer Erwünschtheit, Durchschaubarkeit des Testzwecks oder persönlichen Interessen (z. B. Schmerzensgeld) Ökonomie: - angemessene Kosten-Nutzen-Relation (Material, Personal etc.) Nützlichkeit: - hohes praktisches Bedürfnis – keine vergleichbare Diagnostik existent Zumutbarkeit – Akzeptanz: - akzeptable zeitliche, physische und mentale Beanspruchung – intime persönliche Fragen – Vermeidung von Vorbehalten Fairness: - Vermeidung von systematischen Benachteiligungen, z. B. diversitätsbedingten Diskriminierungen (Gender, soziale Herkunft, Kultur) Vergleichbarkeit: - Existenz von Parallelformen oder validitätsähnlichen Tests 8. Entwicklung geeigneter Diagnoseverfahren – Grundlegende Entscheidungen Eigenschaften - Definition, Struktur, Merkmale Zielgruppe: - Alter, Geschlecht; Bildungsniveau, Gesundheitszustand, soziokulturelle Merkmale Ziele: - Prozess- oder Produktdiagnostik; Bedingungs- oder Voraussetzungsdiagnostik Anwendungszweck: - summativ – formativ; Selektion – Kategorisierung etc. Einsatzbedingungen: - Durchführung, Auswertung, Interpretation; analog – digital (online – offline) 9. Zusammenfassung Auswahl von Diagnoseverfahren: Orientierung an Qualitätskriterien - Objektivität, Reliabilität, Validität - Normierung, Skalierung, Ökonomie, Nützlichkeit - Unverfälschtheit, Zumutbarkeit – Akzeptanz, Fairness, Vergleichbarkeit Entwicklung von Diagnoseverfahren: anspruchsvoller und komplexer Prozess - … es gibt auch eine DIN für die Qualität von Diagnostik (Jürgens & Lissmann, 2015, S.140-142): DIN 33430 – Berufsbezogene Eignungsdiagnostik 8. Vorlesung Wege der Informationsbeschaffung (Beobachten, Befragen, Messen, Testen, …) 1. Einleitung Diagnostische Verfahren: Klassifikationskriterien - Kern des diagnostischen Prozesses Vielfältige Optionen: - hier Überblick und exemplarische Behandlung 2. Beobachtung Definition: „Beobachtung“ – spezielle Form der Wahrnehmung: - „zielgerichtete, systematische und regelgeleitete Erfassung, Dokumentation und Interpretation von Merkmalen, Ereignissen oder Verhaltensweisen mithilfe menschlicher Sinnesorgane und/oder technischer Sensoren zum Zeitpunkt ihres Auftretens“ → Abgrenzung: „Beurteilung“ (Bewertung/Interpretation von Beobachtungen) Merkmale: - Zielgerichtet – systematisch – regelgeleitet („methodisch kontrolliert“) - Selektion von Beobachtungsobjekten - Mittel: Sinnesorgane (primär Sehen und Hören) oder technische Sensoren - Außenperspektive – „sinnlich wahrnehmbares Verhalten“ Beobachtungskriterien bzw. –Kategorien – - aus einem Modell oder einer Theorie abzuleiten! Indikation: - Eingeschränkte Auskunftsfähigkeiten (z. B. verbale Kompetenzen von Kleinkindern) - Automatische und unbewusste Verhaltensweisen (z. B. Mimik, Gestik) - Eingeschränkte Auskunftswilligkeit (z. B. Gesetzesbrüche) - Durchführung non-reaktiver Verfahren (keine oder geringe Reaktivität) - Kontinuierliche Abbildung von Verhalten im Zeitverlauf (z. B. Sportspiel, Unterrichtsverlauf oder Kundengespräch) - Ethische Limitationen – Alternative zu Auskünften von Dritten Arten – Differenzierungsmerkmale - Frei/unstrukturiert – systematisch/strukturiert (gebunden): - Frei – Ziel, keine Vorgabe eines Schemas - Systematisch – präzises und differenziertes Schema - Direkt – indirekt (Aufzeichnung) - Offen – verdeckt - Offen: Teilnehmend – nicht-teilnehmend - Feld – Labor; Offline – Online - Kontinuierlich – diskret (Zeit- oder Ereignisstichproben) - Fremd – Selbst - Qualitativ – quantitativ - Index- bzw. Zeichensystem (selektiv - konkret) – Kategoriensystem (vollständig – abstrakt, informationshaltiger) Gütekriterien – Beobachtungsfehler Beobachtungssituation: - Reaktivität – Artifizialität (Labor) - Durchführungsfehler (Technik, Dokumentation) Person des/der Beobachtenden (Multi-Tasking): - Wahrnehmungsfehler (überforderte Differenzierungs-fähigkeit, Selektion, Halo, Ermüdung, Motivation etc.), - Interpretations- und Urteilsfehler (Tendenz zur Mitte, Ankereffekte, persönliche Urteilstendenzen – Milde, Strenge), - Erinnerungsfehler (limitiertes Arbeitsgedächtnis), Wiedergabefehler (Verzerrungen durch Milde, Zeitdruck oder Zeitsparen) Beobachtungsschema: - Komplexität – unscharfe Kriterien 3. Befragung Definition: - zielgerichtete, systematische und regelgeleitete Generierung und Erfassung von verbalen Äußerungen … zu ausgewählten Aspekten ihres Wissens, Erlebens und Verhaltens in mündlicher Form Diagnostisches Interview: - „Überbegriff für Methoden zur Erhebung von diagnostisch relevanten Informationen mittels Gespräch“ - Nähere Bestimmung des Zwecks/Ziels: Anamnese, Exploration, Einstellungsgespräch, Auswahlgespräch Befragung – dialogisches/interaktives Verfahren: - bei dem „ein Proband durch gezielte Fragen zu Angaben über sich selbst und sein Umfeld angeregt werden soll Indikation - Generell: Erfassung von subjektivem Erleben, Wissen und Verhalten, das nicht durch Beobachtung oder andere Verfahren erfasst werden kann Vorteile von mündlichen Befragungen: - Niedrigschwellige, alltagsnahe Methode - Live-Situation – persönliche Atmosphäre – Kontrolle über Situation – umfassendes Bild der Interviewperson - Flexibilität und Komplexität: viel Information in kurzer Zeit (auch komplizierte Inhalte) - Nachfragen – keine Bindung an Lese- und Schreibkompetenzen Vorteile von schriftlichen Befragungen: - Ökonomie (Kosten, Zeitaufwand): viele Befragungen in kurzer Zeit zu zahlreichen Aspekten – ohne Termindruck - Anonymität und Diskretion Mündlich (Interview) – Varianten: - standardisiert/strukturiert – teilstrukturiert (Leitfaden) – offen; - qualitativ – quantitativ - Einzel-, Paar- und Gruppenbefragung - Persönlich – telefonisch – online Schriftlich: Fragebogen – Varianten und Komponenten: - Nicht-standardisiert – teilstandardisiert – vollstandardisiert - Qualitativ – quantitativ - Paper-and-Pencil, elektronisch - Postalisch – Online – mobil - Fragentypen: offen – geschlossen; single choice, multiple choice etc. - Antwortskalen (siehe Tests): Skalenniveau, psychometrische Skalen Befragungs- und Beurteilungsfehler Interviewende: - mangelnde Kommunikations- oder Sozialkompetenz; soziodemografische Passung zu den Interview- Partner:innen (z. B. Gender, Alter); äußeres Erscheinungsbild; verbales und non-verbales Verhalten; Schulung bzgl. Der Befragungstechnik; Befragungsverfälschungen (Selbstantworten) Befragte Personen: 90% versuchen sich positiv darzustellen - Interview-Verweigerung, Ablehnung einzelner Fragen, Antwortverfälschungen, Abschweifen, äußeres Erscheinungsbild, Eindrucksmanagement, verbales und non-verbales Verhalten Interviewinstrument und –durchführung: - fehlende adressatengerechte Gestaltung (z. B. Kinder, Jugendliche, Ältere), Anspruchsniveau der Fragen, Wahl von Ort, Termin und Zeit(dauer), - besondere Vorkehrungen bei qualitativen Interviews erforderlich Dokumentation und Auswertung: - unvollständige Dokumentation, unklare Regeln für Aufbereitung und Auswertung Gütekriterien Standardisierte, strukturierte Interviews - Objektivität: Anstieg mit steigender Standardisierung von Durchführung und Auswertung - Reliabilität: Interrater-Reliabilität zwischen.44 und.74 - Validität: Inhaltsvalidität, z. B. klinische Interviews – Berücksichtigung aller Krankheitskriterien (Pathologisches Glücksspielen – 3 Symptome: Kontroll-beeinträchtigung, zunehmende Priorität, Fortsetzung/ Eskalation trotz negativer Konsequenzen – ICD-11 Code 6C50) Konstruktvalidität – lückenhafte Datenlage (Eignung: zwischen.08 und.65) Kriteriumsvalidität: Eignungsdiagnostik – schwach; Berufs-/Ausbildungserfolg – hoch Planungsempfehlungen Konstruktion von Interviews – 3 Phasen: 1. Grobaufbau: Einleitung – Hauptphase (Themenblöcke) – Abschluss 2. Fragen finden – abhängig von Diagnosegegenstand (Anforderungen, Kriterien), -ziel, Zielgruppe etc. 3. Detail-Ausarbeitung – Ausformulierung der Fragen Wichtige Hinweise zur Fragenformulierung: - Einstieg: offene Fragen - Kurze und verständliche Sätze - Erfragung von konkretem Verhalten - Kontext als Gedächtnisstütze - Vermeidung von Fachbegriffen und Fremdwörtern - Keine Suggestivfragen, keine bewertenden Fragen Qualitätsverbesserung von mündlichen Prüfungen: - Bekanntgabe von Anforderungen und Bewertungskriterien - Teamprüfung (Objektivität) - Schulungen (Objektivität) - Fragenkataloge Auswertung Standardisierte Interviews: Skalen: - dichotom (ja – nein); - Nominalskalen (z. B. Beruf oder taktische Position) - Rangskalen (z. B. 5 Stufen: sehr niedrig – niedrig – mittel – hoch – sehr hoch) - Intervallskalen (z. B. Einkommen oder Alter) Qualitative Auswertung: - verschiedene Verfahren – - Orientierung an den diagnostischen Fragen 4. Schriftliche Befragung Definition - zielgerichtete, systematische und regelgeleitete Generierung und Erfassung von verbalen und numerischen Selbstauskünften … zu ausgewählten Aspekten ihres Erlebens und Verhaltens in schriftlicher Form Qualität – Fehler - Mangelnder Bezug der Items zu den Diagnosefragen - Mangelnde Beachtung der Bedingungen der Zielgruppe - Ungeprüfte Adhoc-Formulierung eigener Items - Ungeeignetes Skalenniveau: Nominal – Ordinal – Intervall – Verhältnis (siehe Tests) - Häufiger Wechsel des Antwortformats - Länge → Ermittlung in Vortests - Zu viele Detailabfragen Empfehlungen - Klare, verständliche Instruktionen - Konkrete Formulierungen (keine allgemeinen, vagen oder mehrdeutigen Begriffe) - Informationsniveau der Befragten beachten - Keine ungebräuchlichen Begriffe - Keine Fremdwörter oder Fachbegriffe (falls unvermeidlich: Begriff erläutern) - Keine doppelten Verneinungen - Keine Suggestivfragen - Keine Abkürzungen - Einfache und kurze Sätze - Keine 2 Aspekte in einer Frage/Aussage - Zielgruppengerechte Formulierungen - Sprachniveau & Wortschatz der Befragten beachten - Häufigkeitsfragen – konkret auf Einheit beziehen (z. B. wie viele Stunden pro Woche) - Genaue Definition von Zeitspannen (z. B. in den letzten 14 Tagen) - Sparsame Hervorhebung wichtiger Begriffe Qualitätsverbesserung von schriftlichen Prüfungen - Bekanntgabe von Anforderungen und Bewertungskriterien - Teamauswertung - Musterarbeiten (unterschiedliche Qualität) - Regel- und Kriterienkataloge Beispiele - Befindlichkeit – SBS-BZ – Wiederholung (Kapitel 7) - Persönlichkeitsfragebögen (Schmidt-Atzert & Amelang, 2018, S.239-288; Schmidt-Atzert, Krumm & Amelang, 2021, S.322-361) – MMPI, FPI, NEO - Fragebogen zur Erfassung aktueller Motivation in Lern- und Leistungssituationen – FAM (Rheinberg et al., 2019) - PACES – Physical Activitity Enjoyment Scale (Kendzierski & DeCarlo, 1991) - PARQ – Physical Activity Readiness Questionnaire 5. Messungen Definition: - zahlenmäßiges Vergleichen einer unbekannten, zu messenden Größe mit einer bekannten Größe gleicher Art, die durch ein Normal, eine ‚nach Zweckmäßigkeitserwägungen vereinbarte Einheit definiert ist Grundbegriffe: Messgröße - zu bestimmende Eigenschaft eines Objektes z. B. Sprungweite, Herzfrequenz oder Temperatur Messwert - Produkt aus dem Zahlenwert und der Einheit z. B. 9,80 Meter (m), 120 Schläge pro Minute oder 35°C Messergebnis - Direkte Messung: Messergebnis = Messwert z.B. Sprungweite = 9,80 m - Indirekte Messung: Berechnung des Messergebnisses aus einem/ mehreren Messwerten (Messwertverarbeitung) Kernfragen: Was wird gemessen? → Eigenschaften eines (Mess-)Objektes - Prozesseigenschaften (techn., psychischer oder biolog. Prozess) Prozessparameter (relativ fest; z.B. Körpergröße oder Lerndisposition) Prozessvariablen (veränderlich; z.B. Aufmerksamkeit oder Motivation) - Produkteigenschaften (Ergebnis des Prozesses) Qualitative Eigenschaften (Güte) Quantitative Eigenschaften (Menge) Warum wird gemessen? → Ziel von Messungen - Quantitative und - Objektive Ermittlung von Objekteigenschaften Wozu wird gemessen? → Zweck von Messungen - Entscheidungsgrundlage - Verwerfen/Annehmen einer Hypothese - Bewertung einer Lern- oder Trainingsmaßnahme - Feedback etc. Messeinrichtung – Aufbau Allgemeiner Messprozess nach Profs Qualität – Messfehler „Messfehler“ = Abweichung zwischen Messwert/Messergebnis und tatsächlichem (wahrem) Wert - Jede Messung ist fehlerbehaftet! Grober Fehler - singulär, d.h. auf Einzelwerte beschränkt (z.B. „Ausreißer“) - Ursache: i.d.R. menschliches Versagen Systematischer Fehler - auf Messwertreihe bezogen - konstantes Vorzeichen, reproduzierbar Zufälliger Fehler - Streuung ohne einseitige Richtung - zufällige, nicht kontrollierbare Faktoren Totaler Fehler (systemat.+ zufällige Fehler) 6. Test Definition: Test – mehrere Bedeutungen – hier relevant: - „standardisierte Verfahren zur Erfassung latenter Variablen“ Psychologischer Test: - „wissenschaftliches Datenerhebungsverfahren, das aus mehreren Testaufgaben (Testbogen/Testmaterial) sowie festgelegten Regeln zu deren Auswertung (Testmanual) besteht“ Merkmale: - standardisierte Reizvorlagen (Fragen, Aufgaben); - standardisierte Untersuchungsbedingungen; - theoretische und empirische Fundierung Gegenstandsbereiche – extrem breit - Persönlichkeit (Intelligenz, Motivation, Emotionen) Ziel: (quantitative oder qualitative) Erfassung eines latenten psychologischen Merkmals Pädagogische Tests: - „Verfahren der Pädagogischen Diagnostik, mit deren Hilfe eine Verhaltensstichprobe, die Voraussetzungen für oder Ergebnisse von Lernprozessen repräsentieren soll, möglichst vergleichbar, objektiv, zuverlässig und gültig gemessen und durch Lehrer oder Erzieher ausgewertet, interpretiert und für ihr pädagogisches Handeln nutzbar gemacht werden kann“ Gegenstand: Voraussetzungen und Ergebnisse von Lernprozessen Ziel: Erfassung und pädagogische Nutzung Motorische Tests: - „wissenschaftliche Routineverfahren zur Untersuchung eines oder mehrerer theoretisch definierbarer oder empirisch abgrenzbarer Persönlichkeitsmerkmale“ Gegenstandsbereich: individuelles, allgemeines oder spezielles motorisches Fähigkeitsniveau Ziel: möglichst quantitative Aussage Testarten Skalenniveau Aufgabentypen Antwortenskalen – allgemein und psychometrisch Gütekriterien – Fehlerquellen Gütekriterien: - Objektivität: Durchführung – Auswertung – Interpretation - Reliabilität: Stabilität – Äquivalenz – Konsistenz - Validität: Inhalt – Konstrukt (konvergent – diskriminant – faktoriell) – Kriterium (retrospektiv – konkurrent – prognostisch) - Nebengütekriterien Fehlerquellen: - Test: u.a. veraltete Normwerte, mangelnde Gütekriterien - Testanwendung: u.a. fehlende Einhaltung der Durchführungsvorschriften - Testperson: u.a. Versuch der Testbeeinflussung, verschiedene Verfälschungsursachen (siehe Befragung) Testtheorie Klassische Testtheorie (KTT) – „Messfehlertheorie“ - (deterministische „Theorie des wahren Wertes“: Gemessener Wert = Wahrer Wert + Fehler) - Objektivität, Reliabilität, Validität - Fehlerrechnung Probabilistische Testtheorie oder Item-Response-Theorie (IRT) - (Merkmale = latente Dimensionen; Testitems = Indikatoren der latenten Dimensionen) - Itemcharakteristik = Wahrscheinlichkeit der Itemlösung (in Abhängigkeit von der Fähigkeit) 7. weitere Verfahren – Dokumentation & Reflexion Lerninventur Definition: - Bestandsaufnahme – aktueller Status „lernbegleitendes und prüfungsunterstützendes selbstevaluatives Verfahren“ Empfehlungen: - „Vorbereitungsfairness“ enge Korrespondenz Inventur - Prüfung: Inhalte und Aufgabenformate - Einsatz von Checklisten – verschiedene Antwortskalen (dichotom – Ratingskalen) Tagebuch Definition: - Erfassung von individuellen Beobachtungen, Bewertungen, Erfahrungen und Reflexionen zu eigenen Aktivitäten (z. B. Lernen) in einer persönlichen Form Merkmale: - Offen und wenig strukturiert (im Gegensatz zum Journal) - Ganzheitlich - Niedrigschwellig - Geringer organisatorischer Aufwand Leitfragen: - Was habe ich gemacht? - Wie bin ich vorgegangen? - Was habe ich erfahren und gelernt? - Wie habe ich mich dabei gefühlt? - Wie ist das zu bewerten? Lernjournal Definition: - Strukturierte Dokumentation von eigenen Aktivitäten, Erfahrungen etc. Portfolio Definition: - „strukturierte Sammlung von Leistungen einer Person“ Merkmale: - Systematik – Struktur - Elemente: Texte, Bilder, Videos, Hörproben, Arbeitsproben Arten: - Arbeitsportfolio - Beurteilungsportfolio - Vorzeigeportfolio - Entwicklungsportfolio - Bewerbungsportfolio Vorteile (im Vergleich zu Beobachtungen, Befragungen, Messungen, Tests): - flexiblere und partizipative Diagnostik (z. B. Lernen) - kontinuierlichere Diagnostik - multimodale bzw. multimediale Dokumente - differenziertere Beurteilung und Feedback Herausforderungen – Probleme: - Logistik: Auswahl, Speicherung etc. - Gütekriterien - Akzeptanz - Kompetenzen der Diagnostizierenden Projektive Verfahren Definition - Verfahren, die eine freie und nicht a priori festgelegte Auseinandersetzung mit oder Reaktion auf Stimuli oder Material anregen Gütekriterien: - (eines der umstrittensten diagnostischen Verfahren) - fragliche Auswertungs- und Interpretationsobjektivität - Geringe Reliabilität – fehlende Messgenauigkeit und Stabilität Beispiele: - Rohrschach-Tests - Thematischer Auffassungs-Test (TAT) – Konfrontation mit mehrdeutigen - Bildvorlagen - Familie in Tieren 8. Zusammenfassung Diagnostische Verfahren: - große Vielfalt an Verfahren und Varianten Beobachtung – selektive Wahrnehmung: - Außensicht – zahlreiche Varianten Befragung: - Perspektive der Befragten – ebenfalls zahlreiche Varianten - mündlich - schriftlich Messung: - Systematische Zuordnung numerisches – empirisches Relativ - Messfehler - Gütekriterien Testverfahren: - Messung plus Vergleich - Gütekriterien – Normen Alternative Verfahren: - Sinnvolle Ergänzungen der Diagnostik - Eingeschränkte Gütekriterien 9. Vorlesung Diagnostische Untersuchung 1. Gestaltung der Untersuchungssituation Durchführung zu Hause vs. Unter Anleitung in Untersuchungsräumen Hierbei zu berücksichtigen: - Gewährleistung einer standardisierten Durchführung - ökonomischen, ökologischen und Komfortgründe (Anreisezeit, Arbeitszeit) Richtlinien zur Internetbasierten Testung: - Hard- und Software-Voraussetzungen incl. stabile Internetverbindung - bestimmte ergonomische Anforderungen (z. B. angemessene Schriftgröße oder Möglichkeit, zur Instruktion zurückzugehen) - Authentizität der Testperson; Schummeln ausschließen - Datensicherheit (Übertragung der Testergebnisse) Gruppen- oder Einzeltestung - Gruppentestung ökonomisch - Einzeltestung ermöglicht genauere Beobachtung, individuelle Interaktion Papier- und Bleistift- oder Computertest - Auswertung von Papier und Bleistift Test fehleranfälliger; bei manchen Personengruppen ist diese Variante aber akzeptierter/angemessener - Auswertung bei Computertest schnell und zuverlässig Nachteile: Computerarbeitsplätze nötig; Anschaffungskosten der Testsoftware - Testing on Demand: Test wird über Internet beim Testverlag durchgeführt Ergebnisse stehen direkt nach der Durchführung zur Verfügung; Einzelanwendung teuer Abfolge der Verfahren und Untersuchungsdauer Belastbarkeit der Person beachten - Alter - Kognitive oder psychische Einschränkungen Je länger die Testung, desto geringer werden Compliance und Motivation Dem entgegenwirken durch: - Abwechslung - Pausen - Mehrere Untersuchungstermine 2. Durchführung und Auswertung Aufklärung - Informierte Einwilligung (engl.: informed consent ) notwendig Aspekte: - Zweck der Untersuchung - Beteiligte - Art der Verfahren - Dauer - Ergebnismitteilung - Schweigepflicht - Freiwilligkeit - Konsequenzen einer (Nicht-) teilnahme Nachweispflicht, wirkt sich aber auch positiv auf Testung aus! - Datenschutz beachten: Datenschutz-Grundverordnung Personenbezogene Daten: - alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen Besonders schutzwürdige Daten: - Ethnizität, politische Meinung, Religionszugehörigkeit, Gewerkschaftszugehörigkeit, genetische oder biometrischen Daten, Gesundheitsdaten, Sexualleben/sexuelle Orientierung Genau Begründen Rechte betroffener Personen bzgl. Ihrer Daten - Auskunftsrecht, Recht auf Berichtigung personenbezogener Daten und auf Löschung - Zu wissen, zu welchem Zweck die Daten verarbeitet und wie lange sie gespeichert werden Gute Arbeitsbedingungen Ziel: Situation schaffen, in der maximale Leistung gezeigt werden kann - genügend Platz, gute Lichtverhältnisse, keine Störungen, angenehme Temperatur, ausreichend Frischluft - Störungen vermeiden durch „Bitte nicht Stören“ Schild, Smartphones ausschalten, Pausenzeiten angeben - Abbau von Testangst durch Aufwärmphase (Übungsaufgaben) und ggfl. Entspannungstrainings Standardisierung der Untersuchungsbedingung - Durchführungsbedingungen für alle Teilnehmer*innen konstant halten - Schulung für Personal Testauswertung - Potenzielle Fehlerquelle -> Sorgfalt sehr wichtig - Falls computergestützte Tests nicht möglich sind, können Testauswerteprogramme helfen 3. Mitteilung eines Testergebnisses Wann ist ein Testwert durchschnittlich bzw. unter oder überdurchschnittlich? - Es hängt von der Konvention ab Durchschnittlich: - Häufig +/- 1 Standardabweichung -> umfasst 68% aller Menschen - Manchmal: Bereich, in dem 50% aller Werte liegen Marburger Modell 5 Bereiche zur Klassifikation der Ausprägung eines Merkmals - Mittlerer Bereich („durchschnittlich“) umfasst Mittelwert +/− halbe Standardabweichung - bei Standardwerten also Bereich von 95 bis 105 - 38 % der Personen durchschnittlich - Die weiteren Bereiche ([sehr] hoch/niedrig) umfassen jeweils eine ganze Standardabweichung - Bei Standardwerten also den Bereich von 105 bis 115/ 115 bis 125 bzw. 95 bis 85/85 bis 75 Merkmalsausprägung kann auf einer 5-stufigen Skala visualisiert werden - Konfidenzintervalle werden ebenfalls visualisiert - Bezugnahme auf herangezogene Referenzgruppe Standardmodell Mitteilung eines Testergebnisses - Das Merkmal (z. B. „verbale Intelligenz“) wird benannt - Die Ausprägung des Merkmals wird auf einheitliche Weise sprachlich eingeordnet (z. B. „durchschnittlich“) - Die Referenzgruppe (z. B. „gleichaltrige Männer“) wird erwähnt - Das Vertrauensintervall (siehe folgende Inhalte zu Einzelfalldiagnostik) wird mitgeteilt (z. B. „…kann unter Berücksichtigung der Messgenauigkeit des Verfahrens auch als ‚durchschnittlich‘ bezeichnet werden“) - Weitere Details je nach Auftrag, Fragestellung und psychologischer Frage 4. Psychometrische Einzelfalldiagnostik Untersuchungseinheiten - N = eine Person (Einzelperson) - N = eine Gruppe (z. B. eine Schulklasse oder Therapiegruppe) - N = eine Organisation (z. B. Partei, Jugendverband) - N = eine Gesellschaft oder Kultur (z. B. der Stamm der Tuareg) Ein diagnostisches Verfahren ist nie perfekt zuverlässig (reliabel) Testwert ist also eine Annäherung an wahren Wert, da er auch Messfehler enthält - Existenzannahme: Es existiert ein wahrer Testwert („true score“) als Erwartungswert einer Messung - Verknüpfungsanahme: Jede Messung setzt sich aus dem wahren Wert und einem „zufälligen“ Messfehler zusammen Konfidenzintervalle Kritische Differenz - Nötig zum Vergleich zweier Testwerte innerhalb einer Person oder zwischen mehreren Personen - Ist der gefundene Unterschied bedeutsam oder nur auf den Messfehler zurückzuführen (also Zufall)? - Wie groß muss eine Differenz sein, um nicht allein mit dem Messfehler erklärt werden zu können? Achtung: Anzahl Vergleiche möglichst geringhalten - Viele Vergleiche bergen Gefahr von fälschlicherweise signifikanten Effekten -> multiples Testen - Ideal: hypothesengeleitetes Vorgehen 5. Zusammenfassung Berücksichtigung von Konfidenzintervallen und/oder kritischen Differenzen muss bei professioneller Diagnostik die Regel sein! Die Reliabilität hat bedeutsamen Effekt auf Interpretation der individuellen Testergebnisse! - Je geringer die Reliabilität der Messung, - desto breiter das Konfidenzintervall und - desto größer die kritische Differenz (ab der von einem bedeutsamen Unterschied zwischen Testwerten ausgegangen werden kann) - Je geringer die Irrtumswahrscheinlichkeit (z. B. 5% vs. 1%) - desto breiter das Konfidenzintervall und - desto größer die kritische Differenz 10. Vorlesung Diagnostische Entscheidung 1. Formen der Urteilsbildung Diagnostisches Urteil - Beantwortung einer Fragestellung unter Verwendung von bereits vorliegenden diagnostischen Informationen Klinische (intuitiv) Urteilsbildung - Urteil entsteht auf Basis subjektiver, intuitiver und informeller Einschätzungen Mechanische/statistische Urteilsbildung - Urteil entsteht auf Basis Fester Regeln, Formeln und Algorithmen - Mechanisch = festgelegte Formel - Statistisch = aufgrund empirischer Daten z. B. mittels Regressionsmodellen Klinische vs. mechanische Urteilsbildung Probleme klinischer Urteilsbildung: Anfälligkeit für bestimmte Urteilsfehler - Menschen (vs. Maschinen) ignorieren oft Basisrate - (Wie oft kommt etwas in der Population vor?) - Seltenes wird oft überschätzt - Falsche Gewichtung von Informationen -. B. Availability Heuristik: Übergewichtung von leicht verfügbaren Informationen - Regression zur Mitte wird vernachlässigt - Regression zur Mitte: Extreme Messwerte in Erstmessung werden sich bei Testwiederholung in Richtung Skalenmitte (dem Durchschnittswert) verschieben; Effekt umso größer, je extremer Messwert bei erster Messung Fazit - Mechanische/statistische Methode der klinischen leicht überlegen - Statistisches Urteilsmodell nur mit Informationen möglich, die für alle Proband*innen vorliegen - Große Fallzahlen bei einer einheitlichen Fragestellung nötig - Wenn Forschungsergebnisse zur Bestimmung einer Verrechnungsformel fehlen, gibt es keine Alternative zur klinischen Urteilsbildung - Statistische Methode nie kritiklos anwenden - Wenn ein seltenes Ereignis vorliegt, das von dem Prognosemodell nicht berücksichtigt wurde, aber für das Urteil relevant ist, sollte dieses Wissen genutzt werden („broken leg cue“) Optimierungsvorschläge für mechanische/statistische Urteile - In begründeten Fällen (!) mechanische Vorhersage korrigieren oder ganz durch klinische ersetzen - Statistische Modelle kontinuierlich überprüfen und evtl. verfeinern - Mediatoren/Moderatoren - Kreuzvalidierung - Intelligente statistische Methoden verwenden (nicht nur lineare Zusammenhänge; z. B. künstliche neuronale Netzwerke) 2. Arten Diagnostischer Entscheidungen Klinische und statistische Urteilsbildung: Fokus auf Art der erhobenen Daten und die Art der Datenkombination - Ergebnis des diagnostischen Prozesses - Antwort auf Fragestellung Entscheidungsfindung: Wie werden Urteile genutzt, um Entscheidungen zu treffen? - Praktische Konsequenz (z. B. Empfehlung einer Intervention, Auswahlentscheidung) - Abhängig vom diagnostischen Prozess (z. B. Qualität der Instrumente, Antwort auf Fragestellung) 3. Unterscheidungsmerkmale Nutzen für Institution vs. Individuum - Institutionell: Organisation untersucht alle Personen in der gleichen Weise nach einem standardisierten Vorgehen (z. B. Auswahlverfahren) - Individuum: einzelne Person sucht Rat (z. B. Berufsberatung) Festgelegte vs. variable Annahmequote - Festgelegte Annahmequote: nur eine bestimmte Anzahl an z. B. Therapie oder Ausbildungsplätzen ist vorhanden - Variable (nicht festgelegte) Annahmequote: z. B. alle Therapiebedürftigen erhalten eine Therapie Singuläre vs. multiple Behandlung/Maßnahme/Intervention/Testung - Singulär: eher eng umschriebene, einzelne Maßnahmen (z. B. Verhaltenstherapie) - Multipel: Kombination verschiedener Maßnahmen (z. B. Verhaltenstherapie und Einbezug der Familie/Kolleg*innen in den Behandlungsplan) Möglichkeit von Ablehnungen: Ja vs. Nein JA -> Selektion: Ablehnungen aufgrund von Testergebnissen sind möglich - Klassische Struktur von Selektionsparadigmen NEIN -> Platzierung: Alle Proband*innen verbleiben im System - Horizontale bzw. vertikale „Verschiebung“ zu den möglichen „Interventionen“ - Niemand wird ausgeschlossen Univariat vs. multivariat - Univariat: diagnostische Information beschränkt sich auf eine Dimension (Variable) - Multivariat: Informationen liegen zu mehreren Dimensionen (Variablen) vor - mehrere Prädiktoren erhöhen oft die Entscheidungssicherheit Terminal vs. Investigatorisch - Terminal (einstufig): Entscheidung weist einer Person eine Behandlung zu, in der sie mehr oder weniger lange verbleibt - Investigatorisch (sequentiell, mehrstufig): Entscheidung ist der erste Schritt eines mehrstufigen Entscheidungsverfahrens (z. B. mehrstufige Bewerber* innenauswahl) 4. Entscheidungsmodelle Kompensatorisches Modell - Prädiktoren können sich gegenseitig ausgleichen (kompensieren; = kompensatorische Entscheidungsstrategie) - Generelle Annahme: Ein und derselbe (globale) Prädiktionswert ist durch ganz verschiedene Merkmalskonfigurationen in den Einzeltests erreichbar - Niedrige Leistungen in einem Prädiktor können durch hohe Leistungen in einem anderen Prädiktor wettgemacht werden (nicht immer sinnvoll) - Ein Gesamtwert der Prädiktoren wird berechnet - Merkmale können gleich oder unterschiedlich gewichtet sein - Optimale Gewichtung: Empirisch z. B. mittels multipler Regression (Gewichte orientieren sich dann an den β-Gewichten) - Beispiel: Versetzung in die nächste Schulklasse - Grenzen: Kompensatorische Modelle sind dysfunktional, wenn in jedem Teilbereich bestimmte Mindestleistungen unabdingbar vorliegen müssen - Lösung: konjunktives Modell Konjunktives Modell (Und -Strategie) - Forderung nach Mindestleistungen in allen Bereichen - „Multiple Cut Off Modell“ - Probanden, die vorab festgelegte Mindestwerte bei einem Prädiktor nicht erreichen, werden „aussortiert“ - Konservativeres Vorgehen: höhere Anforderungen für die Entscheidung „Zugelassen“ 5. Entscheidungsstrategien Persönliche Entscheidungen - Oft eine lange Kette von Entscheidungen (= mehrstufig, investigatorisch) Institutionelle Entscheidungen - Die Institution Universität sammelt investigatorisch fortwährend diagnostische Informationen über den Leistungsstand der einzelnen Studierenden (z. B. Modul 1 3 sind Bedingung für Modul 6) - Ganz ähnlich wird auch in Behörden, Betrieben und sportlichen Wettkämpfen usw. verfahren Folgende ein- oder mehrstufigen Entscheidungsstrategien lassen sich unterscheiden: Ein Messzeitpunkt: - Nichtsequenzielle Einzelmessung - Nichtsequenzielle Messbatterie Mehrere Messzeitpunkte: - Sequenzielle konjunktive Strategie ( Pre reject Strategie ) - Sequenzielle disjunktive Strategie ( Pre accept Strategie) - Sequenzielle Kombinationsstrategie ( Pre reject und Pre accept Strategie) 11. Vorlesung Diagnostische Entscheidung und Ergebnismitteilung 1. Klassifikation und Entscheidungsfehler Ausganslage - Tatsächliche und diagnostizierte Gruppenzugehörigkeit sind in der - Psychologie selten binär nominalskaliert, sondern häufig kontinuierlich - Aber: viele diagnostische Entscheidungen sind binärer Art - Ein sportlich begabtes Kind wird in ein Sportinternat aufgenommen oder nicht - Eine Studienbewerberin wird zu einem Studium zugelassen oder nicht - Eine Therapiemaßnahme wird eingeleitet oder nicht - Die Aussage eines Zeugen wird als glaubhaft eingestuft oder nicht - Dichotomisierung nötig, um eine Diagnose zu ermöglichen - Zu diagnostizierende Variable (Begabte Unbegabte, Kranke Gesunde usw.) - Prädiktor (Grenzwert, Cut Off) - Dichotomisierung bedeutet Informationsverlust und Fehleranfälligkeit; Fehler soll minimiert werden Zentrale Aufgabe Vermeidung von Fehlern bei der Zuordnung in Klassen (z. B. geeignet vs. nicht geeignet; krank vs. gesund) - Fehler: Zuordnung aufgrund der Prädiktorvariablen stimmt nicht mit der tatsächlichen Klassenzugehörigkeit überein - Ziel: Möglichst Fehler minimieren, indem kritische Werte (Cut Offs) optimal gewählt werden - Studien nötig zur Entwicklung und Überprüfung der kritischen Werte (Cut Offs) Entscheidungen können in vier verschiedene Kategorien fallen Keine Fehler, wenn sich Verteilungen der Gruppe nicht überschneiden Fehler, wenn sich Verteilungen der Gruppe überschneiden Möglichkeit, Trefferraten zu beeinflussen Sensitivität: Vorliegender positiver Zustand wird als solcher erkannt Spezifität: Vorliegender negativer Zustand wird als solcher erkannt Wie wahrscheinlich ist es, dass man bei positivem Ergebnis tatsächlich zu den „Positiven“ gehört? Wie wahrscheinlich ist es, dass man bei negativem Ergebnis tatsächlich zu den „Negative“ gehört? Hängen stark von Grundraten/Basisraten ab Größe der Quadranten hängt unter anderem ab von: Basisrate (oder auch Grundrate, [natürlicher] Eignungsquotient, Eignungsquote): Relativer Anteil der Personen, die tatsächlich das Kriterium erfüllen, gemessen an der Gesamtzahl der Personen (z. B. Bewerber*innen, Population) → (RP+FN) / N Selektionsrate/ quote: Relativer Anteil an Personen, der ausgewählt wird, gemessen an der Gesamtzahl an Personen → Anteil an Personen, die den Grenzwert im Test überschreiten 2. Zusammenfassung Diagnosekoeffizienten = Gütekriterien einer Entscheidungsstrategie Vorhersagerichtigkeit: - Anteil richtiger Entscheidungen an allen Entscheidungen →(RP+RN) / (RP+RN+FP+ Sensitivität/Trefferquote: - Anteil der „richtig“ Positiven in der Gruppe der Geeigneten/Kranken → RP / (RP+FN) Spezifität: - Anteil der „richtig“ Negativen in der Gruppe der Ungeeigneten/Gesunden → RN / (RN+FP) Positiver Prädiktionswert: - Anteil der „richtig“ Positiven an den als positiv (geeignet/krank) Diagnostizierten → RP / (RP+FP) Negativer Prädiktionswert: - Anteil der „richtig“ Negativen an den als negativ (ungeeignet/gesund) Diagnostizierten → RN / (RN+FN) 3. Effizienz der Auslese erhöhen Steigerung der Vorhersagerichtigkeit - Je höher die Validität des diagnostischen Verfahrens (z. B. Eignungstest, Depressionsfragebogen), desto weniger Vorhersagefehler werden gemacht - Der Anteil richtiger Entscheidungen wird größer, der Anteil falscher geringer Steigerung der Vorhersagerichtigkeit durch Erhöhung der Validität Steigerung der Sensitivität/Trefferquote - Kann bei gegebener Basisrate und Validität durch Erhöhung der Selektionsrate gesteigert werden - Dadurch wird der Anteil der richtig positiv Diagnostizierten an den Geeigneten/Kranken größer Steigerung der Spezifität - Kann bei gegebener Basisrate und Validität durch Senkung der Selektionsrate gesteigert werden - Dadurch wird der Anteil der richtig negativ Diagnostizierten an den Ungeeigneten/Gesunden größer Steigerung des negativen prädiktiven Werts - Kann bei gegebener Selektionsrate und Validität durch Senkung der Basisrate (d.h. Erhöhung des Anspruchs an die wahre Eignung) gesteigert werden - Dadurch wird der Anteil der falsch negativ Diagnostizierten geringer Steigerung des positiven prädiktiven Werts - Kann bei gegebener Selektionsrate und Validität durch Erhöhung der Basisrate (d.h. Senkung des Anspruchs an die wahre Eignung) gesteigert werden 4. Die Bestimmung von Cut-Offs Welches ist der geeignete Cut Off Wert (Testtrennwert) für mein diagnostisches Verfahren? - Kommt darauf an, ob Spezifität oder Sensitivität zu priorisieren ist - Beachten der Kosten von FP und FN bei der Festlegung eines Cut Offs - FP: psychische Belastung, Kosten von unnötiger Behandlung - FN: Gefahr zu spät begonnener Behandlung bei zu spät erkannter - Erkrankung 5. Erlebnisbericht / Gutachten Definition psychologisches Gutachten - Dokumentiert wissenschaftlich fundiertes Vorgehen - Beantwortet von Auftraggeberin vorgegebene Fragestellung - Fragestellung wird im Rahmen des beschriebenen diagnostischen Prozesses beantwortet - Im Gutachten werden Prozess und Beantwortung der Fragestellung nachvollziehbar dargestellt - Eingesetzte Methoden werden so beschrieben, dass sie nach wissenschaftlich akzeptierten Gütekriterien beurteilt werden können Wissenschaftliche Fundierung des Vorgehens - Bezugnahme auf theoretisch begründetes Vorgehen - Formulierung psychologischer Fragen, die überprüfbar sind - Begründete Auswahl von Messinstrumenten - Begründete Festlegung von Entscheidungskriterien vor Datenerhebung unter Beachtung wissenschaftlich gesicherter Gesetzmäßigkeiten - Berücksichtigung aller Ergebnisse - Ableitung von Schlussfolgerungen Nachvollziehbarkeit und Transparenz Adressat*innenorientiert! - Welche Fragen und Hypothesen wurden warum untersucht? - Welche Ergebnisse wurden auf welchem Weg ermittelt? - Begründungen der gutachterlichen Schlussfolgerungen - Auf welchen Informationen basieren die Beurteilungen? Ethische Richtlinien - Sorgfaltspflicht (Fundiertheit, Sorgfalt, Gewissenhaftigkeit) - Frist und formgerecht - Transparenz (für Adressat*innen nachvollziehbar) - Einsichtnahme (wenn Auftraggeber*in und Begutachtete*r verschieden) - Gefälligkeitsgutachten nicht zulässig - Stellungnahme zu Gutachten von Kolleg*innen (zulässig; aber: kollegiales Verhalten; siehe entsprechenden Abschnitt in Ethikrichtlinien) 12. Vorlesung Grundlagen der Klassischen Testtheorie und darauf aufbauender Modelle 1. Testtheorie - Beschreibt in welchem Zusammenhang das zu testende Merkmal mit den im Test tatsächlich beobachtbaren Antworten steht - Umgekehrt werden Annahmen formuliert, wie aus den Testergebnissen Aussagen über die Merkmale der getesteten Personen abgeleitet werden können Grundlagen - Ursprünge und Stellenwert der Klassischen Testtheorie - Vor über 60 Jahren von Gulliksen (1950) und Lord und Novick (1968) - „Klassisch“ bedeutet in diesem Sinne die „ursprüngliche“ theoretische Grundlage zur Testkonstruktion - Die meisten psychologischen Tests sind (auch heute noch) mithilfe der Klassischen Testtheorie entwickelt worden (> 90%) - Grundgedanken der Klassischen Testtheorie - Klassische Testtheorie ist eine Messfehlertheorie - Annahme, dass jede Messung mit Fehler behaftet ist - Ziel: möglichst genaue Bestimmung des wahren Wertes - Trennung des (unsystematischen) Fehlers vom „wahren“ Wert Gedankenexperiment Beschreibung von sportlichen Leistungen mithilfe der KTT - Robert Harting nimmt am Zehnkampf teil - Die Leistung von ihm schwankt zwischen den Disziplinen - verschiedene Items - Die Leistung von ihm schwankt innerhalb der Disziplinen Schwankung innerhalb der Items - Z.B. die Weite der Würfe variiert aufgrund: - unsystematischer Einflüsse (z.B. Gegenwind bei einem Wurf) - Zufall; Einflüsse, die nicht aufgeklärt werden können - systematischer Einflüsse (z.B. Gegenwind bei allen Würfen) - Einflüsse, die sich auf alle Personen oder Items gleich auswirken Definition des True Scores Der True Score 𝝉𝒗𝒊 existiert als Erwartungswert der Messung 𝒚𝒗𝒊 einer Person v in Item i. - v: Robert Harting - i: Disziplin Diskuswurf - 𝜏𝐻𝐷: Aufgrund „magischer Eingebung“ wissen wir, dass Robert Hartings wahre Fähigkeit beim Diskuswurf bei 68,34 Meter liegt. Er wird nicht immer so weit werfen, aber was wäre unsere beste Schätzung/Erwartung für einen zukünftigen Wurf? -> 68,34 Meter Zerlegung der Itemvariable Jede Messung 𝒚𝒗 ist aus einem True Score 𝝉𝒗 und einem zufälligen Fehler 𝜺𝒗 zusammengesetzt - Obwohl der True Score der beste Schätzer des zu erwartenden Messwerts ist, ist uns auch intuitiv klar, dass wir wohl mit unserem Erwartungswert von 68,34 Metern nicht exakt richtig liegen werden. Einfluss von unsystematischen Einflüssen , wie plötzlich aufkommende Winde, Hartings Ausgeruhtheit, etc. Zusammenhang True Score und Messfahler Die Messfehler 𝜺𝒗𝒊 sind unkorreliert mit dem wahren Testwert 𝝉𝒗𝒊 - Die wahre Fähigkeit/True Score der diskuswerfenden Person hängt nicht damit zusammen, wie groß die Messfehler (unsystematischen Einflüsse) sind - Besonders gute Werfer*innen, wie z.B. Robert Harting, werfen zum Beispiel nicht öfter weiter als kürzer als ihre wahre Fähigkeit Folgerungen aus den Grundannahmen Die Varianz einer Itemvariablen Var(𝒚𝒊) lässt sich additiv zerlegen in die Varianz der True Score Variablen Var( 𝝉𝒊) und die Varianz der Messfehlervariablen Var(𝜺𝒊) - Unterschiede im Werfen zwischen Personen gehen auf wahre Unterschiede (gute und schlechte Werfer*innen) und zufällige Unterschiede (Glück und Pech) zurück. Zusatzannahme 1 Die Fehlerwerte zweier Messungen mit beliebigen Items i und j bei derselben Person sind unkorreliert - Ob Robert Harting weiter oder kürzer als sein wahrer Wert wirft sollte nicht mit den Fehlern aus anderen Disziplinen des Zehnkampfes (z.B. schneller oder langsamer laufen) zusammenhängen. Zusatzannahme 2 Fehlerwerte zweier Messungen mit demselben Item i bei beliebigen Personen v und w sind unkorreliert - Robert Harting und ein anderer Zehnkämpfer wurden nicht beim gleichen launischen Trainer ausgebildet, der die beiden Sportler bei einer Disziplin stark motiviert und bei einer anderen Disziplin eher demotivierend wird. Was ist der „Fehler“ ε? - Der „Messfehler“ der KTT repräsentiert per Definition alle Einflüsse auf Itemantworten und Testwerte, die unabhängig vom zu erfassenden Merkmal ( true score 𝜏) sind. Auf Ebene der Antworten können das zum einen - „zufällige“, variierende Faktoren sein, z. B. Unkonzentriertheit, Störungen bei der Testbearbeitung. - Es fällt aber auch „ itemspezifische Varianz“ („ uniqueness “) darunter, also Einflüsse des Iteminhalts , die bei derselben Person auch bei wiederholter Bearbeitung dieselben sein werden. Beispiel „Ich bin der Stimmungsmacher auf Partys“ als Item zur Erfassung von Extraversion - Individuelle Unterschiede in der Persönlichkeitseigenschaft Extraversion (𝜏) äußern sich in Unterschieden in geselligem Verhalten auf Partys - Aber: auch unabhängig (!) vom Grad der individuellen Extraversion können sich Individuen ihrem Verhalten auf Partys oder ihrer Einstellung zu Partys unterscheiden - z. B. aufgrund individueller Erfahrungen, vorhandenen Gelegenheiten auf Partys zu gehen, Unterschieden im Drogenkonsum usw. - individuelle Unterschiede schlagen sich in den Antworten auf das Item nieder, und zwar potenziell stabil 2 Items mit Bezug zu Partys werden unabhängig von 𝜏 ähnlicher beantwortet - Auch diese „nicht durch 𝜏erklärten Anteile“ in den Antworten -> „Messfehler“ 𝜀 2. Item Response Theorie Grundlagen - Item Response Theorie (IRT) = „Probabilistische Testtheorie“ - Grundidee der IRT ist es das Antwortverhalten von Probanden auf Testitems auf Basis von Personenfähigkeit und Itemschwierigkeit zu beschreiben - Bei der Validierung von Tests, die mithilfe der IRT konstruiert wurden, wird geprüft, ob das Antwortverhalten von Probanden zu den Modellannahmen passt (= durch die Modellgleichung vorhergesagt werden) - Entspricht das Antwortverhalten dem durch das Modell vorhergesagten Antwortverhalten, besitzt der so konstruierte Test einige vorteilhafte Eigenschaften Voraussetzungen 1. Eindimensionalität - Die Beantwortung der Items sollte nur von einer einzigen Fähigkeit oder Eigenschaft abhängen. -> in Praxis unmöglich - Daher: Eindimensionalität als Homogenität des Einflusses der bei der Testbearbeitung relevanten Personeneigenschaften 2. Lokale stochastische Unabhängigkeit - Korrelationen zwischen Items sind durch die latente Variable bestimmt und es gibt keine anderen systematischen Einflussgrößen. Die Messfehler sind unkorreliert. Grundlagen 1. Jede Person besitzt eine Fähigkeit, ein bestimmtes Item zu beantworten. Diese Fähigkeit wird als Personenparameter bezeichnet. 2. Jedes Item besitzt eine bestimmte Schwierigkeit. Diese wird als Itemparameter bezeichnet. 3. Personen und Itemparameter können gemeinsam auf einer Skala abgebildet werden. 4. Die Wahrscheinlichkeit, dass eine Person in bestimmtes Item löst, wird von ihrer Fähigkeit (Personenparameter) und der Schwierigkeit des Items (Itemparameter) - Personenparameter > Itemparameter -> Lösung wahrscheinlich - Itemparameter > Personenparameter -> Lösung unwahrscheinlich Grundannahmen - Es existiert eine itemcharakteristische Funktion (auch ICC für item characteristic curves ) mit bestimmten - Y Achse: Lösungswahrscheinlichkeit - X Achse: Item und Personeneigenschaften Rasch Modell (1 PL Modell) - In Rasch Modellen wird der Zusammenhang zwischen Personenparameter und Itemparameter mithilfe von logistischen Funktionen ausgedrückt Modellerweiterung Rasch Modell - Vorteile Ermöglicht Überprüfung von… - Modellpassung (Fit Statistiken, graphische Item Fit Überprüfung) - Angemessenheit der Schwierigkeit der Aufgaben - Fairness für Geschlecht, Migration, Schulform, SES,… - Eindimensionalität vs. Mehrdimensionalität (m. H. v. Modellvergleichen) Objektive Vergleiche möglich: - Über verschiedene Personen (selbst bei unterschiedlicher Itembearbeitung) - Über verschiedene Messzeitpunkte - Über verschiedene Gruppen Weitere IRT-Modelle - Polytom = mehr als 2 Ausprägungen/Kategorien - Häufig bei Persönlichkeitstests, aber auch bei Leistungstests, bei denen pro Item Teilpunkte vergeben werden Erweiterungen des Rasch Modells: - Rating scale model (RSM) von Andrich (1978) - Partial credit model (PCM) von Masters (1982) Erweiterung des 2PL-Modells: - Graded response model (GRM) von Samejima (1969) Wichtig bei den genannten Modellen: Kategorien müssen geordnet sein - Anmerkung: Es existieren auch Modelle für ungeordnete Kategorien, z. B. nominal response model (NRM) von Bock (1972) Zusammenfassung und Vergleich KTT - Messfehlertheorie - Annahmen recht einfach gehalten, mathematisch weniger komplex - Breite Anwendung und Praktikabilität - Mangelnde Betrachtung von z.B. Reliabilität und Itemschwierigkeit und weiteren Parametern IRT - Latent trait theory (Beziehung manifeste und latente Variablen) - Berücksichtigung vieler Faktoren und Testung von Annahmen möglich - Viele Erweiterungen für jeweilige Testsituationen (z.B. aufeinander aufbauende Items) - Ermöglichen adaptives Testen

Diagnostik - Zusammenfassung Emma PDF

Document Details

Tags

Related

Summary

Full Transcript

Upgrade to continue