Medizinische Statistik (DPU, SoSe 2024) PDF
Document Details
Uploaded by VisionaryRhyme
Danube Private University
2024
Anna Choi
Tags
Summary
Lecture notes on medical statistics, for the Summer Semester 2024 at Danube Private University. The document covers topics like descriptive statistics (measures, distributions) and inferential statistics (hypothesis testing, significance testing).
Full Transcript
Mensch und Gesellschaft I Medizinische Statistik Studiengruppe MED6/7 Humanmedizin SoSe 2024 Prof. Anna Choi Datum: 05.04.2024 Hinweise Rechtliche Hinweise Die Vorlesungsfolien, das Skript und Arbeitsblätter enthalten urheberrechtlich geschütztes Material § Die Materialien sind daher ausschließlich...
Mensch und Gesellschaft I Medizinische Statistik Studiengruppe MED6/7 Humanmedizin SoSe 2024 Prof. Anna Choi Datum: 05.04.2024 Hinweise Rechtliche Hinweise Die Vorlesungsfolien, das Skript und Arbeitsblätter enthalten urheberrechtlich geschütztes Material § Die Materialien sind daher ausschließlich für den internen Gebrauch (Lehrzwecke an der DPU) gedacht § Es ist ausdrücklich untersagt, das Material in elektronischer oder gedruckter Form außerhalb der DPU und außerhalb der eigenen Studiengruppe weiterzuverbreiten Video-, Foto- und Tonaufnahmen sind bei Lehrveranstaltungen ohne ausdrückliche Zustimmung der Dozentin oder des Dozenten nicht erlaubt (Urheber- und Persönlichkeitsrechte) Prüfungsrelevanz Alle Inhalte der Vorlesung sowie die der angegeben Kapitel aus den Hauptwerken (Faller und Lang, 2019 und Kessler, 2021) sind prüfungsrelevant Aufgrund von Lesbarkeit sowie ökonomischer Nutzung der Folienfläche wird das generische Maskulinum verwendet Nur zum internen Gebrauch Kursübersicht – Teil 2 Vorlesung „Mensch und Gesellschaft 1“ Nur zum internen Gebrauch! 04.04. VL15: Intensiv- und Notfallmedizin VL16: Transplantationsmedizin und Onkologie VL17: Tod, Sterben und Trauer VL18: Selbsthilfegruppen, Peers, Patientenvertreter VL19: Psychobiologische Grundlagen VL20: Das Lernen VL21: Die Kognition 05.04. VL22: Die Emotion VL23: Die Motivation VL24: Die Persönlichkeit und Verhaltensstile VL25: Medizinische Statistik VL26: Testtheorie und Risikoarten VL27: Qualitative Methoden VL28: Arten und Durchführung von Evidenzsynthesen 3 Überblick 1. Grundbegriffe der deskriptiven Statistik 2. Grundbegriffe der induktiven Statistik 3. Zusammenhangsmaße bzw. Korrelationsmaße Nur zum internen Gebrauch 4 Lernziele Sie können nach Studium aller prüfungsrelevanter Materialien… … den Begriff der Operationalisierung erläutern und ein Beispiel nennen. … die Begriffe der abhängigen und unabhängigen Variablen erläutern. … unterschiedliche Skalenniveaus von Variablen nennen und beschreiben. … Maße der zentralen Tendenz nennen und beschreiben. … Streuungsmaße nennen und beschreiben. … beschreiben, worum es in der induktiven Statistik geht. … erläutern, was man unter Fehlern 1. bzw. 2. Art versteht. … beschreiben, was der p-Wert misst. … das Maß der Effektstärke beschreiben. … negative und positive Korrelationen miteinander vergleichen. Grundbegriffe der deskriptiven Statistik Die deskriptive (beschreibende) Statistik umfasst statistische Verfahren zur Charakterisierung von Stichprobendaten mithilfe… statistischer Maßzahlen (z.B. Mittelwert und Standardabweichung) Darstellung durch geeignete Diagramme sowie Tabellen Bevor jedoch Daten einer Untersuchungsstichprobe vorliegen, müssen zunächst folgende Schritte erfolgen: Beobachten und Messen von Konstrukten Während physiologische Größen wie z.B. Blutdruck direkt messbar sind, sind theoretische Konstrukte wie z.B. Depression nicht unmittelbar quantifizierbar – es handelt sich in diesen Fällen um sog. latente Konstrukte bzw. latente Merkmale Diese latenten Merkmale müssen zunächst in messbare Variablen überführt werden – dieser Vorgang wird als Operationalisierung bezeichnet Hierfür werden Indikatoren verwendet – im Beispiel der Depression wäre ein solcher Indikator bspw. der Testwert, den ein Patient auf einem DepressionsFragebogen erzielt (z.B. das Beck Depressions-Inventar, BDI) Der Gesamtwert des BDIs dient dann als Indikator der Schwere der Depression. Nur zum internen Gebrauch Beispiel: Beck Depressions-Inventar 1-10: Gemütsschwankungen, die als normal angesehen werden 11-16: Milde Gemütsstörung 17-20: Auf der Grenze zur klinischen Depression 21-30: Moderate Depression 31-40: Schwere Depression 41-63 (Höchstwert): Hochgradige Depression Kessler, 2021 (Kapitel 3.3.3); Faller & Lang, 2019 (Kapitel 3.2.1), Beck, 1961 6 Grundbegriffe der deskriptiven Statistik Variablen In Studien werden Variablen beobachtet und gemessen Dabei ist man zumeist an Beziehungen zwischen Variablen interessiert, z.B. „Leiden Menschen, die viel Zeit in der Natur verbringen, weniger stark unter Depressionen?“ In anderen Worten: hat der Zeitumfang, den man in der Natur verbringt, einen Effekt auf Depressionswerte? Zeit in der Natur (z.B. Stunden pro Woche) = unabhängige Variable (UV) oder auch erklärende Variable Unabhängige bzw. erklärende Variable, weil ihr Ausmaß (z.B. Stunden/Woche) als Erklärung für den Depressionswert dient Nur zum internen Gebrauch Mehr Zeit in der Natur = niedrigere Depressionswerte? Variablen, die neben der UV einen Einfluss auf die AV haben können: Störvariable: eine weitere Variable, die das Ausmaß der AV beeinflusst (z.B. laute Autobahn direkt neben Park) Mediatorvariable: Bindeglied zwischen UV und AV (z.B. Joggen in der Natur, das teilweise oder völlig für den positiven Effekt auf Depression verantwortlich ist) Moderatorvariable: Beeinflusst den Effekt der UV auf die AV (z.B. Hundebesitz: die zusätzliche Freude am Hund beim Gang in die Natur verstärkt deren positive Wirkung) Kessler, 2021 (Kapitel 3.5.2); Faller & Lang, 2019 (Kapitel 3.4.1) Depressionswert im BDI = abhängige Variable (AV) oder auch erklärte Variable Abhängige bzw. erklärte Variable, weil ihr Ausmaß (des Wertes) von einer anderen Variable abhängt bzw. erklärt wird 7 Grundbegriffe der deskriptiven Statistik Skalierung von Variablen Für die statistische Auswertung macht es einen Unterschied, ob Variablen Zahlen (z.B. Alter in Jahren) oder Kategorien (z.B. „männlich“, „weiblich“) enthalten. Genauer kann man diese Unterschiede über sog. Skalenniveaus beschreiben. Diese geben Auskunft darüber, welche Rechenoperationen mit einer Variable möglich sind – je höher das Skalenniveau ist, desto mehr Operationen sind möglich. Höhere Skalenniveaus ermöglichen dabei immer auch alle Operationen der niedrigeren. Nur zum internen Gebrauch Verhältnisskala (Rational- oder Proportionalskala) Hier gibt es einen natürlichen Nullpunkt (z.B. Zeit: 0 Jahre) Erlaubt Ausdrücken von Verhältnissen: 2 Jahre ist doppelt so viel wie 1 J. Intervallskala Zusätzlich zur Häufigkeit und (An-)Ordnung lässt sich hier ein genauer Abstand (= Intervall) erfassen Bsp. Depressionswert im BDI: ein Wert von 21 liegt 5 Punkte über einem Wert von 16 Ordinalskala („Ordnung“) Zusätzlich zur Häufigkeit lässt sich „größer“ und „kleiner“ definieren Variablenausprägungen lassen sich hier in einer sinnvollen Reihenfolge anordnen, der genaue Abstand ist aber nicht numerisch erfassbar Bsp. Schulnoten: eine 1 ist besser als eine 2, aber wieviel besser? Nominalskala Rein qualitative Skala („Kategorien“, z.B. Kategorien des Geschlechts) Nur Häufigkeitsbestimmung möglich, keine weiteren Rechenoperationen à Wie viele Männer/Frauen gibt es in der Stichprobe? Kessler, 2021 (Kapitel 3.3.5); Faller & Lang, 2019 (Kapitel 3.2.3) 8 Grundbegriffe der deskriptiven Statistik Lagemaße Geben in numerischer Form Auskunft über bestimmte Eigenschaften einer Werteverteilung à z.B. aus unterschiedlichen Depressionswerten von 100 Probanden wird 1 Wert gebildet, der die gesamte Verteilung beschreibt Das wahrscheinlich bekannteste Lagemaß ist der Mittelwert (z.B. durchschnittliche Schwere der Depression der 100 Probanden) Nicht alle Lagemaße können für alle Skalenniveaus berechnet werden – daher ist ein Verständnis der Skalenniveaus zwingend zur korrekten Auswahl statistischer Berechnungen Maße der zentralen Tendenz: Modalwert, Median & arithmetisches Mittel Modus (Mode) Häufigster Wert der Verteilung Vorteil: Unempfindlich ggü. Extremwerten Nachteil: Nicht hilfreich bei mehrgipfligen Verteilungen Nominalskala Median (Median) Einzelwert, der genau an der mittleren Stelle aller Werte liegt, nachdem sie nach Größe sortiert wurden Besonders geeignet für nicht-normalverteilte Werte Über und unter ihm liegen jeweils 50% der anderen Werte Daher identisch mit ½-Quantil, 50%-Perzentil oder Prozentrang 50 Ordinalskala Arithmetisches Mittel (Mean, M) Durchschnitt aller Werte Benötigt mindestens intervallskalierte Variablen Vorteil: Nutzt alle Informationen der Verteilung Nachteil: Empfindlich gegenüber Extremwerten Intervall- oder Verhältnisskala Beispiele folgen auf Folie 10! Nur zum internen Gebrauch Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.7.2) 9 Grundbegriffe der deskriptiven Statistik Lagemaße: Quantile (Prozentränge, Perzentile) Ein Quantil bezeichnet einen Wert, der eine Menge in zwei Gruppen teilt: Ein Anteil der Menge ist kleiner als der definierte Wert, der Rest größer. Häufig benutzte Beispiele von Quantilen: Median (siehe Folie 8) und Quartile Prinzipiell kann man aber zu jeder Zahl zwischen 0 und 100% ein Quantil betrachten; diese allgemeinen Quantile bezeichnet man dann als Perzentile oder Prozentränge. Quantilberechnungen benötigen mindestens ordinalskalierte Variablen Quartil (Quartile) ¼-Quantil (= unteres Quartil, 25%-Perzentil, Prozentrang 25): 25% aller Werte sind kleiner als dieser Wert ¾-Quantil (= oberes Quartil, 75%-Perzentil, Prozentrang 75): 75% aller Werte sind kleiner als dieser Wert Perzentil (Percentile) Prozentränge zwischen 0 und 100 x%-Perzentil bedeutet: x% der Werte liegen unter diesem Wert, alle anderen (also 100%–x%) darüber Beispiel: 3%-Perzentil (= Prozentrang 3): 3% aller Werte sind kleiner als dieser Wert Beispiele folgen auf Folie 10! Nur zum internen Gebrauch 1 0 Grundbegriffe der deskriptiven Statistik Lagemaße: Beispiel Altersangaben für 96 Probanden: Alter 20 21 22 24 25 50 Häufigkeit 4 32 24 20 12 4 Modus: 21 ist das häufigste Alter Quartile ¼ Quartil: 96/4 = 24 à beim 24. Wert liegt das ¼ Quartil = 21 25% nicht älter als 21 ¾ Quartil: 24*3 = 72 à beim 72. Wert liegt das ¾ Quartil = 24 75% nicht älter als 24 Median: wenn wir unsere 96 Messwerte der Größe nach sortieren, sieht das so aus: 20,20,20,20,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,22,22, 22,22,22,22,22,22,22,22,22,22,22,22,22,22,22,22,22,22,22,22,22,22,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24, 24,24,24,24,25,25,25,25,25,25,25,25,25,25,25,25,50,50,50,50 Bei einer geraden Anzahl von Messwerten (wie hier), entspricht der Median dem Mittelwert beider Messwerte, die neben der Mitte der Verteilung liegen: Werte neben Mitte der Verteilung: Werte 48 und 49 à 22+22/2=22 à 50% sind nicht älter als 22 Bei einer ungeraden Anzahl von Messwerten (z.B. mit 97 Probanden), entspricht der Median dem mittleren Wert der Verteilung (= Wert 49, da unter und über diesem jeweils 48 Werte liegen) Mittelwert: Achtung, hier muss der gewichtete Mittelwert berechnet werden – vergleiche: Gewichteter Mittelwert: (4*20+32*21+24*22+20*24+12*25+4*50)/96 = 80+672+528+480+300+200/96 = 23.54 Ungewichteter Mittelwert: 20+21+22+24+25+50/6 = 27 Nur zum internen Gebrauch 11 Grundbegriffe der deskriptiven Statistik Lagemaße: Beispiel Altersangaben für 96 Probanden: Alter 20 21 22 24 25 50 Häufigkeit 4 32 24 20 12 4 Modus: 21 Median: 22 Mittelwert (gewichtet): 23,5 ¼ Quartil = 21 ¾ Quartil = 24 Dieses Beispiel verdeutlicht, dass Lagemaße eine Verteilung in leichter unterschiedlicher Weise beschreiben Vor dem Hintergrund, dass der häufigste Wert in der Stichprobe 21 ist und 50% der Probanden nicht älter als 22 sind, erscheint der (gewichtete) Mittelwert von 23,5 sehr hoch Dies liegt daran, dass Mittelwerte sensibler auf sog. Ausreißer (Extremwerte) reagieren – die Extremwerte stammen in diesem Beispiel von den vier 50-jährigen Probanden Daraus folgt, dass Lagemaße allein unzureichend für die Beschreibung einer Verteilung sind Hilfreich können Streuungsmaße sein. Nur zum internen Gebrauch 12 Grundbegriffe der deskriptiven Statistik Streuungsmaße (auch Dispersionsmaße oder Variabilitätsmaße) Geben Auskunft über die Streuung bzw. Variabilität eines Merkmals in einer Stichprobe Die wichtigsten Streuungsmaße sind Spannweite (Range) Quartilsabstand (Interquartile Range) Varianz (Variance) Standardabweichung (Standard Deviation) Spannweite (Range) Der Abstand zwischen Maximum und Minimum ist nur ein sehr grobes Maß für die Streuung und sehr empfindlich gegenüber Ausreißern Im Bsp.: Spannweite = 50-20 = 30 à diese Altersspanne von 30 Jahren kann irreführend sein, wenn man annimmt, dass auch alle 30 Jahre als einzelne Altersangaben vertreten sind, obwohl tatsächlich nur die Angaben 20-25 und 50 vorliegen Quartilsabstand (Interquartile Range) Der Abstand zwischen dem 75%-Quartil und dem 25%-Quartil berücksichtigt die "Ränder" nicht und ist so weniger anfällig für Ausreißer Im Bsp.: Quartilsabstand = 75%-Quartil – 25%Quartil = 24-21 = 3. Der Quartilsabstand ist für unser Bsp. aussagekräftiger, weil er verdeutlicht, dass 50% der Messwerte sich auf 3 Jahre verteilen Nur zum internen Gebrauch Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.7.2) 13 Grundbegriffe der deskriptiven Statistik Streuungsmaße (auch Dispersionsmaße oder Variabilitätsmaße) : wie stark variieren Messwerte? Varianz (Variance) Die Varianz berechnet sich wie folgt: 1. Jeder einzelne Stichprobenwert wird vom Mittelwert der Stichprobe subtrahiert und das Ergebnis quadriert: Bsp. für Messwert 1: (M – X1)2 Altersangaben für 96 Probanden: Alter 20 21 22 24 25 50 Häufigkeit 4 32 24 20 12 4 2. Diese Werte werden aufsummiert: Bsp.: [(M – X1)2+(M – X2)2+… (M – X96)2] Beispiel: Varianz der Altersangaben für 96 Probanden 3. Und diese Summe wird durch die Anzahl aller Stichprobenwerte -1 dividiert: [(M – X1)2+(M – X2)2+… (M – X96)2]/96-1 [4*(23,54-20)2 + 32*(23,54-21)2 + 24*(23,54-22)2 + 20*(23,54-24)2 + 12*(23,54-25)2 + 4*(23,54-50)2]/96-1 = 33,09 Was bedeutet aber nun die errechnete Varianz von 33,09? Sie hilft uns bei der Bestimmung der Standardabweichung, welche ein anschaulicheres Maß ist (nächste Folie) Nur zum internen Gebrauch Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.7.2) 14 Grundbegriffe der deskriptiven Statistik Streuungsmaße (auch Dispersionsmaße oder Variabilitätsmaße): wie stark variieren Messwerte? Standardabweichung (Standard Deviation, SD) Ist die Wurzel der Varianz, also: Beispiel: Standardabweichung der Altersangaben für 96 Probanden √[4*(23,54-20)2 + 32*(23,54-21)2 + 24*(23,54-22)2 + 20*(23,54-24)2 + 12*(23,54-25)2 + 4*(23,54-50)2]/96-1 = √ 33,09 = 5,75 √[(M – X1)2+(M – X2)2+… (M – X96)2]/96-1 Die Standardabweichung teilt uns mit, wie weit die Stichprobenwerte durchschnittlich vom Mittelwert abweichen Beispiel: Altersangaben für 96 Probanden – Fazit: Die hohe Standardabweichung von 5,75 (Jahren) sowie die sehr große Spannweite von 30 Jahren zeigen, dass die Altersangaben deutlich schwanken. Am Quartilsabstand von 3 ist zu sehen, dass dies wahrscheinlich an den Extremwerten der vier 50-Jährigen liegt, da die mittleren 50% der Altersangaben recht dicht beieinander liegen (21-24 Jahre) Warum ist die Standardabweichung ein nützliches Maß? Nur zum internen Gebrauch Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.7.2); Rasch et al, 2010 15 Grundbegriffe der deskriptiven Statistik Streuungsmaße (auch Dispersionsmaße oder Variabilitätsmaße) : wie stark variieren Messwerte? Standardabweichung (Standard Deviation, SD) In der Abbildung haben alle Verteilungen denselben Mittelwert (M = 10) Jedoch weichen die Einzelwerte in der blauen Verteilung stärker vom Mittelwert ab, als in der grünen Verteilung, d.h. SD > SD Je größer die Standardabweichung, desto flacher die Verteilung – wir wissen somit, dass es in dieser Verteilung mehr Extremwerte gibt und der Mittelwert somit weniger repräsentativ ist Je kleiner die Standardabweichung, desto spitzer die Verteilung – wir wissen somit, dass in dieser Verteilung die meisten Einzelwerte recht ähnlich zum Mittelwert sind, d.h. der Mittelwert ist hier repräsentativer Nur zum internen Gebrauch M Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.7.2); Rasch et al, 2010 16 Grundbegriffe der induktiven Statistik Induktive Statistik (auch Inferenzstatistik) will erklären (statt beschreiben) – WAS will sie erklären? Hypothesenprüfung In einer wissenschaftlichen Studie werden Daten nicht nur beschrieben, sondern es geht vor allem darum, eine Hypothese zu testen, z.B.: „Menschen, die mehr Stunden in der Natur verbringen, leiden weniger stark unter Depressionen“ Daten werden gesammelt, um folgende Fragen durch eine Studie zu beantworten: 1. Gibt es einen Unterschied zwischen den untersuchten Gruppen? D.h. unterscheiden sich Menschen mit wenigen vs. vielen Stunden in der Natur hinsichtlich ihrer Depressionswerte? 2. Beruht ein Unterschied auf der Hypothese („Alternativhypothese trifft zu“) oder nur auf Zufall („Nullhypothese trifft zu“)? D.h. ist die Stundenzahl in der Natur ursächlich für einen Unterschied in Depressionswerten oder ist dieser Unterschied zufällig zustande gekommen? Und wie macht man das? 3. Wie relevant ist ein Unterschied? D.h. wie sehr unterscheiden sich Depressionswerte von Menschen, die wenige vs. viele Stunden in der Natur verbringen? Ist der Unterschied gering oder eklatant? Nur zum internen Gebrauch Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.1.2) 17 Grundbegriffe der induktiven Statistik „Menschen, die mehr Stunden in der Natur verbringen, leiden weniger stark unter Depressionen“ 1. Gibt es einen Unterschied zwischen den untersuchten Gruppen? D.h. unterscheiden sich Menschen mit wenigen vs. vielen Stunden in der Natur hinsichtlich ihrer Depressionswerte? Hierfür benutzen wir sog. Signifikanztests Wieso heißen die so? Signifikanz bezeichnet einen Unterschied zwischen zwei Ergebnissen, der zu extrem ist, um noch als zufällig gelten zu können. Sie ist ein Kriterium für die Aussagekraft eines Ergebnisses. Und damit sind wir bereits bei Frage 2: 2. Beruht ein Unterschied auf der Hypothese („Alternativhypothese trifft zu“) oder nur auf Zufall („Nullhypothese trifft zu“)? D.h. ist die Stundenzahl in der Natur ursächlich für einen Unterschied in Depressionswerten oder ist dieser Unterschied zufällig zustande gekommen? Ob ein Ergebnis als signifikant gilt, hängt vom Signifikanzniveau ab, das für die entsprechende Studie gewählt wurde – dazu mehr auf der nächsten Folie Nur zum internen Gebrauch Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.1.2) 18 Grundbegriffe der induktiven Statistik 2. Beruht ein Unterschied auf der Hypothese („Alternativhypothese trifft zu“) oder nur auf Zufall („Nullhypothese trifft zu“)? D.h. ist die Stundenzahl in der Natur ursächlich für einen Unterschied in Depressionswerten oder ist dieser Unterschied zufällig zustande gekommen? Signifikanzniveau (auch: α-Fehlerniveau) Ob ein Ergebnis als statistisch signifikant gilt, hängt vom Signifikanzniveau ab, das für die entsprechende Studie gewählt wurde: Standard ist ein Signifikanzniveau von 5%, was bedeutet, dass die Wahrscheinlichkeit, dass ein positives Ergebnis durch Zufall zu Stande gekommen ist, unter 5% beträgt Je niedriger das Signifikanzniveau, desto geringer ist die Wahrscheinlichkeit, dass die Nullhypothese fälschlicherweise abgelehnt wird (i.e., geringere Wahrscheinlichkeit für α-Fehler oder Fehler 1. Art) Je niedriger das Signifikanzniveau, desto höher ist die Wahrscheinlichkeit, dass die Alternativhypothese fälschlicherweise abgelehnt wird (i.e., höhere Wahrscheinlichkeit für β-Fehler oder Fehler 2. Art) Ablehnen der Alternativhypothese Ablehnen der Nullhypothese Nur zum internen Gebrauch In Wirklichkeit gilt die Nullhypothese In Wirklichkeit gilt die Alternativhypothese Richtige Entscheidung β-Fehler oder Fehler 2. Art α-Fehler oder Fehler 1. Art Richtige Entscheidung Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.1.2) 19 Grundbegriffe der induktiven Statistik In Wirklichkeit gilt die Nullhypothese Ablehnen der Alternativhypothese Ablehnen der Nullhypothese In Wirklichkeit gilt die Alternativhypothese Richtige Entscheidung β-Fehler oder Fehler 2. Art α-Fehler oder Fehler 1. Art Richtige Entscheidung BEISPIEL: „Menschen, die mehr Stunden in der Natur verbringen, leiden weniger stark unter Depressionen“ Tatsächlich ergibt eine Studie, dass Menschen, die mehr Stunden in der Natur verbringen, weniger stark unter Depressionen leiden. Es stellt sich aber die Frage, ob dieses Ergebnis nur dem Zufall geschuldet ist (Nullhypothese) oder ob die Anzahl von Stunden in der Natur tatsächlich einen Unterschied macht (Alternativhypothese). Zur Entscheidungsfindung wird vor Beginn der Studie das Signifikanzniveau festgelegt, üblicherweise bei 0,05. Würde man das Signifikanzniveau extrem niedrig ansetzen (z.B. bei 0,0005), würde man in vielen Fällen fälschlicherweise die Nullhypothese annehmen bzw. die Alternativhypothese ablehnen und somit davon ausgehen, dass z.B. die Anzahl der Stunden in der Natur keinen Einfluss auf Depressionswerte nimmt. Das Beispiel verdeutlicht, dass die Wahl des Signifikanzniveaus beeinflusst, ob eine Alternativhypothese angenommen kann oder abgelehnt werden muss. Das Signifikanzniveau muss daher unbedingt vor Beginn der Studie gewählt werden! Wenn es wichtiger ist, den Fehler 1. Art zu vermeiden (Alternativhypothese fälschlicherweise annehmen), dann sollte ein geringeres α-Fehlerniveau gewählt werden, z.B. 0,01 (1%) – Bsp.: Medikament, dessen Herstellung extrem teuer wäre Wenn es wichtiger ist, den Fehler 2. Art zu vermeiden (Alternativhypothese fälschlicherweise ablehnen), dann sollte ein großzügigeres α-Fehlerniveau gewählt werden, z.B. 0,05 (5%) oder 0,10 (10%) – Bsp.: Medikament, das Krebs heilen könnte Nur zum internen Gebrauch Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.1.2) 20 Grundbegriffe der induktiven Statistik 2. Beruht ein Unterschied auf der Hypothese („Alternativhypothese trifft zu“) oder nur auf Zufall („Nullhypothese trifft zu“)? D.h. ist die Stundenzahl in der Natur ursächlich für einen Unterschied in Depressionswerten oder ist dieser Unterschied zufällig zustande gekommen? p-Wert (probability = Wahrscheinlichkeit) Entspricht der Wahrscheinlichkeit, dass ein Unterschied in Depressionswerten zwischen Menschen, die wenige vs. viele Stunden in der Natur verbringen, nur durch Zufall zustande kommt (Fehler 1. Art) Übliche Darstellung der berechneten statistischen Signifikanz im statistischen Signifikanztest Wenn der gemessene p-Wert unter dem festgelegten Signifikanzniveau liegt, sagt man, dass ein Unterschied statistisch signifikant ist – daraus ist jedoch noch keine Relevanz ableitbar (siehe Folie 22) Wenn der gemessene p-Wert ≥ dem festgelegten Signifikanzniveau ist, dann muss die Alternativhypothese abgelehnt werden Ablehnen der Alternativhypothese Ablehnen der Nullhypothese Nur zum internen Gebrauch In Wirklichkeit gilt die Nullhypothese In Wirklichkeit gilt die Alternativhypothese Richtige Entscheidung β-Fehler oder Fehler 2. Art α-Fehler oder Fehler 1. Art Richtige Entscheidung Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.1.2) 21 Grundbegriffe der induktiven Statistik 2. Beruht ein Unterschied auf der Hypothese („Alternativhypothese trifft zu“) oder nur auf Zufall („Nullhypothese trifft zu“)? D.h. ist die Stundenzahl in der Natur ursächlich für einen Unterschied in Depressionswerten oder ist dieser Unterschied zufällig zustande gekommen? Teststärke (Power) Die Teststärke ist die Fähigkeit bzw. Wahrscheinlichkeit eines Signifikanztests, einen signifikanten Unterschied nachzuweisen, wenn dieser tatsächlich existiert. Sie wird berechnet als 1-β, da sie die Gegenwahrscheinlichkeit zum β-Fehler oder Fehler 2. Art ist (vgl. Tabelle unten) Man unterscheidet a priori und a posteriori Teststärke Die a priori (vor der Studie) berechnete Teststärke sollte mindestens 80% betragen – zur Berechnung gibt es Software, z.B. G*Power A posteriori Teststärke (nach der Studie) kann genutzt werden, um nachzuprüfen, ob ein nicht signifikantes Testergebnis möglicherweise durch mangelnde Teststärke zustande kam Ablehnen der Alternativhypothese Ablehnen der Nullhypothese Nur zum internen Gebrauch In Wirklichkeit gilt die Nullhypothese In Wirklichkeit gilt die Alternativhypothese Richtige Entscheidung β-Fehler oder Fehler 2. Art α-Fehler oder Fehler 1. Art Richtige Entscheidung Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.1.2); Faul et al, 2007; Faul et al 2009 22 Grundbegriffe der induktiven Statistik 3. Wie relevant ist ein Unterschied? D.h. wie sehr unterscheiden sich Depressionswerte von Menschen, die wenige vs. viele Stunden in der Natur verbringen? Ist der Unterschied gering oder eklatant? Effektstärke (effect size) Wenn man einen statistisch signifikanten Unterschied zwischen zwei Gruppen nachgewiesen hat, stellt sich die Frage, ob dieser Unterschied auch relevant ist. Dies ist natürlich stark von der untersuchten Hypothese abhängig, aber mit Cohens d gibt es (für normalverteilte Daten) einen einfachen Parameter, der eine Abschätzung ermöglicht. Cohen’s d ist definiert als der Mittelwertsunterschied zweier Untersuchungsgruppen in Einheiten der Standardabweichung (bei gleicher Standardabweichung in beiden Gruppen*): M1-M2/SD Aufgrund der Division durch die SD, wird die Effektstärke umso kleiner, je größer die SD ist à wir wollen also möglichst wenig Variabilität innerhalb der jeweiligen Gruppen – Veranschaulichung an unserem Bsp.: Beispiel: Die Anzahl der Std. in der Natur hat einen besonders starken Effekt, wenn Die meisten Menschen mit wenigen Std. in der Natur hohe Depressionswerte erzielen Die meisten Menschen mit vielen Std. in der Natur niedrige Depressionswerte erzielen Mittels des Mittelwertsunterschied zwischen den beiden Gruppen (M1-M2) macht die Effektstärke gleichzeitig eine Aussage über die Variabilität zwischen den Gruppen – je mehr sich die Depressionsmittelwerte der Gruppen unterscheiden, desto größer ist der Effekt bzw. die Intergruppenvariabilität. *Wenn die Standardabweichung in EG und KG nicht gleich ist, verwendet man die sog. gepoolte Standardabweichung, Formel bei Cohen 1988 Nur zum internen Gebrauch Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.7.3) 23 Grundbegriffe der induktiven Statistik 3. Wie relevant ist ein Unterschied? D.h. wie sehr unterscheiden sich Depressionswerte von Menschen, die wenige vs. viele Stunden in der Natur verbringen? Ist der Unterschied gering oder eklatant? Effektstärke (effect size) – Cohens d Es ist von Interesse, mit einer Intervention einen möglichst starken Unterschied bzw. hohen Effekt zu erzielen. Beispiel: Depressionswerte im BDI: 21-30: Moderate Depression 31-40: Schwere Depression 41-63 (Höchstwert): Hochgradige Depression Was gilt als starker Effekt? Cohens d ≤ 0,2: kleiner Effekt Cohens d ≈ 0,5: mittlerer Effekt Cohens d ≥ 0,8: großer Effekt Cohens d = 1: Der Unterschied betrifft 1 ganze SD Nur zum internen Gebrauch Angenommen, wir würden Menschen mit einem Wert von 41 sagen, dass sich ihr Wert – wenn sie jeden Tag 1 Std. in der Natur verbringen – auf 40 verbessert… wäre dies eine attraktive Verbesserung? Wie wäre es jedoch, wenn sich der Wert von 41 auf 30 verbessern würde? Kleine Effekte können u.U. schwierig sein, nachzuweisen bzw. es werden hierfür sehr große Stichprobengrößen benötigt. Dies liegt an der hohen Variabilität innerhalb der Gruppen bzw. den vielen Extremwerten – je kleiner die Gruppengröße, desto wahrscheinlicher und einflussreicher werden Extremwerte, vergleiche: Ich frage 10 Leute, ob sie rauchen: hier spielt der Zufall, wen ich erwische, eine große Rolle und es ist durchaus möglich, dass ich 9 Nichtraucher erwische und nur 1 Person bzw. 10% der Befragten raucht Ich frage 100 Leute, ob sie rauchen: hier ist die Wahrscheinlichkeit, dass nur 10% bzw. 10 Leute rauchen, eher gering Daher gelten kleine Stichproben als nicht repräsentativ. Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.7.3) 24 Zusammenhangsmaße bzw. Korrelationsmaße sind ein Maß dafür, wie stark der Zusammenhang bzw. die Korrelation zwischen 2 Variablen ist bzw. wie stark diese korrelieren Zwei Variablen korrelieren, wenn eine Veränderung der 1. Variable (X) mit einer Veränderung der 2. Variable (Y) einhergeht Dies lässt sich durch Korrelationstests prüfen und in Korrelationskoeffizienten ausdrücken Korrelationskoeffizienten sind eine Maßzahl für die Stärke einer Korrelation – dieser kann zwischen -1 und 1 liegen: Wert des Korrelationskoeffizienten -1 bis < 0 Sog. Negative Korrelation: Je höher X, desto niedriger Y oder umgekehrt -1 = perfekt negative Korrelation, d.h. eine Änderung von Y ist vollständig durch eine Änderung von X erklärbar: Ab ~ - 0,7 spricht man von einer stark negativen Korrelation Nur zum internen Gebrauch 0 > 0 bis 1 Sog. Nullkorrelation Sog. Positive Korrelation Eine Änderung Je höher X, desto höher Y ODER von X hat keine Je niedriger X, desto niedriger Y Änderung von Y 1 = perfekt positive Korrelation, d.h. eine zur Folge Änderung von Y ist vollständig durch eine Änderung von X erklärbar: Ab ~ 0,7 spricht man von einer stark positiven Korrelation Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.7.3) 25 Zusammenhangsmaße bzw. Korrelationsmaße Weitere Maße: Kovarianz Maß für die lineare Abhängigkeit zwischen zwei Variablen erlaubt eine Aussage über die Richtung einer Korrelation nicht standardisiert und daher nur eingeschränkt auswertbar Rangkorrelationskoeffizient p erlaubt eine Aussage über die Stärke einer Korrelation zwischen mindestens nach Spearman ordinalskalierten Variablen (siehe Folie 7) setzt keine Normalverteilung voraus “ungenauer", nicht alle Informationen können verwendet werden Korrelationskoeffizient r nach Pearson erlaubt eine Aussage über die Stärke einer Korrelation zwischen intervallskalierten Variablen (siehe Folie 7) exakter, jedoch anfälliger für Verzerrungen durch Extremwerte entspricht der standardisierten Kovarianz setzt annähernd normalverteilte Daten voraus Determinationskoeffizient R2 Maß für den Anteil der Varianz der einen Variable, der durch die andere Variable erklärt wird Determinationskoeffizient = Korrelationskoeffizient2 Nur zum internen Gebrauch Kessler, 2021 (Kapitel 3.9.2); Faller & Lang, 2019 (Kapitel 3.7.3) 26 Quellenangaben Faller, H. und Lang, H. (2019): Medizinische Psychologie und Soziologie. Springer; 5. überarb. Aufl. Kessler, H. (2021): Kurzlehrbuch Medizinische Psychologie und Soziologie. Thieme; 4. überarb. Aufl. Beck, A.T., et al. (1961): An inventory for measuring depression. Archives of General Psychiatry, 4, 561-571. Rasch, B., et al. (2010): Quantitative Methoden 1: Einführung in die Statistik für Psychologen und Sozialwissenschaftler. Springer-Verlag. Faul, F., et al. (2007): G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods, 39, 175-191. Faul, F., et al. (2009): Statistical power analyses using G*Power 3.1: Tests for correlation and regression analyses. Behavior Research Methods, 41, 11491160. Nur zum internen Gebrauch 27 Univ.-Prof. Dr. Kyung-Eun (Anna) Choi Head of Health Services Research Group [email protected] Research Center Medical Image Analysis & Artificial Intelligence (MIAAI) Viktor Kaplan-Straße 2 2700 Wiener Neustadt, Austria www.miaai.at Danube Private University (DPU) GmbH Fakultät Medizin/Zahnmedizin Steiner Landstraße 124 3500 Krems-Stein, Austria www.DP-Uni.ac.at Nur zum internen Gebrauch Gebrauch! 28