Grundlagen Statistik PDF 2024 MCI University
Document Details
Uploaded by Deleted User
MCI Management Center Innsbruck
2024
null
null
Tags
Summary
This document is a lecture note on Statistical Concepts. It contains statistical concepts like measures of central tendency, measures of variability, probability distributions, statistical tests, and data analysis. These notes are for undergraduate students at MCI University.
Full Transcript
Grundlagen Statistik Einführung Inferenzstatistik. „Ein Mensch, der von Statistik hört, Der zweite Schuß mit lautem K...
Grundlagen Statistik Einführung Inferenzstatistik. „Ein Mensch, der von Statistik hört, Der zweite Schuß mit lautem Krach Doch wär’er klug und nähme Schrot denkt dabei nur an Mittelwert. lag eine Handbreit nach. - dies sei gesagt ihn zu bekehren - Er glaubt nicht dran und ist dagegen, Der Jäger spricht ganz unbeschwert Er würde seine Chancen mehren: ein Beispiel soll es gleich belegen: voll Glauben an den Mittelwert: Der Schuß geht ab, die Ente stürzt, Statistisch ist die Ente tot. weil Streuung ihr das Leben kürzt.“ Ein Jäger auf der Entenjagd hat einen ersten Schuß gewagt. Der Schuß, zu hastig aus dem Rohr, (P. H. List, aus J. Hartung, 1991) lag eine Handbreit vor. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 1 Statistik management, communication & it Grundlagen Statistik – Ablauf. Vorlesung Übung 30.09.2024 01.10. / 03.10.2024 Einführung Statistik, Daten & Skalen R & R Studio, Deskriptive Statistik I 08.10.2024 17.10. / 18.10.2024 Statistische Kennwerte, Normalverteilung, etc. Deskriptive Statistik II 23.10. / 24.10. / 28.10.2024 Deskriptive Statistik III 22.10.2024 28.10. / 29.10.2024 Einführung Inferenzstatistik, Zusammenhänge Hypothesen & Chi2 Test 12.11.2024 13.11. / 14.11.2024 Unterschiede, Regressionen Chi2 Test & Korrelationen 19.11.2024 20.11. / 22.11.2024 Wiederholung Unterschiede 25.11. / 28.11.2024 Regressionen 03.12. / 04.12.2024 Wiederholung & Testklausur U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 2 Statistik management, communication & it Inhalte der heutigen Lehrveranstaltung. ‐ Verteilungen visualisieren ‐ Die Normalverteilung. ‐ Datenanalyse (Einführung) ‐ Test auf Signifikanz ‐ Prüfung auf Normalverteilung U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 3 Verteilungen visualisieren Vertiefte deskriptive Statistik U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 6 Statistik management, communication & it Wesentliche deskriptive Kategorien (I). ‐ Lagemaße ‐ Perzentilen – relative Position eines Wertes in einer Verteilung ‐ Quartile – Spezielle Form der Perzentile (25% = 1. Quartil, 50% = 2. Quartil, etc.) ‐ Tabellarische Darstellungen ‐ Häufigkeitsverteilungen – kombinierte Tabellen (bspw. gruppierte Mittelwerte + Standardabweichungen, etc.) ‐ Kreuztabellen – mehrdimensionale Häufigkeitsverteilung ‐ Graphische Darstellungen ‐ Histogramm – Balkendiagramm der Verteilungsdichte in Intervallen ‐ Boxplot – Visuelle Darstellung einer Verteilung mittels Min/Max/IQA ‐ Diagramme – Balken-, Tortendiagramm, Netzwerke oder kombinierte Diagramme U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 7 Statistik management, communication & it Wesentliche deskriptive Kategorien (II). ‐ Zentrale Tendenzen ‐ Modus, Mittelwert, Median ‐ Streuungsparameter ‐ Spannweite – z.B. Minimum und Maximum (bei metrischen Daten) ‐ Standardabweichung – durchschnittlicher Abstand vom Mittelwert ‐ Perzentile – prozentuale Teilung geordneter Daten ‐ Interquartilabstand – Abstand zwischen 1. – 3. Quartil ‐ Verteilungsparameter ‐ Schiefe – beschreibt Ausmaß sowie Richtung der Asymmetrie einer Verteilungskurve (horizontal) ‐ Kurtosis – Beschreibt den Exzess einer Verteilungskurve (vertikal) ‐ Normalverteilung U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 8 Statistik management, communication & it Das Boxplot Diagramm. * x > x0,75 + 3 IQR (Extremwerte) o x > x0,75 + 1,5 IQR (Ausreißer) Maximalwert (kein Ausreißer) oder x ≤ x0,75 + 1,5 IQR Oberes Quartil (75% Quantil) Median (50% Quantil) IQR Unteres Quartil (25% Quantil) Minimalwert (kein Ausreißer) oder x ≥ x0,25 - 1,5 IQR x < x0,25 - 1,5 IQR (Ausreißer) o x < x0,25 - 3 IQR (Extremwerte) * U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u how 2 9 Statistik management, communication & it Interquartilabstand (IQR). … ist die Differenz zwischen dem Median der 50% größten Merkmalsausprägungen und dem Median der 50% kleinsten Merkmalsausprägungen. Oder: Die Differenz zwischen dem 75% Perzentil und dem 25% Perzentil. In diesem Bereich liegen somit 50% der Messwerte. Berechnung des Interquartilsabstandes: ‐ 75% Perzentil = Median der 50% größten Merkmalsausprägungen ‐ 25% Perzentil = Median der 50% kleinsten Merkmalsausprägungen ‐ Der Interquartilabstand ist gegenüber extremen Werten unempfindlich. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 10 Die Normalverteilung. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 11 Statistik management, communication & it Beschreibung. ‐ Die Normalverteilung ist eine kontinuierliche Wahrscheinlichkeitsverteilung, die in der Statistik eine zentrale Rolle spielt. ‐ Ihre Glockenform ist symmetrisch um den Mittelwert verteilt. ‐ Wichtige Parameter: Mittelwert (µ) und Standardabweichung (σ). ‐ Die Fläche unter der Kurve entspricht der Gesamtwahrscheinlichkeit 1. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 12 Statistik management, communication & it Eigenschaften & Parameter. ‐ Symmetrie: Die Verteilung ist um den Mittelwert symmetrisch. ‐ Glockenform: Sie hat eine typische glockenförmige Kurve. ‐ Mittelwert = Median = Modus: Alle drei Lagemasse sind gleich. ‐ 68-95-99.7-Regel: ‐ 68% der Daten liegen innerhalb einer Standardabweichung, ‐ 95% innerhalb von zwei und ‐ 99.7% innerhalb von drei Standardabweichungen. Die Normalverteilung wird durch zwei Parameter definiert: ‐ Mittelwert (µ): Bestimmt die Lage des Zentrums der Verteilung. ‐ Standardabweichung (σ): Bestimmt die Breite der Kurve. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 13 Statistik management, communication & it Anwendung & Bedeutung. ‐ In vielen Bereichen der Statistik wird angenommen, dass Daten normalverteilt sind. → metrische Daten sollten demnach immer auf Normalverteilung getestet werden! ‐ Sie gilt als Voraussetzung für Hypothesentests, z.B. bei der ANOVA und dem t-Test. ‐ Viele natürliche Phänomene (z.B. Körpergröße, Blutdruck) folgen einer Normalverteilung. ‐ Tests auf Normalverteilung werden in der Regel nicht berichtet, sondern durch die Wahl des entsprechenden Testverfahrens ausgedrückt. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 14 Statistik management, communication & it Unterscheidung Normal- & Standardnormalverteilung. Eigenschaften Normalverteilung: ‐ Eine Normalverteilung kann jeden beliebigen Mittelwert (µ) und jede beliebige Standardabweichung (σ) haben. ‐ Beispiel: Die Verteilung der Körpergrößen einer Bevölkerung kann normalverteilt sein, mit einem Mittelwert von 170 cm und einer Standardabweichung von 10 cm. ‐ Schiefe & Kurtosis sollten 0 sein. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 15 Statistik management, communication & it Unterscheidung Normal- & Standardnormalverteilung. Eigenschaften Standardnormalverteilung: ‐ Die Standardnormalverteilung ist eine spezielle Normalverteilung, die folgende Eigenschaften hat: ‐ Mittelwert (µ) = 0 ‐ Standardabweichung (σ) = 1 ‐ Schiefe & Kurtosis = 0 ‐ Normale Verteilungen können auf die Standardnormalverteilung transformiert werden → Z-Transformation an ‐ Mittelwert auf 0 standardisiert. ‐ Umrechnung aller anderen Werte in sogenannte z-Scores. ‐ z-Scores helfen – aufgrund der Standardisierung – die Position einzelner Werte im Bezug zum Mittelwert zu verstehen. ‐ Ebenfalls können unterschiedliche Verteilungen miteinander verglichen werden. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 16 Statistik management, communication & it Exkurs: Berechnung von z-Scores: z-Scores, oder Standardwerte bzw. Standardisierte Werte, geben an, wie viele Standardabweichungen ein Datenpunkt vom Mittelwert entfernt ist. Anwendung, um… − einzelne Werte in Bezug auf eine Normalverteilung zu interpretieren. − einzelne Werte zwischen zwei Verteilungen vergleichen Definition des z-Scores: Der z-Score eines Wertes X wird berechnet mit der Formel: 𝑋−µ 𝑧= σ ‐ z-Score = 0: Datenpunkt liegt genau auf dem Mittelwert. ‐ z-Score > 0: z.B. +1 → Datenpunkt liegt genau eine Standardabweichung über dem Mittelwert. ‐ z-Score < 0: z.B. -2 → Datenpunkt liegt genau zwei Standardabweichungen unter dem Mittelwert. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 17 Statistik management, communication & it Beispiel: z-Scores Zwei Gruppen – Media a & Media b. Beide schreiben eine Klausur: ‐ Media a: µ = 75, Standardabweichung = 10. ‐ Media b: µ = 80, Standardabweichung = 15. ‐ Studierende aus Media a hat 85 Punkte, Studierende aus Media b hat 95 Punkte erreicht hat. Ergebnis: ‐ Studierende Media a: z = 1 → 1 Standardabweichung über dem Mittelwert. ‐ Studierende Media b: z = 1 → 1 Standardabweichung über dem Mittelwert. → Obwohl die Studierende aus Media b 95 Punkte erreicht hat, hat sie im Vergleich mit der Studierenden aus Media a im Verhältnis zu ihrer Klasse gleich gut abgeschnitten (beide z-Scores = 1). U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 18 Datenanalyse Eine Einführung. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 19 Statistik management, communication & it Übersicht. ‐ Zu Beginn eines Forschungsprojektes muss zunächst bestimmt werden, wie die Art der Fragestellung ist. ‐ Je nach Typ der Fragestellung kommen neben deskriptiven Analysen zwei Arten der Analyse zum Einsatz: ‐ Dependenzanalysen und Interdependenzanalysen. Überprüft Entdeckt Strukturen Strukturen U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 20 Statistik management, communication & it Dependenzanalyse. Dependenzanalysen sind Verfahren, mit deren Einsatz Strukturen überprüft werden sollen. ‐ Beispiele: Varianzanalyse, Regressionsanalyse, t-Tests, Diskriminanzanalyse, Chi-Quadrat-Tests etc. ‐ Ziel: Abhängigkeiten (Dependenzen) zwischen "abhängigen" und "unabhängigen" Variablen zu untersuchen. ‐ Verfahren: Die Variablen werden vor Anwendung der entsprechenden Methode in abhängige (zu erklärende) und unabhängige (erklärende) Variablen aufgeteilt (z.B. durch entsprechende Fachliteratur oder anhand von früheren Studien). ‐ Bedingungen: Skalenniveaus der Variablen bedingen die Art der Analyse. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 21 Statistik management, communication & it Ziel der Dependenzanalyse. Je nach Art der Forschungsfrage und Hypothesen werden Unterschiede oder Zusammenhänge zwischen Variablen untersucht. ‐ Ziel einer Dependenzanalyse ist es, statistische Aussagen über einen bestimmten Sachverhalt zu machen. ‐ Hierzu müssen eine zu prüfende Hypothese, genannt Nullhypothese (H0), und die Gegen- oder Alternativhypothese (H 1) aufgestellt werden. ‐ Da es in den meisten Fällen nicht möglich ist, die komplette Grundgesamtheit (z.B. alle Studierenden Österreichs) zu befragen, wird aus der Grundgesamtheit eine Stichprobe (z.B. 1.200 Studierende) gezogen. ‐ Mit dieser Stichprobe soll nun eine Aussage über die Grundgesamtheit gemacht werden. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 22 Statistik management, communication & it Überprüfen von Hypothesen. ‐ Um die Hypothesen zu überprüfen, werden sogenannte Signifikanztests verwendet. ‐ Alle Methoden der Dependenzanalyse sind Tests solcher Art, was bedeutet, dass sich mit diesen Methoden überprüfen lässt, ob die erhobenen Unterschiede oder Zusammenhänge statistisch signifikant sind. ‐ Da diese Aussagen nur anhand von Stichproben gemacht werden, lassen sich die Hypothesen über die Grundgesamtheit nur mit einer vorher festgelegten Wahrscheinlichkeit annehmen oder verwerfen (das sog. Signifikanzniveau). U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 23 Statistik management, communication & it Vorgehen beim Testen von Hypothesen. Hypothesen formulieren. (H0 und H1 festlegen) Ermittlung einer statistischen Prüfgröße bzw. Auswahl des Testverfahrens. Signifikanzniveau der Prüfgröße festlegen. (in der Regel 5%) Je nach Testergebnis (p-Wert) H0 beibehalten oder verwerfen. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 24 Statistik management, communication & it Hypothesen formulieren & testen. ‐ Quantitative Forschung (Studien, Präsentationen, Berichte, etc.) bezieht sich meistens auf das Analysieren / Testen von Hypothesen. ‐ Hypothesen zu testen unterstützt uns bei der Entscheidung, ob wir nach der Datenanalyse noch an unserer Hypothese festhalten. ‐ Der Schwellenwert, für unser Vertrauen in eine Hypothese (oder deren Ablehnung) ist die Irrtumswahrscheinlichkeit. ‐ Der Schwellenwert entspricht jener Wahrscheinlichkeit, dass wir fälschlicherweise eine Hypothese ablehnen, obwohl diese zutrifft. => Fehler 1. Art / α Fehler bei H0 ‐ In der Sozialwissenschaft wird für diesen Schwellenwert 5% festgelegt. → Signifikanzniveau. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 25 Statistik management, communication & it Hypothesen formulieren: H0 oder H1 Die Nullhypothese behauptet (so gut wie) immer, dass “nichts besonderes” in unserer Grundgesamtheit vorgeht bzw. keine “Struktur” vorhanden ist. Beispiele: 1. Hat die Marketingkampagne einen Effekt auf den durchschnittlichen Umsatz eines Unternehmens? Die Nullhypothese (H0) würde behaupten, dass die Marketingkampagne keinen Effekt auf den durchschnittlichen Umsatz hat. 2. Geben Frauen im Durchschnitt mehr für Kleidung aus als Männer? Die Nullhypothese (H0) würde behaupten, dass es keinen Unterschied zwischen Frauen und Männern bezüglich ihres durchschnittlichen Kaufverhaltens für Kleidung gibt. Wichtig: Zu behaupten, dass es keinen Unterschied gibt, bedeutet, dass es keinen Unterschied im Vergleich der durchschnittlichen Ausgaben für Kleidung (in €) zwischen Männern und Frauen gibt. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 26 Statistik management, communication & it Hypothesen formulieren: H0 Wie wird die Nullhypothese grundsätzlich formuliert: ‐ Wenn zwei Gruppen/Variablen verglichen werden: Wird behauptet, dass die beiden Gruppen hinsichtlich des zu untersuchenden Merkmals identisch/gleich sind. ‐ Wenn ein Effekt/Einfluss einer Variable auf eine andere untersucht wird: Wird behauptet, dass es keinen Effekt/Einfluss gibt. ‐ Wenn eine Verbindung zwischen zwei Merkmalen/Variablen untersucht wird: Wird behauptet, dass keine Verbindung zwischen den beiden Merkmalen/Variablen besteht. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 27 Statistik management, communication & it Hypothesen formulieren: H1 Die zweite Hypothese ist die sogenannte Alternativhypothese. Diese Hypothese behauptet das exakte Gegenteil der Nullhypothese. Und zwar wirklich exakt das Gegenteil, nicht nur ein bisschen oder teilweise. Formulieren Sie hier die Alternativhypothese tatsächlich vollständig gegenläufig zur Nullhypothese. Beispiele: 1. Hat die Marketingkampagne einen Effekt auf den durchschnittlichen Umsatz eines Unternehmens? Die Alternativhypothese (H1) würde hier behaupten, dass der durchschnittliche Umsatz vor der Marketingkampagne sich vom durchschnittlichen Umsatz nach der Kampagne unterscheidet. Wichtig: Die Alternativhypothese behauptet nie die Richtung eines Effektes, lediglich das Wirken dieses Effekts. Ob dieser Effekt dann positiv oder negativ ist, zeigt das Testergebnis. 2. Geben Frauen im Durchschnitt mehr für Kleidung aus als Männer? Die Alternativhypothese (H1) würde hier behaupten, dass die durchschnittlichen Ausgaben für Kleidung bei Frauen sich von den durchschnittlichen Ausgaben bei Männern unterscheiden. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 28 Statistik management, communication & it Hypothesen formulieren: H1 Grundsätzliche Überlegungen beim Formulieren der Alternativhypothese: ‐ Seien Sie sehr gewissenhaft im Formulieren der beiden Hypothesen. Hier zählt wirklich jedes Wort! Wenn eine Hypothese falsch formuliert wurde, kann es passieren, dass Sie die falschen Schlüsse aus den Ergebnissen ziehen. Ihre Interpretation oder Entscheidungen wären somit schlecht beraten. ‐ Wissenschaftliche Artikel berichten nie die Nullhypothese, sondern lediglich die Alternativhypothese. Aufgrund der Formulierungslogik, ist in der Regel die Nullhypothese immer entsprechend abzuleiten. Verzichten Sie dennoch nie auf das Formulieren des Hypothesenpaares, um die Logik der statistischen Testverfahren & Methoden entsprechend mitzudenken / abzubilden. Kurz formuliert: Sie werden immer die Nullhypothese testen! Die Frage ist also: Glauben wir nach der Analyse der Daten noch an diese? U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 29 Statistik management, communication & it Beispiele für Hypothesen: Auswirkungen einer Marketingkampagne auf den Umsatz ‐ H₀ (Nullhypothese): Die neue Marketingkampagne hat keinen signifikanten Einfluss auf den Umsatz des Unternehmens. 𝜇𝑈𝑚𝑠𝑎𝑡𝑧 𝑣𝑜𝑟ℎ𝑒𝑟 = 𝜇𝑈𝑚𝑠𝑎𝑡𝑧 𝑛𝑎𝑐ℎℎ𝑒𝑟 ‐ H₁ (Alternativhypothese): Die neue Marketingkampagne hat einen signifikanten Einfluss auf den Umsatz des Unternehmens. 𝜇𝑈𝑚𝑠𝑎𝑡𝑧 𝑣𝑜𝑟ℎ𝑒𝑟 ≠ 𝜇𝑈𝑚𝑠𝑎𝑡𝑧 𝑛𝑎𝑐ℎℎ𝑒𝑟 Unterschiede im Durchschnittseinkommen zwischen Männern und Frauen ‐ H₀ (Nullhypothese): Es gibt keinen signifikanten Unterschied im Durchschnittseinkommen zwischen Männern und Frauen. 𝜇𝑀ä𝑛𝑛𝑒𝑟 = 𝜇𝐹𝑟𝑎𝑢𝑒𝑛 ‐ H₁ (Alternativhypothese): Es gibt einen signifikanten Unterschied im Durchschnittseinkommen zwischen Männern und Frauen. 𝜇𝑀ä𝑛𝑛𝑒𝑟 ≠ 𝜇𝐹𝑟𝑎𝑢𝑒𝑛 U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 30 Statistik management, communication & it Festlegen der Prüfgröße und Signifikanz. Unterschied zwischen Prüfgröße und Signifikanz ‐ Grundsätzlich wird bei jedem statistischen Test zwischen der Prüfgröße (z.B. der Chi-Quadrat-Wert, F-Wert, etc.) und der Signifikanz der Prüfgröße unterschieden. ‐ Wahrend die Prüfgröße Chi-Quadrat theoretisch Werte bis unendlich annehmen kann, liegt die Signifikanz p (=Wahrscheinlichkeit der Prüfgröße bei angenommener Unabhängigkeit bzw. H0) immer zwischen 0 und 1. http://iphone-tricks.de/files/2014/ 05/mail-m arkieren-6.jpg U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 31 Statistik management, communication & it Hypothesentests. F... Teststatistik f(F)... Wahrscheinlichkeitsdichte Konfidenzniveau bei geltender H0 → 1 - 𝛼 = 0.95 U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 32 Test auf Signifikanz. H0 oder H1? Döring, N.; Bortz, J. (2015): Forschungsmethoden und Evaluation, Springer, Berlin. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 33 Statistik management, communication & it Übersicht Testverfahren. http://www.methodenberatung.uzh.ch/static/en tscheidbaum/ ents cheidbaum.jpg U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 34 Statistik management, communication & it Signifikanztests. = Tests zur statistischen Überprüfung von Hypothesen. ‐ Der Signifikanztest ermittelt die Wahrscheinlichkeit, mit der das gefundene empirische Ergebnis – sowie Ergebnisse, die noch extremer sind als das gefundene Ergebnis – auftreten können, wenn die Populationsverhältnisse der Nullhypothese entsprechen. ‐ Ist diese Wahrscheinlichkeit kleiner als α%, wird das Stichprobenergebnis als signifikant bezeichnet. ‐ Für α sind in der Regel die Werte 5% bzw. 1% festgelegt. ‐ Bei geltender H0 kleiner als 5% -> signifikant ‐ Bei geltender H0 kleiner als 1% -> sehr signifikant U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 35 Statistik management, communication & it Signifikanztests. Ein (sehr) signifikantes Ergebnis ist also ein Ergebnis, das sich mit der geltenden Nullhypothese praktisch nicht vereinbaren lässt. ‐ Man verwirft deshalb die Nullhypothese H0 und akzeptiert die Alternativhypothese H1. ‐ Bei einem nicht-signifikanten Ergebnis, wird die Nullhypothese H0 beibehalten und die Alternativhypothese H1 abgelehnt. http://iphone-tricks.de/files/2014/ 05/mail-m arkieren-6.jpg U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 36 Statistik management, communication & it Stichprobenkennwert. Wie kommen wir zu unseren Hypothesen? ‐ In jeder hypothesen‐prüfenden Untersuchung bestimmen wir einen statistischen Kennwert, der möglichst die gesamte hypothesen‐relevante Information einer Untersuchung zusammenfasst. ‐ Dieser ergibt sich aufgrund unserer Operationalisierung im Studiendesign! ‐ Hierbei kann es sich – je nach Art der Hypothese und nach Art des Skalenniveaus der Variablen – um... ‐ Mittelwertsdifferenzen, ‐ Häufigkeitsdifferenzen, ‐ Korrelationen, ‐ Quotienten zweier Varianzen, ‐ Differenzen von Rangsummen, ‐ Prozentwertdifferenzen o.ä. handeln. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 37 Statistik management, communication & it Stichprobenkennwert. Unabhängig von der Art eines Kennwertes gilt, dass... ‐... die in einer Untersuchung ermittelte Größe des Kennwertes von den spezifischen Besonderheiten der zufällig ausgewählten Stichprobe(n) abhängt. ‐... mit hoher Wahrscheinlichkeit der untersuchungsrelevante Kennwert bei einer Wiederholung der Untersuchung mit anderen Untersuchungsobjekten nicht exakt mit dem zuerst ermittelten Wert übereinstimmen. → Konfidenzintervall Signifikanztests werden nur eingesetzt, wenn die Ausprägungen der interessierenden Populationsparameter unbekannt sind. (sonst wäre ein Signifikanztest ja auch nicht notwendig...) U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 38 Statistik management, communication & it Signifikante Ergebnisse - Signifikanzniveau. Mittels eines Signifikanztest fragen wir also nach der Wahrscheinlichkeit, mit der unsere Stichprobenergebnisse auftreten können, wenn die Nullhypothese gilt. Wir betrachten nur diejenigen extremen Ergebnisse, die bei Gültigkeit der Nullhypothese höchstens mit einer Wahrscheinlichkeit von 5% (1%) vorkommen. 1. Gehört das gefundene Stichprobenergebnis zu diesen Ergebnissen (α < 5%), ist das Stichprobenergebnis „praktisch" nicht mit der Nullhypothese zu vereinbaren. 2. Wir entscheiden uns deshalb dafür, die Nullhypothese abzulehnen und akzeptieren die Alternativhypothese als Erklärung. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 39 Statistik management, communication & it Signifikanz. ‐ ein Wert nahe bei 0 bedeutet: der berechnete Wert der Prüfgröße ist bei angenommener Unabhängigkeit (also bei geltender H0) sehr unwahrscheinlich. → ist dieser Wert gleich oder kleiner als das gewählte Signifikanzniveau (0,05 oder 0,01), dann wird konventionell die H0 verworfen und die H1 (= Annahme von Abhängigkeit oder Zusammenhang) angenommen; ‐ ein Wert nahe bei 1 bedeutet: der berechnete Wert der Prüfgröße ist bei angenommener Unabhängigkeit sehr wahrscheinlich. → ist dieser Wert größer als das gewählte Signifikanzniveau (0,05 oder 0,01), dann wird konventionell die H0 (Annahme von Unabhängigkeit oder keinem Zusammenhang) beibehalten; U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 40 Statistik management, communication & it Signifikante Ergebnisse. ‐ Ein signifikantes Ergebnis sagt also nichts über die Wahrscheinlichkeit von Hypothesen aus, sondern „nur" etwas über die Wahrscheinlichkeit von statistischen Kennwerten bei Gültigkeit der Nullhypothese. ‐ Die Hypothesen (H0 oder H1) sind entweder richtig oder falsch, d.h. auch unsere Entscheidung, bei einem signifikanten Ergebnis die H0 zu verwerfen, ist entweder richtig oder falsch. ‐ Bei dieser Entscheidungsstrategie riskieren wir, dass mit 5% (oder 1%) Irrtumswahrscheinlichkeit eine tatsächlich richtige H0 fälschlicherweise verworfen wird. → Fehler 1. Art (α-Fehler): H0 wird fälschlicherweise abgelehnt, http://iphone‐tricks.de/files/2014/05/mail‐m arkieren‐6.jpg obwohl sie wahr ist. → Fehler 2. Art (β-Fehler): H0 wird nicht abgelehnt, obwohl die H1 wahr ist. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 41 Zusammenfassung. H0 oder H1? U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 42 Statistik management, communication & it Signifikante Ergebnisse - Zusammenfassung. Bei einem Signifikanztest geht man also davon aus, die Nullhypothese (H0) würde in der Population gelten. ‐ Unter dieser Annahme lässt sich für den Populationsparameter, der in der Nullhypothese (H0) angesprochen ist, eine Stichprobenkennwerteverteilung f(F) konstruieren, die angibt, mit welcher Wahrscheinlichkeit mögliche Stichprobenergebnisse auftreten können. ‐ Mit dieser Stichprobenkennwerteverteilung (bzw. H0‐Verteilung, H0‐Modell) wird nun das konkret in der Untersuchung ermittelte Stichprobenresultat verglichen. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 43 Statistik management, communication & it Signifikante Ergebnisse - Zusammenfassung. Zwei mögliche Ergebnisse: ‐ Ist das gefundene Stichprobenergebnis ein wahrscheinliches Ergebnis, so steht es in Einklang mit der H0. ‐ Ist das Stichprobenergebnis ein unwahrscheinliches Ergebnis, das unter Gültigkeit der H0 nur extrem selten auftreten kann, entschließt man sich, die Nullhypothese als unplausibel zu verwerfen. ‐ Dies geschieht aber nur, wenn die Wahrscheinlichkeit für das Auftreten des gefundenen Ergebnisses kleiner als 5% ist. ‐ Ein solches, im Sinne der H0 unplausibles Ergebnis wird als „signifikantes Ergebnis" bezeichnet. Bei einem signifikanten http://iphone‐tricks.de/files/2014/05/mail‐m arkieren‐6.jpg Ergebnis entscheidet man sich dafür, die H0 zu verwerfen und die H1 anzunehmen. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 44 Normalverteilungsprüfung. Ist das normal oder nicht? U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 45 Statistik management, communication & it Test auf Normalverteilung. Für den Nachweis einer Normalverteilung kann auf zwei wesentliche Methoden zurückgegriffen werden: ‐ statistisch-mathematisch auf den Kolmogorov-Smirnov-Test / Shapiro-Wilk Test (falls die Werte nicht in Klassen eingeteilt sind, besonders auch bei kleinen Stichproben). ‐ optisch: Für die optische Abschätzung der Normalverteilung kann auf die grafische Wiedergabe (z.B. via Boxplot, QQ‐Diagramm) zurückgegriffen werden. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 46 Statistik management, communication & it Praktische Prüfung auf Normalverteilung (I). Statistisch-mathematische Möglichkeit - Testverfahren: ‐ Kolmogorov-Smirnov Test (K-S Test) metrisch | n < 120 | p > 5% bedeutet normalverteilt ‐ Shapiro-Wilk Test metrisch | n = 50 bis 200 | p > 5% bedeutet normalverteilt ‐ Schiefe & Kurtosis (via DescTools) ‐ Schiefe: Wert zwischen – 0.5 und + 0.5 ‐ Kurtosis: Wert zwischen -1 und +1 U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 47 Statistik management, communication & it Praktische Prüfung auf Normalverteilung (II). Graphische Möglichkeiten: ‐ Histogramm + Normalverteilungskurve optische Einschätzung einer symmetrischen Verteilung → Balken sind unter der Normalverteilungskurve ‐ Boxplot Diagramm Median am oberen / unteren Ende der Box -> nicht normalverteilt ‐ QQ – Diagramm U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 48 Statistik management, communication & it Statistisch-mathematische Testverfahren (I) ‐ Definition: Test, ob die Verteilung einer Variablen in der Grundgesamtheit mit einer theoretischen Verteilung übereinstimmt. ‐ Skalenniveau: mind. metrisch. Wichtig: Für den K-S und Shapiro-Wilk Test gilt: ‐ Bei diesem Test besteht der Sonderfall, dass unsere „Wunschhypothese“ die Nullhypothese ist. ‐ Angenommene Hypothesen: ‐ H0: Die Variable in der Grundgesamtheit folgt einer Normalverteilung. ‐ H1: Die Variable in der Grundgesamtheit folgt keiner Normalverteilung. → Achtung: Beide Tests tendieren bei großen Datensatz zur Signifikanz, deswegen immer auch graphisch prüfen! U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 49 Statistik management, communication & it Statistisch-mathematische Testverfahren (I) Wichtig: ‐ Kolmogorov-Smirnov Test: Probleme mit Stichproben n > 120 und diskreten Daten ‐ Shapiro-Wilk: Probleme mit Stichproben außerhalb von n = 50-200. Interpretation des Ergebnisses bei K-S & Shapiro Wilk: ‐ Asymptotische Signifikanz p < 5%: Wir können mit einer Irrtumswahrscheinlichkeit von p annehmen, dass die Daten nicht normalverteilt sind. H0 ablehnen, H1 annehmen. ‐ Asymptotische Signifikanz p > 5%: Wir können mit einer Irrtumswahrscheinlichkeit von p annehmen, dass die Daten normalverteilt sind. H0 beibehalten. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 50 Statistik management, communication & it Visuelle Testverfahren – QQ-Diagramm ‐ Das Q-Q-Diagramm vergleicht die Quantile der empirischen Daten mit den Quantilen einer theoretischen Verteilung. ‐ Wenn die Daten gut zur Normalverteilung passen, sollten die Punkte im Q‐Q‐ Diagramm entlang einer geraden Linie liegen. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 51 SO LONG AND THANKS FOR ALL YOUR ATTENTION. Contact: Aleksander Groth Dept. Management, Communication & IT MCI Management Center Innsbruck Universitätsstraße 15 6020 Innsbruck, AUSTRIA Email: [email protected] Phone: +43 512 2070 – 3523 Fax: +43 512 2070 – 3599 U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 52