Grundlagen Statistik VO 20241008 PDF
Document Details
![BrotherlyUnakite1010](https://quizgecko.com/images/avatars/avatar-15.webp)
Uploaded by BrotherlyUnakite1010
MCI Management Center Innsbruck
2024
Tags
Summary
This document appears to be lecture notes from a university course on statistics, given in 2024. It covers topics such as descriptive statistics, and different types of scales, with examples.
Full Transcript
Grundlagen Statistik Ein Anfang. „Ein Mensch, der von Statistik hört, Der zweite Schuß mit la...
Grundlagen Statistik Ein Anfang. „Ein Mensch, der von Statistik hört, Der zweite Schuß mit lautem Krach Doch wär’er klug und nähme Schrot denkt dabei nur an Mittelwert. lag eine Handbreit nach. - dies sei gesagt ihn zu bekehren - Er glaubt nicht dran und ist dagegen, Der Jäger spricht ganz unbeschwert Er würde seine Chancen mehren: ein Beispiel soll es gleich belegen: voll Glauben an den Mittelwert: Der Schuß geht ab, die Ente stürzt, Statistisch ist die Ente tot. weil Streuung ihr das Leben kürzt.“ Ein Jäger auf der Entenjagd hat einen ersten Schuß gewagt. Der Schuß, zu hastig aus dem Rohr, (P. H. List, aus J. Hartung, 1991) lag eine Handbreit vor. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 1 Statistik management, communication & it Grundlagen Statistik – Ablauf. Vorlesung Übung 30.09.2024 01.10. / 03.10.2024 Einführung Statistik, Daten & Skalen R & R Studio, Deskriptive Statistik I 08.10.2024 09.10. / 11.10.2024 Statistische Kennwerte, Normalverteilung, etc. Deskriptive Statistik II 17.10. / 18.10.2024 Deskriptive Statistik III 22.10.2024 28.10. / 29.10.2024 Einführung Inferenzstatistik, Zusammenhänge Hypothesen & Chi2 Test 12.11.2024 13.11. / 14.11.2024 Unterschiede, Regressionen Chi2 Test & Korrelationen 19.11.2024 20.11. / 22.11.2024 Wiederholung Unterschiede 25.11. / 28.11.2024 Regressionen 03.12. / 04.12.2024 Wiederholung & Testklausur U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 2 Statistik management, communication & it Inhalte der heutigen Lehrveranstaltung. ‐ Grundbegriffe der Statistik. ‐ Skalenniveaus. ‐ Deskriptive Statistik ‐ Verteilungsparameter. ‐ Lagemaße, zentrale Tendenz ‐ Übung: Fragebogen zur Zufriedenheit U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 3 Statistik management, communication & it Die Skalen im Überblick (I) Ratio-/Verhältnisskala: Messung von Merkmalen durch Interpretation der Größe der Unterschiede und (durch die Quotienten) deren Verhältnismäßigkeit Intervallskala: Messung von Merkmalen durch Interpretation der Größe der Unterschiede (keine Verhältnisse!); Vergleich von Differenzen Ordinalskala: Messung von Merkmalen durch Interpretation ihrer Ranggröße (Hierarchie); Relation kleiner () Nominalskala: Messung von Merkmalen durch Zuordnung zu Kategorien; Gleichheit (=), Verschiedenheit (≠) kategorial metrisch U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 4 Einführung in die Deskriptive Statistik. = Grundlagen, Grundlagen, Grundlagen & Grundlagen. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 6 Statistik management, communication & it Aufgabe & Ziel der Deskriptiven Statistik ‐ Deskriptive Statistiken verwenden Methoden, um einen Datensatz quantitativ zu beschreiben. ‐ Die Merkmalsausprägungen sollten im Forschungs- bzw. Erhebungskontext beschrieben und aufbereitet werden. Aufgaben der Deskriptiven Statistik ‐ Beschreibung der Variablen anhand ihrer Verteilungscharakteristiken (Mittelwert+Standardabweichung, Median, etc.) ‐ Zusammenfassende Betrachtung & Darstellung von Daten ‐ Erstellung von aussagekräftigen Tabellen ‐ Erstellung von aussagekräftigen Diagrammen Ziele der deskriptiven Statistik ‐ Verständnis für die Charakteristik (Merkmale & Muster) des Datensatzes ‐ Grundlage für die inferentielle Statistik (Testverfahren) U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 7 Statistik management, communication & it Ablauf einer deskriptiven Analyse. 1. Daten laden. 2. Daten überprüfen. 3. Daten aufbereiten. Umbenennen, Umwandeln, etwas berechnen, etc. 4. Daten bereinigen. Ausreißer oder fehlende Werte entfernen, etc. 5. Univariate Analyse. Jede Variable einzeln betrachten, darstellen, verstehen, interpretieren. 6. Bivariate Analyse. Beziehungen zwischen Variablen betrachten, darstellen, verstehen, interpretieren. 7. Variablen auf Normalverteilungen überprüfen. 8. Interpretation & Bericht. Ergebnisse und Visualisierungen dokumentieren und interpretieren. (=in ganzen Sätzen beschreiben) U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 8 Statistik management, communication & it Wesentliche deskriptive Kategorien (I). ‐ Lagemaße ‐ Perzentilen – relative Position eines Wertes in einer Verteilung ‐ Quartile – Spezielle Form der Perzentile (25% = 1. Quartil, 50% = 2. Quartil, etc.) ‐ Tabellarische Darstellungen ‐ Häufigkeitsverteilungen – kombinierte Tabellen (bspw. gruppierte Mittelwerte + Standardabweichungen, etc.) ‐ Kreuztabellen – mehrdimensionale Häufigkeitsverteilung ‐ Graphische Darstellungen ‐ Histogramm – Balkendiagramm der Verteilungsdichte in Intervallen ‐ Boxplot – Visuelle Darstellung einer Verteilung mittels Min/Max/IQA ‐ Diagramme – Balken-, Tortendiagramm, Netzwerke oder kombinierte Diagramme U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 9 Statistik management, communication & it Wesentliche deskriptive Kategorien (II). ‐ Zentrale Tendenzen ‐ Modus, Mittelwert, Median ‐ Streuungsparameter ‐ Spannweite – z.B. Minimum und Maximum (bei metrischen Daten) ‐ Standardabweichung – durchschnittlicher Abstand vom Mittelwert ‐ Perzentile – prozentuale Teilung geordneter Daten ‐ Interquartilabstand – Abstand zwischen 1. – 3. Quartil ‐ Verteilungsparameter ‐ Schiefe – beschreibt Ausmaß sowie Richtung der Asymmetrie einer Verteilungskurve (horizontal) ‐ Kurtosis – Beschreibt den Exzess einer Verteilungskurve (vertikal) ‐ Normalverteilung U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 10 Statistik management, communication & it Häufigkeitsverteilungen. ‐ Häufigkeitsverteilungen beschreiben, wie oft die verschiedenen Merkmalsausprägungen einer Variablen im Datensatz vorkommen. ‐ Es wird dabei zwischen absoluten und relativen Häufigkeiten unterschieden: ‐ Die absolute Häufigkeit gibt an, wie häufig eine bestimmte Merkmalsausprägung im Datensatz vorkommt. ‐ Die relative Häufigkeit zeigt, welcher relative Anteil der Untersuchungseinheiten eine bestimmte Merkmalsausprägung aufweist. Bspw.: Anteil der Bevölkerung, der „eher umweltbewusst“ oder „sehr umweltbewusst“ ist. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 11 Statistik management, communication & it Häufigkeitsverteilungen. Darstellungsmöglichkeiten ‐ Häufigkeitstabellen ‐ Graphisch mittels Balken- oder Kreisdiagrammen. ‐ Histogramme (bei stetigen Variablen) Häufigkeitstabelle Histogramm U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 12 Statistik management, communication & it Kreuztabellen. Darstellung von zwei Variablen und deren Beziehung zueinander. ‐ Absolute Häufigkeiten (pro Zeile/ Spalte, Gesamt) ‐ Relative Häufigkeiten (pro Zeile/ Spalte, Gesamt) U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 13 Verteilungsparameter. Wie schaut‘s denn aus? U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 14 Statistik management, communication & it Verteilungsparameter. ‐ … beschreiben eine Verteilung durch numerische Charakteristika ‐ Anzahl der Modi ‐ „Aussehen“ der Verteilung (Stichwort: Normalverteilung) ‐ Symmetrie – Asymmetrie. ‐ etc. ‐ Beinhalten Lage- und Streuungsparameter. ‐ Wichtig: Bei metrischen Variablen sind immer: ‐ Mittelwert UND ‐ Standardabweichung (bzw. Varianz) anzugeben! U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 15 Statistik management, communication & it Verteilungsparameter – Übersicht. ‐ Lagemaße, zentrale Tendenz. ‐ Modus ‐ Median ‐ Mittelwert ‐ Streuungsparameter. ‐ Varianz ‐ Standardabweichung U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 16 Statistik management, communication & it Lagemaße, zentrale Tendenz. Lagemaße charakterisieren die Häufigkeitsverteilung durch einen einzigen Wert, der die gesamte Verteilung so gut wie möglich charakterisieren soll. Möglichkeiten ‐ Modus ‐ Median ‐ Mittelwert (arithmetisches Mittel) U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 17 management, communication & it MCiT Lagemaße, zentrale Tendenz. DER MODUS. … oder Modalwert (engl. "mode") ist der häufigste Wert einer Verteilung. Er wird vor allem bei nominalskalierten Daten verwendet, beispielsweise zur Bestimmung des häufigsten Studiengangs. Histogramm U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 18 Statistik management, communication & it Der Modus – Anwendung. ‐ Der Modus ist nicht eindeutig, falls mehrere Ausprägungen gleich häufig vorkommen. In diesem Fall werden beide Ausprägungen als Modi (Plural von Modus) genannt - die Verteilung ist bimodal - oder es wird im Falle von metrischen Daten der Mittelwert der beiden Ausprägungen berichtet. ‐ Der Modalwert wird insbesondere bei kleinen Stichproben oft von Zufallsschwankungen beeinflusst. Allgemein beinhaltet er nur die Information, welche Ausprägung am häufigsten vorkommt. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 19 management, communication & it MCiT Lagemaße, zentrale Tendenz. DER MEDIAN. oder Zentralwert (engl. "median") teilt eine Stichprobe in zwei gleich große Hälften. Er ist damit das 50%-Quantil der geordneten Verteilung einer Variable. Es liegen genauso viele Werte unter wie über diesem Wert. Anstatt der Standardabweichung werden oftmals die Grenzen des ersten (25%) und dritten Quartils (75%) angegeben. Mindestvoraussetzung ist ordinales Skalenniveau. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 20 Statistik management, communication & it Der Median – Anwendung. ‐ Bei einer geraden Anzahl an Fällen ist der Median bei metrischen Daten der arithmetische Mittelwert der beiden in der Mitte liegenden Fälle. ‐ Bei ordinal-skalierten Daten wird der Median als zwischen den beiden mittleren Werten liegend berichtet. ‐ Sind die Daten klassiert, so wird in der Regel die Klasse als Median angegeben, die gemeinsam mit den davor liegenden Klassen 50% oder mehr aller Fälle erfasst. Häufigkeitstabelle U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 21 management, communication & it MCiT Lagemaße, zentrale Tendenz. DER MITTELWERT. oder arithmetisches Mittel (engl. "mean") ist das gebräuchlichste Maß der zentralen Tendenz. Es ist gleich dem mathematischen Durchschnitt. Zur Berechnung des Mittelwertes ist prinzipiell ein metrisches Skalenniveau erforderlich. In der Praxis wird dieser allerdings häufig auch auf der Basis ordinal-skalierter Daten errechnet. (zum Beispiel bei Likert-skalierten Items) U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 22 Statistik management, communication & it Der geometrische Mittelwert. Beschreibt die durchschnittliche Wachstumsrate oder die mittlere Veränderung bei multiplikativen Daten. ‐ Er ist besonders nützlich, wenn die Daten prozentuale Veränderungen, Raten oder Verhältnisse darstellen. Berechnung 𝑛 Geometrischer Mittelwert = 𝑥1 + 𝑥2 + 𝑥 … 𝑥𝑛 Eigenschaften ‐ Geeignet für Wachstumsfaktoren, wie z. B. bei Wachstumsraten von Populationen, Renditen von Investitionen oder Veränderungen von Preisen ‐ Geringere Verzerrung durch Extremwerte; betrachtet Produkte und keine Summen ‐ Vermeidet Verzerrungen durch Skalenänderungen; bspw. bei starken prozentualen Schwankungen U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 23 Statistik management, communication & it Mittelwert oder Median? Bei metrischen Daten dürfen Sie sowohl das arithmetische Mittel als auch den Median berechnen. Aber: Welcher Wert ist nun aussagekräftiger? Die Antwort lautet: Es kommt darauf an! → Der Median ist grundsätzlich unpräziser als der Mittelwert. Aber: Wenn die untersuchte Stichprobe bzw. die Variable mit Ausreißern ‚verunreinigt‘ ist, ist der Median im Vorteil, da er weniger empfindlich gegen Ausreißer ist. Anfällige Variablen: Einkommen, Preise, Wetterdaten (z.B., Windgeschwindigkeit), Zufriedenheitsdaten → Die angesprochene Eigenschaft der Präzision wird in statistischer Fachterminologie als "Effizienz" bezeichnet. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 24 Statistik management, communication & it Perzentile. ‐ Das q% Perzentil gibt die Merkmalsausprägung so dass gilt: mindestens q% der Beobachtungen sind kleiner oder gleich des q% Perzentil und mindestens (100% - q%) sind größer als das q% Perzentil. ‐ Das q% Perzentil wird mit xq% bezeichnet. Beispiel ‐ Länge der Filme in der Stichprobe: ‐ x10%= 92 min -> die Länge von 10% der Filme ist 92 min oder kürzer ‐ x25%= 101.0 min -> die Länge von 25% der Filme ist 101.0 min oder kürzer ‐ x50%= 115.0 min -> die Länge von 50% der Filme ist 115.0 min oder kürzer ‐ x75%= 131.0 min -> die Länge von 75% der Filme ist 131.0 min oder kürzer ‐ x90%= 143.0 min -> die Länge von 90% der Filme ist 143.0 min oder kürzer Synonyme ‐ Das Perzentil wird auch Quantil verwendet. ‐ Das 25% Perzentil wird auch das 1. Quartil genannt. Der Median wird auch als 2. Quartil bezeichnet. Das 75% Perzentil ist das 3. Quartil. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 25 Statistik management, communication & it Die Skalen im Überblick (II). Skalenniveau Mögliche Aussagen Mögliche Methoden Beispiele Ratio-/Verhältnis 1. Gleichheit und zusätzlich: u.a. Alter Ausprägungen haben einen Verschiedenheit Geometrisches Mittel Preis 2. Relation kleiner, größer Größe metrisch absoluten Nullpunkt; Verhältnis kann 3. Vergleich von Einkommen interpretiert werden Differenzen Nahrungsmittel in 4. Vergleich von Kalorien Verhältnissen x11 = 3*x12 Intervall 1. Gleichheit und zusätzlich: u.a. Temperaturmessung Abstände können als gleich Verschiedenheit Arithmetisches Mittel Herstellungsjahr groß interpretiert werden, 2. Relation kleiner, größer (Mittelwert) Intelligenzquotient nicht aber das Verhältnis 3. Vergleich von Differenzen kategorial von Größen Ordinal 1. Gleichheit und zusätzlich: (z.B.) Zufriedenheit Größenmäßige Ordnung Verschiedenheit Kumulierte Häufigkeiten Noten möglich, aber Abstände 2. Relation kleiner, größer Median Einkommen ohne Aussagekraft () Nominal 1. Gleichheit und Häufigkeiten, relative Lieblingszeitung Keine Ordnung der Daten Verschiedenheit (=, #) Häufigkeiten Geschlecht möglich Absolvent von… Modalwert U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 26 Streuungsparameter Varianz & Standardabweichung U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 27 Statistik management, communication & it Streuungsparameter. ‐ Die Streuungsparameter (Dispersionsmasse) beschreiben die Variabilität der Ausprägungen eines Merkmals in einem Datensatz. ‐ Wichtig: Die Abweichung der Datenwerte vom Mittelwert! ‐ Sie messen, wie dicht die Werte einer Häufigkeitsverteilung um den Mittelwert streuen. ‐ Die am häufigsten verwendeten Größen sind die Varianz und die Standardabweichung. ‐ Beide erfordern theoretisch ein metrisches Skalenniveau. ‐ Ausnahme: Likertskala U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 28 management, communication & it MCiT Streuungsparameter. DIE VARIANZ. Die Varianz (𝜎2, engl. "variance") wird als durchschnittliche quadratische Abweichung der einzelnen Beobachtungswerte vom arithmetischen Mittel errechnet. Varianz ist der statistische Ausdruck für die Streuung der Daten. Die Varianz gibt also an, wie weit sich die Daten im Schnitt vom Mittelwert unterscheiden. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 29 management, communication & it MCiT Streuungsparameter. DIE VARIANZ. Berechnung: Summe der quadrierten Abweichungen aller Einzelwerte einer Verteilung vom arithmetischen Mittel geteilt durch die Gesamtzahl der Werte – 1: mit n = Anzahl Beobachtungen Berechnungsbeispiel: x1 = 2; x2= 3; x3= 7; 𝑥ҧ = 4 →Je größer die Varianz verglichen mit dem Arithmetischen Mittel, desto stärker sind die Abweichungen der einzelnen Messwerte von diesem. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 30 management, communication & it MCiT Streuungsparameter. DIE STANDARDABWEICHUNG. Die Standardabweichung (𝜎, engl. "standard deviation", daher oft als "SD" abgekürzt) ist die Quadratwurzel der Varianz. Der Vorteil der Standardabweichung gegenüber der Varianz ist, dass die Standardabweichung die gleiche Maßeinheit wie die ursprüngliche Variable hat. Sowohl bei der Standardabweichung als auch der Varianz fallen Ausreißer stark ins Gewicht. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 31 management, communication & it MCiT Streuungsparameter BEDEUTUNG DER STD.ABWEICHUNG. Die Standardabweichung s gibt in einer Normalverteilung einen Bereich um den Mittelwert an, innerhalb dessen sich 68,3 % aller Einträge befinden. Innerhalb des Bereichs Mittelwert +/-2s befinden sich in einer Normalverteilung 95,44 % aller Einträge. Auch ohne graphische Kenntnis der Verteilung kann man diese aufgrund der Kenntnis des Mittelwerts und der Standardabweichung weitgehend vorhersagen. Beispiel: Hat man einen Mittelwert von 100 und eine Standardabweichung von 10, wird die Verteilungskurve deutlich steiler sein, als wenn die Standardabweichung bei 30 liegt. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 32 Statistik management, communication & it Streuungsparameter. 68,3 % der Realisierungen im Intervall MW +/- s, 95,4 % im Intervall MW +/- 2s und 99,7 % im Intervall MW +/- 3s U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 33 management, communication & it MCiT Streuungsparameter BEISPIEL ZUR STD.ABWEICHUNG. Durchschnittliche Intelligenzquotient: 100 Standardabweichung: 15 Person X: IQ = 130 aufweist Einschätzung: – Diese Person liegt beim Mittelwert +2 Standardabweichungen. – Der betreffende IQ ist höher als 98 % aller Einträge, also ca. 2% der Bevölkerung. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 34 Verteilungsparameter. Schiefe & Kurtosis. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 35 Statistik management, communication & it Schiefe. Die Schiefe (engl. "skewness") ist ein Maß für die Symmetrie einer Häufigkeitsverteilung. ‐ Dazu kann jedoch auch eine spezifische Maßzahl errechnet werden: die Schiefe. ‐ Meist lässt sich bereits anhand der Lage von Mittelwert, Median und Modus zueinander erkennen, ob und in welche Richtung eine Verteilung schief ist (im Vgl. zu einer Normalverteilung). U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 36 Statistik management, communication & it Schiefe. Median Median Mittelwert Modus Modus Mittelwert negativ positiv ‐ Die Verteilung in der linken Abbildung ist eher linksschief / rechtssteil -> der berechnete Wert für die Schiefe negativ. Es gilt: Mittelwert < Median < Modus ‐ Die Verteilung in der rechten Abbildung ist eher rechtsschief / linkssteil -> der berechnete Wert für die Schiefe positiv. Es gilt: Mittelwert > Median > Modus U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 37 Statistik management, communication & it Schiefe. Schiefe & Normalverteilung: ‐ Bei einer Normalverteilung ist die Schiefe 0. ‐ Bei der Berechnung der Schiefe ist es wichtig zu beachten, dass dies nur bei so genannten unimodalen Verteilungsverläufen sinnvoll ist. ‐ Vor der Interpretation der Schiefe sollte die Verteilung zunächst also in einem Histogramm betrachtet werden. https://www.wirts chaftslexikon24.com/d/modus/modus.htm U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 38 Statistik management, communication & it Steilheit / Kurtosis. Die Kurtosis (Wölbung, Steilheit, Exzess, engl. "kurtosis") drückt aus, ob die Verteilung – im Vergleich zu einer Normalverteilung – eher "schmalgipflig" oder "breitgipflig" ist. Bei gleichbleibender Standardabweichung… ‐ können die Beobachtungen stärker auf die Mitte der Verteilung konzentriert vorliegen ("spitze" Verteilung) ‐ ist die Mitte eher wenig besetzt, was bei einer flachen Verteilung der Fall ist. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 39 Statistik management, communication & it Steilheit / Kurtosis. negativ positiv ‐ Abbildung links: zeigt eher flache Verteilung -> der Wert für die Kurtosis ist negativ. ‐ Abbildung rechts: Verteilung ist dagegen eher steil -> der Wert für die Kurtosis ist positiv. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 40 Statistik management, communication & it Steilheit / Kurtosis. Steilheit & Normalverteilung: ‐ Bei einer Normalverteilung ist die Schiefe 0. ‐ Vor der Berechnung der Schiefe sollte die Verteilung zunächst also in einem Histogramm betrachtet werden. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 41 Statistik management, communication & it Exkurs – Anscombe Quartett. ‐ Francis Anscombe (1973) entwickelte vier Datensätze. ‐ Deskriptive Eigenschaften aller vier Datensätze sind nahezu ident: ‐ Mittelwert von x=9 und y=7,50 ‐ Varianz von x (σ2=11) und y (σ2=4,122 bis 4,127) ‐ Korrelationskoeffizienten zwischen x und y sind gleich (r=0,816) ‐ Einfache lineare Regression zwischen x und y ist gleich (y=3,00 + 0,500x) U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 42 Statistik management, communication & it Exkurs – Anscombe Quartett. Anscombe‘s Bedeutung für die Datenanalyse: 1. Gleiche statistische Kennzahlen, unterschiedliche Verteilungen Trotz der fast gleichen Werte sehen die Datensätze in ihrer grafischen Darstellung völlig unterschiedlich aus. 2. Visualisierung ist entscheidend Rein numerische Zusammenfassungen von Daten können irreführend sein. 3. Gefahr von Ausreißern und ungewöhnlichen Mustern Bspw. Datensatz III: Perfekte lineare Beziehung bis auf einen Punkt, der den Trend stört und die Statistik erheblich verfälscht. 4. Unterschiedliche Datenstrukturen trotz gleicher Statistik Verschiedene Datenstrukturen (lineare, nicht-lineare Beziehungen oder extreme Ausreißer) können die gleichen statistischen Werte haben. U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 43 Statistik management, communication & it Literatur. ‐ Bühner, Markus & Ziegler, Matthias. Statistik für Psychologen und Sozialwissenschaftler. Hallbergmoos. Pearson. 2017 ‐ Krickhahn, Thomas & Poß, Dominik. Statistik kompakt dummies. Weinheim. Wiley. 2023 ‐ Rumsey, Deborah. Statistik II für Dummies. Weinheim. Wiley. 2014 U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 45 SO LONG AND THANKS FOR ALL YOUR ATTENTION. Contact: Aleksander Groth Dept. Management, Communication & IT MCI Management Center Innsbruck Universitätsstraße 15 6020 Innsbruck, AUSTRIA Email: [email protected] Phone: +43 512 2070 – 3523 Fax: +43 512 2070 – 3599 U ni ve rs i t ät s s tr aße 1 5, 6 02 0 Inns br uck, Aus t ri a | w w w. m ci. ed u 46