Statistik Grundlagen der Statistik PDF
Document Details
Uploaded by AchievablePlateau
Deutsche Hochschule für angewandte Wissenschaften
Tags
Summary
This document provides a basic introduction to the fundamentals of statistics, including topics such as percentage calculations, factorial calculations, different types of statistical scales, data analysis techniques, visual data representation techniques such as charts, tables, distribution of data, measures of central tendency. This includes calculation of arithmetic mean, median, quartile, box plots and measures of dispersion, probability calculations, statistical distributions, two-dimensional data, and various statistical errors.
Full Transcript
STATISTIK Grundlagen der Statistik In diesem Skript werden wichtige Grundlagen der Statistik vermittelt. Diese Grundlagen benötigt man nicht nur für das Verständnis von den Prozessen einer Firma, es ist auch nö- tig, um diese zu analysieren und zu verbessern. Statistik Inhaltsverzeichnis ABBILDUNG...
STATISTIK Grundlagen der Statistik In diesem Skript werden wichtige Grundlagen der Statistik vermittelt. Diese Grundlagen benötigt man nicht nur für das Verständnis von den Prozessen einer Firma, es ist auch nö- tig, um diese zu analysieren und zu verbessern. Statistik Inhaltsverzeichnis ABBILDUNGSVERZEICHNIS...............................................................................................III TABELLENVERZEICHNIS.................................................................................................... V HINWEIS ZUR VERWENDETEN SPRACHE:..................................................................................... VI LINKS IN DIESEM SKRIPT: LETZTE PRÜFUNG 12.03.2024.............................................................. VI 1. EINLEITUNG.............................................................................................................. 1 1.1 WARUM STATISTIK?.................................................................................................. 1 2. PROZENTRECHNUNG & FAKULTÄT........................................................................... 2 2.1 WERTE BERECHNEN................................................................................................... 3 2.2 ADDITION................................................................................................................ 4 2.3 SUBTRAKTION........................................................................................................... 5 2.4 PROZENTWERT BERECHNEN......................................................................................... 7 2.5 MEHRWERT STEUER (MWST.)..................................................................................... 7 2.6 FAKULTÄT................................................................................................................ 8 3. GRUNDLAGEN DER STATISTIK................................................................................... 9 3.1 NOMINALSKALEN...................................................................................................... 9 3.2 ORDINALSKALEN..................................................................................................... 10 3.3 INTERVALLSKALEN.................................................................................................... 10 3.4 VERHÄLTNISSKALEN................................................................................................. 10 3.5 STETIG UND DISKRET................................................................................................ 10 3.6 ABSOLUTE UND RELATIVE HÄUFIGKEIT......................................................................... 11 4. DIAGRAMME.......................................................................................................... 13 4.1 BALKENDIAGRAMM................................................................................................. 13 4.2 SÄULENDIAGRAMME................................................................................................ 15 4.3 LINIENDIAGRAMME.................................................................................................. 16 4.4 TORTENDIAGRAMME................................................................................................ 16 4.5 3D DIAGRAMM...................................................................................................... 17 5. AUFBEREITUNG QUANTITATIVER DATEN............................................................... 20 5.1 KLASSENVERTEILUNG............................................................................................... 20 5.2 GRAPHISCHE DARSTELLUNG...................................................................................... 21 5.3 KUMULIERTE DATEN................................................................................................ 22 5.4 STREUDIAGRAMM................................................................................................... 24 6. STATISTISCHE VERTEILUNG.................................................................................... 26 6.1 ARITHMETISCHE MITTEL........................................................................................... 26 6.2 MEDIAN................................................................................................................ 29 6.3 QUANTILE UND PERZENTILE....................................................................................... 30 7. STREUUNG............................................................................................................. 32 7.1 SPANNWEITE.......................................................................................................... 33 7.2 QUARTIL................................................................................................................ 34 7.3 INTERQUARTILSABSTAND.......................................................................................... 34 7.4 BOX-PLOT............................................................................................................. 35 7.5 VARIANZ UND STANDARDABWEICHUNG....................................................................... 39 7.6 SCHIEFE................................................................................................................. 43 I Statistik 7.7 LORENZKURVE........................................................................................................ 49 7.8 GINI-KOEFFIZIENT................................................................................................... 51 8. WAHRSCHEINLICHKEITSRECHNUNG....................................................................... 55 8.1 ERGEBNISSE UND EREIGNISSE..................................................................................... 55 8.2 MENGENLEHRE....................................................................................................... 56 8.2.1 Vereinigung.................................................................................................... 56 8.2.2 Schnittmenge................................................................................................. 56 8.2.3 Komplementärmenge.................................................................................... 57 8.3 WAHRSCHEINLICHKEIT.............................................................................................. 58 8.4 BEDINGTE WAHRSCHEINLICHKEITEN............................................................................ 59 8.5 DER SATZ VON BAYES............................................................................................... 63 8.6 DAS SPIEL MIT DEN 3 TOREN..................................................................................... 64 9. WAHRSCHEINLICHKEITSVERTEILUNG..................................................................... 66 9.1 ZUFALLSVARIABLEN.................................................................................................. 66 9.2 BINOMIALVERTEILUNG............................................................................................. 68 9.2.1 Bernoulli......................................................................................................... 68 9.3 NORMALVERTEILUNG............................................................................................... 76 9.4 STATISTISCHE SIGNIFIKANZ........................................................................................ 83 9.5 FEHLER 1. UND 2. ART............................................................................................. 86 10. ZWEIDIMENSIONALE DATEN.............................................................................. 89 10.1 KREUZTABELLEN...................................................................................................... 89 10.2 KOVARIANZ............................................................................................................ 93 10.3 KORRELATIONSKOEFFIZIENT..................................................................................... 100 10.4 LINEARE REGRESSION............................................................................................. 101 11. STATISTISCHE FEHLER....................................................................................... 108 11.1 REPRÄSENTATIVE DATENERHEBUNG.......................................................................... 108 11.2 KORRELATION VS. KAUSALITÄT................................................................................. 109 11.3 SURVIVORSHIP BIAS............................................................................................... 110 11.4 SIMPSON-PARADOXON.......................................................................................... 110 11.5 FEHLERHAFTE DATEN............................................................................................. 111 12. LITERATURVERZEICHNIS................................................................................... 112 II Statistik Abbildungsverzeichnis ABBILDUNG 1: EIN EINFACHES BALKENDIAGRAMM.......................................................................... 14 ABBILDUNG 2: EIN BALKENDIAGRAMM, BEI DEM DER LINKE RAND NICHT DER NULLPUNKT IST.................. 14 ABBILDUNG 3: EIN BALKENDIAGRAMM MIT LOGARITHMISCHER SKALA................................................ 15 ABBILDUNG 4: EIN EINFACHES SÄULENDIAGRAMM.......................................................................... 15 ABBILDUNG 5: IN EINEM LINIENDIAGRAMM IST DIE VERÄNDERUNG DER AUSPRÄGUNG GUT ZU ERKENNEN. 16 ABBILDUNG 6: EIN EINFACHES TORTENDIAGRAMM.......................................................................... 17 ABBILDUNG 7: 3D DATEN IN EINER ORTHOGONALEN DARSTELLUNG.................................................... 18 ABBILDUNG 8: 3D DATEN NEBENEINANDER DARGESTELLT................................................................. 18 ABBILDUNG 9: 3D DATEN IM BLASENDIAGRAMM........................................................................... 19 ABBILDUNG 10: GRAPHISCHE DARSTELLUNG VON EINER HÄUFIGKEIT.................................................. 22 ABBILDUNG 11: KUMULIERTE HÄUFIGKEIT..................................................................................... 23 ABBILDUNG 12: IN DEM STREUDIAGRAMM IST EINE LINEARE HÄUFUNG GUT ZU ERKENNEN..................... 25 ABBILDUNG 13: IN DEM DIAGRAMM IST EINE HÄUFUNG ZU ERKENNEN. ES KÖNNEN ABER KEINE ZAHLEN ABGELESEN WERDEN, DIE DIESE BESCHREIBEN......................................................................... 26 ABBILDUNG 14: DIE WERTESIND DICHT UM DEN MITTELWERT VERTEILT.............................................. 32 ABBILDUNG 15: DIE WERTE SIND WEITER VOM MITTELWERT ENTFERNT.............................................. 32 ABBILDUNG 16: ABSTAND UND STREUKREIS EINES SCHÜTZEN ENDSPRECHEN DEM MITTELWERT UND DER STREUUNG...................................................................................................................... 33 ABBILDUNG 17: BOX-PLOT......................................................................................................... 35 ABBILDUNG 18: MODIFIZIERTER BOX-PLOT MIT AUSREIßER.............................................................. 35 ABBILDUNG 19: KASTENGRAFIK IN EXCEL...................................................................................... 36 ABBILDUNG 20: BOXPLOT DER TAGESTEMPERATUR......................................................................... 36 ABBILDUNG 21: BOXPLOT FÜR DIE ALTERSVERTEILUNG.................................................................... 37 ABBILDUNG 22: BOXPLOT FÜR DEN UMSATZ DES MONATS............................................................... 39 ABBILDUNG 23: BEI EINER RECHTSSCHIEFEN VERTEILUNG IST DIE SCHIEFE > 0....................................... 45 ABBILDUNG 24: BEI EINER LINKSSCHIEFEN VERTEILUNG IST DIE SCHIEFE < 0......................................... 46 ABBILDUNG 25: DIE WERTE SIND NUR KURZ ABER DANN WEIT ÜBER DEM DURCHSCHNITT...................... 46 ABBILDUNG 26:DIE WERTE SIND SEHR LANGE ÜBER DEM DURSCHNITT, ENTFERNEN SICH ABER NICHT SEHR WEIT.............................................................................................................................. 46 ABBILDUNG 27: VERTEILUNGSKURVE............................................................................................ 50 ABBILDUNG 28: LORENZKURVE GEHT VON (0,0) BIS (1,1)................................................................ 51 ABBILDUNG 29: DER GINI-KOEFFIZIENT IST DAS VERHÄLTNIS DER KONZENTRATIONSFLÄCHE ZU DER GESAMTEN FLÄCHE UNTER DER DIAGONALEN........................................................................ 51 ABBILDUNG 30: VENN-DIAGRAMM EINER VEREINIGUNG.................................................................. 56 ABBILDUNG 31: VENN-DIAGRAMM EINER SCHNITTMENGE............................................................... 57 ABBILDUNG 32: VENN-DIAGRAMM EINER KOMPLEMENTÄRMENGE.................................................... 58 ABBILDUNG 33: DURCH DAS ZURÜCKLEGEN BLEIBT DIE ANZAHL DER KUGEL GLEICH UND DIE WAHRSCHEINLICHKEITEN BEI DER 2. ZIEHUNG EINE ROTE KUGEL ZU ZIEHEN BLEIBT GLEICH.............. 59 ABBILDUNG 34: WIRD DIE KUGEL NICHT ZURÜCKGELEGT, ÄNDERT SICH DIE ANZAHL DER KUGEL UND DIE WAHRSCHEINLICHKEITEN BEI DER 2. ZIEHUNG EINE ROTE KUGEL ZU ZIEHEN WIRD KLEINER.............. 60 ABBILDUNG 35: EIN BAUMDIAGRAMM STELLT DAS ZIEHEN EINER KUGEL OHNE ZURÜCKLEGEN DAR........... 61 ABBILDUNG 36: BAUMDIAGRAMM FÜRS MEIERN........................................................................... 62 ABBILDUNG 37: ZUFALLSVARIABLEN WERDEN MEHRERE ERGEBNISSE ZUGEORDNET................................ 67 ABBILDUNG 38: DIE WAHRSCHEINLICHKEIT MIT 5 WÜRFEL.............................................................. 70 ABBILDUNG 39: NUMMERIERTE KUGELN SIND AUF NUMMERIERTE PLÄTZE GELEGT. ES GIBT N!=5!=120 VERSCHIEDEN KOMBINATIONSMÖGLICHKEITEN....................................................................... 70 ABBILDUNG 40: DIE KUGEL, DIE FÜR ERFOLG STEHEN SIND EINGEFÄRBT............................................... 71 ABBILDUNG 41: DIE REIHENFOLGE DER KUGELN, DIE FÜR ERFOLG STEHEN,......................................... 71 III Statistik ABBILDUNG 42: UNTER DER VERNACHLÄSSIGUNG DER REIHENFOLGE DER EINGEFÄRBTEN KUGEL.............. 72 ABBILDUNG 43: DIE KOMBINATIONSMÖGLICHKEITEN DER EINGEFÄRBTEN UND DER NICHT EINGEFÄRBTEN KUGEL........................................................................................................................... 72 ABBILDUNG 44: DIE ANZAHL DER VERSCHIEDENEN KOMBINATIONSMÖGLICHKEITEN MIT 5 WÜRFEL.......... 73 ABBILDUNG 45: BINOMIALVERTEILUNG - DIE WAHRSCHEINLICHKEIT MIT 5 WÜRFEL.............................. 74 ABBILDUNG 46: WAHRSCHEINLICHKEITSDICHTEFUNKTION DER NORMALVERTEILUNG............................. 77 ABBILDUNG 47: UNTERSCHIEDLICHE ERWARTUNGSWERTE VERSCHIEBEN DIE KURVE.............................. 77 ABBILDUNG 48: UNTERSCHIEDLICHE STANDARDABWEICHUNGEN VERÄNDERN DIE BREITE DER FUNKTION.. 78 ABBILDUNG 49: DIE STANDARDNORMALVERTEILUNG...................................................................... 78 ABBILDUNG 50: DIE BEIDEN TABELLEN GEBEN FÜR EIN Z DIE WAHRSCHEINLICHKEIT FÜR UNTERSCHIEDLICHE BEREICHE AN................................................................................................................... 80 ABBILDUNG 51 DAS INTERVALL, EINEN MENSCHEN ZWISCHEN 165CM UND 175CM ZU TREFFEN............. 81 ABBILDUNG 52: DASSELBE INTERVALL NORMIERT AUF Z=0,5............................................................ 81 ABBILDUNG 53: DURCH DIE HÄLFTE DER GEGENWAHRSCHEINLICHKEIT LÄSST SICH BERECHNEN, OB EIN WERT GRÖßER (KLEINER) IST....................................................................................................... 82 ABBILDUNG 54: MIT CA. 5% WAHRSCHEINLICHKEIT SIND MEHR ALS 15 SCHRAUBEN MANGELHAFT......... 83 ABBILDUNG 55: IN 95% DER FÄLLE WIRD DIE NULLHYPOTHESE BESTÄTIGT.......................................... 84 ABBILDUNG 56: DURCH DIE GRÖßERE ANZAHL VON VERSUCHEN WIRD DIE VERTEILUNG SCHLANKER UND HÖHER........................................................................................................................... 85 ABBILDUNG 57: DIE INTERVALLE DER HYPOTHESEN ÜBERLAPPEN SICH................................................ 87 ABBILDUNG 58: DIE INTERVALLE ÜBERLAPPEN SICH NICHT................................................................ 88 ABBILDUNG 59: KREUZTABELLE ALS SÄULENDIAGRAMM................................................................... 92 ABBILDUNG 60: AUS EINER LISTE VON WERTEPAAREN WIRD EIN STREUDIAGRAMM............................... 93 ABBILDUNG 61: EIN LINEARER ZUSAMMENHANG ERZEUGT EINE POSITIVE KOVARIANZ............................ 96 ABBILDUNG 62: OHNE EINEN ZUSAMMENHANG ZWISCHEN X UND Y IST DIE KOVARIANZ 0...................... 97 ABBILDUNG 63: EIN NEGATIVER LINEARER ZUSAMMENHANG ERZEUGT AUCH EINE NEGATIVE KOVARIANZ.. 98 ABBILDUNG 64: DIE GEHÄLTER DER VERSUCHSGRUPPE NACH DEM ALTER......................................... 100 ABBILDUNG 65: WIE WEIT IST DIE STICHPROBE VON DER LINEAREN FUNKTION ENTFERNT?................... 101 ABBILDUNG 66: DIE FUNKTION BILDET DAS VERHÄLTNIS ZWISCHEN DEN GESPRÄCHEN......................... 102 ABBILDUNG 67: DURCH DIE LINEARE FUNKTION LÄSST SICH ABSCHÄTZEN, WIE SICH DIE WERBUNG AUF DIE VERKÄUFE AUSWIRKEN WIRD............................................................................................ 104 ABBILDUNG 68: AUS DEM ALTER LÄSST SICH DAS GEHALT BERECHNEN.............................................. 107 ABBILDUNG 69: BY MARTIN GRANDJEAN (VECTOR), MCGEDDON (PICTURE), CAMERON MOLL (CONCEPT) - OWN WORK,................................................................................................................. 110 IV Statistik Tabellenverzeichnis TABELLE 1: BEISPIEL.................................................................................................................... 1 TABELLE 2: ABSOLUTE HÄUFIGKEIT IST DIE ANZAHL DER ERGEBNISSE................................................... 11 TABELLE 3: VERHÄLTNISSE DER EREIGNISSE.................................................................................... 12 TABELLE 4: KUNDINNEN PRO TAG................................................................................................ 21 TABELLE 5: HÄUFIGKEITEN.......................................................................................................... 23 TABELLE 6: ZUSAMMENHANG ZWISCHEN WERTEN ERKENNEN........................................................... 24 TABELLE 7: DUCHSCHNITTSTEMPERATUR AN EINEM TAG.................................................................. 29 TABELLE 8: LÖSUNG ZU KURSDAUER............................................................................................. 37 TABELLE 9: UMSÄTZE IM EINZELHANDEL....................................................................................... 38 TABELLE 10: BOXPLOT............................................................................................................... 39 TABELLE 11: BEISPIEL VARIANZ DER TAGESTEMPERATUR.................................................................. 42 TABELLE 12: ALTER DER STUDENTEN............................................................................................ 43 TABELLE 13: WERTE UNTER BZW. ÜBER DEM MITTELWERT............................................................... 44 TABELLE 14: VERGLEICH............................................................................................................ 45 TABELLE 15: SCHIEFE BERECHNENDER TAGESTEMPERATUR............................................................... 47 TABELLE 16: SCHIEFE DER KURSTEILNEHMER BERECHNEN................................................................. 48 TABELLE 17: VERHÄLTNISSE DER REIHEN....................................................................................... 49 TABELLE 18: SUMMIERUNG DER REIHEN....................................................................................... 50 TABELLE 19: ERGEBNISSE DER REIHEN.......................................................................................... 52 TABELLE 20: BEISPIEL TASCHENGELDVERTEILUNG............................................................................ 53 TABELLE 21: BERECHNUNG GINI-KOEFFIZIENTEN............................................................................ 54 TABELLE 22: DER SATZ VON BAYES.............................................................................................. 63 TABELLE 23: WERT DICHT AM ERWARTUNGSWERT......................................................................... 79 TABELLE 24: WAHRSCHEINLICHKEIT FÜR DEN BEREICH 0 BIS 𝜇𝜇 + 𝑟𝑟.................................................... 80 TABELLE 25: BEISPIEL ANZAHL DER BEWOHNER.............................................................................. 89 TABELLE 26: ANZAHL PERSONEN IN DER STADT ZUM ZEITPUNKT........................................................ 90 TABELLE 27: PS ZAHL DER FAHRZEUGE VW................................................................................... 90 TABELLE 28: PS ZAHL DER FAHRZEUGE MERCEDES BENZ................................................................. 91 TABELLE 29: BEISPIEL GESCHACHTELTE SPALTEN (ZEILEN)................................................................ 91 TABELLE 30: BEISPIEL MIT ROTEN GEGENSTÄNDEN UND ANZAHL DER WÜRFEL..................................... 92 TABELLE 31: RELATIVE HÄUFIGKEITEN........................................................................................... 92 TABELLE 32: BEISPIEL STREUDIAGRAMM....................................................................................... 93 TABELLE 33: KOVARIANZ FÜR POPULATION................................................................................... 95 TABELLE 34: POSITIVE SUMME MIT POSITIVER KOVARIANZ................................................................ 96 TABELLE 35: KOVARIANZ IST 0.................................................................................................... 97 TABELLE 36: KOVARIANZ NEGATIV............................................................................................... 98 TABELLE 37: AUFGABE ZUR BERECHNUNG DER KOVARIANZ.............................................................. 98 TABELLE 38: LÖSUNG ZUR AUFGABE............................................................................................ 99 TABELLE 39: BERECHNUNG DER KORRELATION............................................................................. 103 TABELLE 40: ERKENNUNG DES KORRELATIONSKOEFFIZIENT............................................................. 103 TABELLE 41: AUFGABE RELATION ALTER ZU MONATSGEHALT......................................................... 105 TABELLE 42: LÖSUNG ZUR AUFGABE.......................................................................................... 106 TABELLE 43: RECHENBEISPIEL GRUPPEN IN FACHBEREICHEN........................................................... 111 V Statistik 1. Arbeiten mit diesen Unterlagen In diesem Dokument finden Sie den Studientext für das aktuelle Fach, wobei an einigen Stellen Symbole und Links zu weiterführenden Erklärungen, Übungen und Beispielen zu finden sind. An den jeweiligen Stellen klicken Sie bitte auf das Symbol – nach Beendigung des relevanten Teils kehren Sie bitte wieder zum Studientext zurück. Stellen Sie sicher, dass auf Ihrem Rechner ein MPEG4-Decoder installiert ist. ERLÄUTERUNGEN der verwendeten Symbole WICHTIGER MERKSATZ VIDEO / AUDIO Diesen Inhalt sollten Sie gut Weiterführender Link zu einem verinnerlichen. Lernvideo oder einer Audiodatei. LERNZIELE Nach Absolvierung des nächsten Abschnitts LINK sollten Sie folgende Lernziele erreicht Weiterführender, hilfreicher Link haben. als Empfehlung ZUSAMMENFASSUNG BEISPIEL Haben Sie alle Bereiche bearbeitet und Lernen Sie anhand Beispiele alles verstanden? aus der Praxis. QUIZ ÜBUNG Testen Sie sich selbst zum Transferaufgaben und vermittelten Inhalt Übungen zum aktuellen Thema. Hinweis zur verwendeten Sprache: Aus Gründen der besseren Lesbarkeit werden die Sprachformen männlich, weiblich und divers (m/w/d) im Wechsel verwendet. Sämtliche Personenbe- zeichnungen gelten gleichermaßen für alle Geschlechter. Links in diesem Skript: Letzte Prüfung 12.03.2024 Einige unserer Skripte verfügen über weiterführende Links, um das Thema noch weiter aufzubereiten. Sollte, trotz unserer Bemühungen ein Link nicht aktuell sein, bitten wir Sie um Verständnis. Bitte wenden Sie sich in diesem Fall an Ihren Modul-Verantwortlichen bzw. Ihre Modul-Verantwortliche, damit wir umgehend für eine Korrektur sorgen können VI Statistik 1. Einleitung In diesem Skript werden wichtige Grundlagen der Statistik vermittelt. Diese Grundlagen benötigt man nicht nur für das Verständnis von den Prozessen einer Firma, es ist auch nötig, um diese zu analysieren und zu verbessern. 1.1 Warum Statistik? Im Alltag eines Menschen, einer Firma oder eines ganzen Landes geschehen einzelne Ereignisse, z.B. kauft ein Kunde in einem Geschäft ein Produkt, ein Auto hat einen Unfall oder ein Mensch feiert seinen 80‘ Geburtstag. In dieser Situation sind diese Ereignisse eigenständig. Betrachtet man aber einen grö- ßeren Zusammenhang, treten diese Ereignisse häufiger auf. Es stellt sich die Frage, wie häufig treten diese Ereignisse auf. Wenn diese Zahlen entsprechen aufbereitet werden, können Ereignisse miteinander verglichen werden. Wer- den Sachbücher häufiger verkauft als Romane? Welches Auto ist häufiger in einen Unfall verwickelt? Wie viele Menschen erreichen ihren 80‘ Geburts- tag? Die Statistik ist ein Werkzeug, mit dem man aus den einzelnen Ereignis- sen diese Antworten herleiten kann. Die graphische Darstellung macht das Erkennen von Sachverhalten einfacher. Beispiel: Das statistische Bundesamt gibt jedes Jahr den Verbraucherindex bekannt. Hieraus lässt sich ablesen, wie sich die Preise der Produkte, die ein „durch- Beispiel schnittlicher“ Mensch kauft, entwickeln. Das statistische Bundesamt hat ei- nen Warenkorb erstellt, der dem Kaufverhalten des „durchschnittlichen“ Menschen entsprechen soll. Die unterschiedlichen Lebensrealitäten und kaufverhalten (jung vs. alt, Single vs. Familie) wurden hier zusammengefasst. Trotzdem lässt sich an diesen Zahlen erkennen, wie die Preise sich für die Bürger entwickeln. Jahr Verbraucher- Nahrungs- Bekleidung Wohnung, preisindex mi el und Schuhe Wasser, insgesamt Strom, 2022 110,2 116,0 102,3 109,1 2021 103,1 103,1 101,5 101,7 2020 100,0 100,0 100,0 100,0 2019 99,5 97,9 101,7 99,0 2018 98,1 96,8 100,4 97,2 2020 ist hier als 100 angegeben. Tabelle 1: Beispiel Preise für Bürger 1 Statistik Beispiel: Eine Schule möchte die Leistungen der Schüler verbessern. Da der Schule nur begrenzte Ressourcen zur Verfügung stehen, möchte sie die Fächer und Stu- Beispiel fen fördern, die die schlechtesten Noten haben. Hierzu erfasst sie alle Noten und Zeugnisse und erstelle eine Rangfolge alle Kurse und Jahrgänge. Nun kann die Schule erkennen, welches die Bereiche sind, die am meisten geför- dert werden müssen. Beispiel: Ein Geologe sammelt die Daten von Erdbeben in einem Gebiet aus den letz- ten 100 Jahren. Er möchte herausfinden, ob sich aus diesen Daten zukünftige Beispiel Erdbeben voraussagen lassen. Da er den kausalen Zusammenhang nicht si- cher erfassen kann, sucht er nach Regelmäßigkeiten in den (auf den ersten Blick) zufälligen Ereignissen. 2. Prozentrechnung & Fakultät Lernziel: Am Ende dieses Abschnitts werden Sie Lernziele … die für die Statistik grundlegenden mathematischen Operatoren kennen, … Prozentrechnungen kennen, … wissen, was eine Fakultät ist. In der Statistik wird neben den 4 Grundrechenarten häufig die Prozentrech- nung verwendet. Deshalb wird hier noch einmal auf die Prozentrechnung eingegangen. Mit einer Zahlenangabe in Prozent wird die Anzahl der 100stel Teile einer Bezugsgröße angegeben. Ein Prozentwert bezieht sich immer auf eine Bezugsgröße: z.B. 20% von einem Kuchen, 50% von den Schülern einer Klasse, 80% von den Einnahmen im letzten Jahr. Ohne diese Bezugsgröße macht ein Prozentwert keinen Sinn. Man muss darauf achten, dass jederzeit die Bezugsgröße eines Prozentwertes klar ist. Manchmal werden Prozente auch in Dezimalzahlen angegeben: 25% = 0,25. Je nach Bezugsgröße sind die Prozentwerte von 0% bis 100% beschränkt. Wenn man z.B. aus einer Flasche trink, können danach nur noch 0% bis 100% in der Fasche sein. 110% würden keinen Sinn machen. Es gibt aber auch Fälle, in denen größere Werte Sinn machen. Der Umsatz eines Unternehmens könnte im nächsten Jahr nicht nur um 30% sondern auch um 130% steigen. 2 Statistik 2.1 Werte berechnen Um den Prozentwert eines Wertes zu berechnen, verwenden wir die Schreib- weise 𝑥𝑥 𝑎𝑎 ∙ 𝑥𝑥% = 𝑎𝑎 ∙ 100 Für die Berechnung multiplizieren wir die Bezugsgröße mit dem Prozentwert und dividieren diesen durch 100. Beispiel: Ein Verkäufer erhält 10% Provision von Verkaufspreis. Er hat ein Produkt für 300€ verkauft. Die Bezugsgröße ist der Verkaufspreis 300€. Beispiel 10 300€ ∙ 10% = 300€ ∙ = 30€ 100 oder 300€ ∙ 10% = 300€ ∙ 0,1 = 30€ Der Verkäufer erhält 30€ Provision. Beispiel: Eine 0,7lieter Flasche Schnaps hat 40% Vol. Alkohol. Die Bezugsgröße ist der Inhalt (0,7l) als Volumen betrachtet. Bei einer Betrachtung der Masse (kg) Beispiel würden die Werte leicht abweichen. 40 0,7𝑙𝑙 ∙ 40% = 0,7𝑙𝑙 ∙ = 0,28𝑙𝑙 100 oder 0,7𝑙𝑙 ∙ 40% = 0,7𝑙𝑙 ∙ 0,4 = 0,28𝑙𝑙 Die Flasche enthält 0,28l reinen Alkohol. Aufgabe: Ein Fertiggericht hat das Gewicht von 500g. Das Gericht hat einen Zuckeran- Übung teil von 15%. Wieviel Zucker ist in dem Gericht (in g)? Lösung: 500𝑔𝑔 ⋅ 15% = 75𝑔𝑔 In dem Fertiggericht sind 75g Zucker. 3 Statistik Aufgabe: Der Frauenanteil in der Bevölkerung ist ca. 53%. Wie viele Frauen müssten demnach in einer Ortschaft mit 200.000 Einwohnern leben? Lösung: 200.000 ⋅ 53% = 106.000 In der Ortschaft müssten ca. 106.000 Frauen leben. Aufgabe: Ein Angestellter zahlt von seinem Bruttogehalt 20% Steuern. Wieviel Euro Übung Steuern bezahlt der Angestellter, wenn er 2.500€ brutto im Monat verdient? Lösung: 2.500€ ⋅ 20% = 500€ Der Angestellte zahlt jeden Monat 500€ Steuern. 2.2 Addition Um einen Prozentsatz auf eine Bezugsgröße zu addieren, müssen wird den Prozentsatz berechnen und zu der Bezugsgröße addieren. Ersatzweise kön- nen wir auch den Prozentsatz und 100 addieren und damit den Wert errech- nen. 𝑥𝑥 (100 + 𝑥𝑥) 𝑎𝑎 + 𝑥𝑥% = 𝑎𝑎 + 𝑎𝑎 ∙ = 𝑎𝑎 ∙ 100 100 Beispiel: Der Umsatz einer Firma von 200.000€ ist um 10% gewachsen. Die Bezugs- größe ist der Umsatz von 200.000€. Beispiel 10 200.000€ + 10% = 200.000€ + 200.000€ ∙ 100 = 200.000€ + 20.000€ = 220.000€ oder (100 + 10) 110 200.000€ + 10% = 200.000€ ∙ = 200.000€ ∙ 100 100 = 220.000€ oder 200.000€ + 10% = 200.000€ ∙ 1,1 = 220.000€ Der Umsatz ist im nächsten Jahr 220.000€ 4 Statistik Aufgabe: Ein Schokoriegel wiegt normalerweise 75g. Während einer Werbeaktion Übung sind in dem Riegel 15% mehr Inhalt. Wie schwer ist der Riegel während der Aktion? Lösung: 75𝑔𝑔 + 15% = 75𝑔𝑔 ⋅ 115% = 86,25𝑔𝑔 Der Schokoriegel wiegt 86,25g. Aufgabe: Der Gewinn einer Firma war im letztem Jahr 250.000€ in diesem Jahr ist er Übung um 17% gewachsen. Lösung: 250.000€ + 17% = 250.000€ ⋅ 117% = 292.500€ Der Gewinn in diesem Jahr ist 292.500€ Aufgabe: Ein Kind war im letzten Jahr 120cm groß. In diesem Jahr ist es um 5% ge- Übung wachsen. Wie groß ist das Kind heute? Lösung: 120𝑐𝑐𝑐𝑐 + 5% = 120𝑐𝑐𝑐𝑐 ⋅ 105% = 126𝑐𝑐𝑐𝑐 Das Kind ist jetzt 126cm groß. 2.3 Subtraktion Um einen Prozentsatz auf eine Bezugsgröße zu subtrahieren, müssen wird den Prozentsatz berechnen von der Bezugsgröße subtrahieren. Ersatzweise können wir auch den Prozentsatz von 100 subtrahieren und damit den Wert errechnen. 𝑥𝑥 (100 − 𝑥𝑥) 𝑎𝑎 − 𝑥𝑥% = 𝑎𝑎 − 𝑎𝑎 ∙ = 𝑎𝑎 ∙ 100 100 Beispiel: Der Losten einer Firma von 50.000€ ist um 8% geschrumpft. Die Bezugsgröße sind sie Kosten von 50.000€. Beispiel 5 Statistik 8 50.000€ − 8% = 50.000€ − 50.000€ ∙ = 50.000€ − 4.000€ 100 = 46.000€ oder (100 − 8) 92 50.000€ − 8% = 50.000€ ∙ = 50.000€ ∙ = 46.000€ 100 100 oder 50.000€ − 8% = 50.000€ ∙ 0,92 = 46.000€ Die Kosten sind im nächsten Jahr 46.000€ Aufgabe: Eine Firma hatte im letztem Jahr Kosten in der Höhe von 130.000€. Diese Übung Kosten konnten in diesem Jahr um 22% gesenkt werden. Wie hoch sind die Kosten in diesem Jahr? Lösung: 130.000€ − 22% = 130.000 ⋅ 78% = 101.400€ Die Kosten sind in diesem Jahr 101.400€. Aufgabe: Ein Geschäft bietet guten Kundinnen 10% Rabat. Wie teuer ist ein Produkt Übung für 120€ für eine gute Kundin? Lösung: 120€ − 10% = 120€ ⋅ 90% = 108€ Das Produkt kostet den guten Kundinnen 108€ Aufgabe: Eine Unze Gold kostet bei einer Bank 1.967€. Wenn der Kunde das Gold an Übung die Bank zurück verkaufen möchte, bezahlt diese 3% weniger (das sind die Gewinne der Bank). Wieviel Geld zahlt die Bank für eine Unze beim gleichen Kurs? Lösung: 1.967€ − 3% = 1.967€ ⋅ 97% ≈ 1.907€ Die Bank bezahlt für die Unze ca. 1.907€. 6 Statistik 2.4 Prozentwert berechnen Um einen Prozentwert zu berechnen, teilen wir den Wert durch die Bezugs- größe und multiplizieren den Wert mit 100. Beispiel: Nach einem Einkauf von 200€ sind noch 37€ übrig. 200€ ist die Bezugsgröße. Beispiel 37€ ∙ 100 = 18,5% 200€ Es sind noch 18,5% des Geldes übrig. Beispiel: Der Umsatz ist von 300.000€ auf 400.000€ gestiegen. Die Bezugsgröße ist das letzte Jahr (300.000€). Beispiel 400.000€ ∙ 100 ≈ 133% 300.000€ Der Umsatz ist um 33% auf 133% gestiegen. Beispiel: Der Umsatz ist von 300.000€ ist um 50.000€ gestiegen. Die Bezugsgröße ist das letzte Jahr (300.000€). Beispiel 50.000€ ∙ 100 ≈ 17% 300.000€ Der Umsatz ist um 17% auf 117% gestiegen. Beispiel: Der Umsatz ist um 50.000€ auf 400.000€ gestiegen. Die Bezugsgröße ist das letzte Jahr (400.000€ - 50.000€=350.000€). Beispiel 50.000€ ∙ 100 ≈ 14% 350.000€ Der Umsatz ist um 14% auf 114% gestiegen. 2.5 Mehrwert Steuer (MwSt.) Eine Firma möchte ein Produkt zu einem Preis verkaufen. Dieser Preis ist der Nettopreis. Auf diesen Preis zahlt er 19% MwSt., die er an die Kundin weiter- gibt. Die Kundin zahlt den Bruttopreis. 7 Statistik 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 = 𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 ⋅ 19% Im Großhandel wird mit dem Nettopreis, im Einzelhandel mit dem Brutto- preis geworben. Wie hoch ist die MwSt. im Einzelhandel? 19 119 19 19 119 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 = ∙ 𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 = ∙ 𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 = ∙ 𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 100 119 100 119 100 19 = ∙ 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 119 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 ≈ 15,97% ∙ 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 ≈ 16% ∙ 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 Die Mehrwertsteuer im Einzelhandel ist ungefähr 16% des ausgezeichneten Preises. 2.6 Fakultät Ein besonderer Rechenoperator, der überwiegend in der Wahrscheinlich- keitsrechnung vorkommt, ist die Fakultät. Die Fakultät ist ähnlich wie die Po- tenz eine fortgesetzte Multiplikation. Das Zeichen für die Fakultät ist ein „!“ Ausrufezeichen. Im Gegensatz zur Potenz, kann die Fakultät nur auf natürli- chen Zahlen (1, 2, 3, …) ausgeführt werden. Die Fakultät ist definiert als 𝑛𝑛! = 1 ⋅ 2 ⋅ 3 ⋅ … ⋅ 𝑛𝑛 Die Fakultät von 0 ist 1. 0! = 1 Die Fakultät ist eine der am schnellsten gegen unendlich strebende Funktion. Die Fakultät von 70 kann von den meisten Taschenrechner nicht mehr er- rechnet werden. 70! → 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 Auch bei kleineren Fakultäten (z.B.: Lotto → 49!) ist der Taschenrechner keine Hilfe. Der Taschenrechner zeigt zwar ein Ergebnis an, rundet aber die letzten Stellen. Dieses führt zu entsprechenden Fehlern. Diese Fakultäten lassen sich aber überraschender sehr gut im Kopf rechnen. Fakultäten sind ein Produkt von ganzen Zahlen und alle Fakultäten sind gleich aufgebaut. In Brüchen lassen sich Fakultäten deshalb sehr gut kürzen. Schreiben sie die Fakultät als Produkt und kürzen sie die gleichen Zahlen. 5! 1⋅2⋅3⋅4⋅5 1 = = 6! 1 ⋅ 2 ⋅ 3 ⋅ 4 ⋅ 5 ⋅ 6 6 Auch Fakultäten, die größer als der Rechenraum eines Taschenrechners sind lassen sich so im Kopf rechnen. 100! 1 ⋅ 2 ⋅ 3 ⋅ … ⋅ 97 ⋅ 98 ⋅ 99 ⋅ 100 = = 99 ⋅ 100 = 9.900 98! 1 ⋅ 2 ⋅ 3 ⋅ … ⋅ 97 ⋅ 98 8 Statistik 3. Grundlagen der Statistik Lernziel: Am Ende dieses Abschnitts werden Sie Lernziele … die grundlegenden Begriffe der Statistik kennen, … verschieden Skalen kennen. Für eine statistische Untersuchung entscheidet man zuerst, was genau beo- bachtet werden soll. Diese beobachteten Objekte oder Ereignisse werden Beobachtungseinheiten oder kurz Einheiten genannt. Dieses können Men- schen, Preise oder Autos sein. Die Menge der Einheiten kann aus wenigen Dutzenden oder aber auch Millionen einzelnen Einheiten bestehen. Hierbei ist es wichtig, die betrachtete Menge von dem nichtbetrachteten Rest abzu- grenzen. Diese Menge bezeichnet man als Population. Eine Stichprobe ist eine Teilmenge der Population. Bei der Auswahl ist darauf zu achten, dass durch eine bewusste oder zufällige einseitige Auswahl die Aussagen über die Stichprobe nicht von der Population abweicht. Möchte man z.B. den Musik- geschmack der Bevölkerung durch eine Stichprobe untersuchen, würde es das Ergebnis massiv verfälschen, wenn man dazu die ersten 1000 Personen aus einer nach dem Alter sortierten Liste auswählt. Die zu untersuchenden Eigenschaften werden als Merkmale bezeichnet. Jede Einheit hat seine ei- gene Ausprägung der Merkmale. Alle Ausprägung einer Einheit sind die Be- obachtung. In dem oben genannten Beispiel ist jeder einzelne Bewohner eine Einheit. Alter und Lieblingslied sind die Merkmale, das Lieblingslied von „Erna“ ist die Ausprägung, Lieblingslied und Alter von „Erna“ ist die Beobachtung. Die Ausprägungen der Merkmahle können sehr unterschiedlich sein. Ein Lieblingslied lässt sich z.B. in eine Kategorie wie Rock, Jazz, etc. einsortieren. Verschieden Lieder haben keine Reihenfolge und man kann mit ihnen nicht rechnen. Man könnte den Liedern dazu eine Zahl zuweisen. Das macht aber keinen Sinn und würde eine Information vortäuschen, die es nicht gibt. Man unterscheidet 4 verschieden Typen: 3.1 Nominalskalen Ein Merkmal wird mit einer Nominalskala beschrieben, wenn die Ausprägun- gen beschreibend sind, aber diese keine Reihenfolge haben oder sinnvoll ver- rechnet werden können. Beispiele hierfür sind Namen, Formen, Farben und Länder. Eine Nominalskala beschreibt eine qualitative Ausprägung. 9 Statistik 3.2 Ordinalskalen Ein Merkmal wird mit einer Ordinalskala beschrieben, wenn die Ausprägun- gen sortierbar sind, aber mit ihnen nicht sinnvoll gerechnet werden kann. Beispiele sind die Größe von Schuhen und Ranglisten. Eine Ordinalskala be- schreibt eine qualitative Ausprägung. 3.3 Intervallskalen Ein Merkmal wird mit einer Intervallskala beschrieben, wenn einfache Re- chenoperationen wie Addition und Subtraktion ausgeführt werden können. Multiplikationen und Divisionen machen auf diesen Skalen keinen Sinn. Zwar können unterschiedliche Uhrzeiten voneinander abgezogen werden, es macht aber keinen Sinn, diese durcheinander zu teilen. Diese Skalen haben meist keinen absoluten Nullpunkt. Deshalb ist z.B. bei der Uhrzeit 4 Uhr nicht doppelt so spät wie 2 Uhr. Es lässt sich aber die Differenz zwischen 4 Uhr und 2 Uhr berechnen (2 Stunden). Ein anderes Beispiel ist die Temperatur: 20°C ist nicht doppelt so warm wie 10°C. Es lässt sich aber die Differenz errechnen. Eine Intervallskala beschreibt eine quantitative Ausprägung. 3.4 Verhältnisskalen Ein Merkmal wird mit einer Verhältnisskala beschrieben, wenn sich mit der Ausprägung alle Rechenoperationen ausführen lassen. Dazu ist es notwen- dig, dass diese Skala einen absoluten Nullpunkt hat. Ein Beispiel ist die Größe in Metern. Ein 100m lange Strecke ist nicht nur 75m länger als eine 25m lange, sondert auch 4-mal so lang. Eine Verhältnisskala beschreibt eine quan- titative Ausprägung. Intervallskalen und Verhältnisskalen bezeichnet man als metrische Skalen. Viele Betrachtungen setzten voraus, dass mit den Ausprägungen gerechnet werden kann. 3.5 Stetig und diskret Bei der Darstellung der Ausprägung eines Merkmals können wir unterschei- den, ob die Ausprägung jeden Wert annehmen kann, oder ob es nur be- stimmte Werte gibt. Z.B. wird die Größe eines Menschen in Centimeter an- gegeben. Wenn die Messung nur fein genug ist, kann dieser Wert auch Nach- komma stellen haben (z.B. 173,5cm). Diese Skalen nennt man stetig. Die An- zahl der Studenten in einem Kurs können nur ganze Zahlen sein. Es gibt keine „halben“ Menschen. Diese Skalen heißen diskret. 10 Statistik So klar wie diese Unterscheidung sich anhört, ist sie in der Wirklichkeit aber nicht. Das Maßband, mit der die Größe gemessen wird, zeigt z.B. nur Milli- meter an. Ein Mensch könnte 173,567cm groß sein, gemessen wird aber nur ein diskreter Wert von 173,6 cm. Für viele Betrachtungen mach es auch Sinn, die stetigen Werte in diskrete Werte zu gruppieren. Z.B. könnten die Jahres- gehälter von Angestellten in Gruppen von 5.000€ zusammengefasst werden (10.000€ - 15.000€, 15.000€-20.000€, 20.000€-25.000€). In diesen Gruppen lassen sich Mengenangaben besser darstellen. Z.B. werden die Gehälter 12.765€, 13.763€, 14.654€ als 3 Gehälter in der Gruppe 10.000€-15.000€ er- fasst. Auf einer stetigen Skala wurde die Werte jeweils nur einmal vorkom- men. Die Häufigkeit würde nur schwer zu berechnen sein. Die Anzahl von einer Gruppe Menschen wird auf einer diskreten Skala er- fasst. Wenn die Anzahl einen Wert von 100.000 und mehr hat, verschwimmt der Unterschied zu einer stetigen Skala. Aus den Naturwissenschaften gibt es den Ansatz, dass bei einem Messwert auf einer stetigen Skala nicht durch sinnfreie Kommastellen eine Genauigkeit vorgetäuscht wird, die es nicht gibt. Die Größe eines Menschen z.B. verän- dert sich schon bei kleinen Veränderungen der Haltung um einige Millimeter. 1 Wenn die Größe mit einer Mikrometerschraube (100 ) erfasst wird, wird 𝑚𝑚𝑚𝑚 eine Genauigkeit vorgetäuscht, die es nicht gibt. 3.6 Absolute und relative Häufigkeit Die absolute Häufigkeit ist die Anzahl der Ereignisse. Dieses ist der Wert, der bei der Datenerfassung erhoben wird. Soll z.B. die Anzahl der Studenten an einer Hochschule erfasst werden, werden die Anzahl der Personen erfasst. Fach Anzahl Mathema k 50 Germanis k 45 Geografie 15 Summe 110 Tabelle 2: absolute Häufigkeit ist die Anzahl der Ergebnisse Die Anzahl der Werte verändert sich, wenn sich die Anzahl der Einheiten in der Stichprobe (Population) ändert. Die absolute Häufigkeit ist zum Verglei- chen der Werte nicht optimal geeignet. Steigt z.B. die Anzahl der Studenten, 11 Statistik steigen auch die Studenten in den verschiedenen Fächern. In dieser Darstel- lung können sehr schnell Informationen gewonnen werden, die direkt an der Anzahl der Studenten hängen. Z.B. sagt die Zahl 15 Geografie Studenten aus, dass 15 Atlanten gekauft werden müssen. Ob an der Hochschule besonders viele Studenten Geografie studieren, lässt sich nicht sofort erkennen. Nur in der Verbindung mit der Summe aller Studenten lässt sich darüber eine Aus- sage treffen. Die Werte können auf 1 oder 100% normiert werden. Dazu werden alle Werte durch die Gesamtzahl dividiert. Es ergeben sich Werte zwischen 0 und 1 bzw. zwischen 0% und 100%. Die gesamte Stichprobe (Population) hat die Größe 1 bzw. 100%. Diese Werte sind unabhängig von der Größe der Stich- probe (Population). Fach Anzahl Mathema k 0,45 Germanis k 0,41 Geografie 0,14 Summe 1,00 Tabelle 3: Verhältnisse der Ereignisse In dieser Darstellung lassen sich sehr gut die Verhältnisse der verschiedenen Ereignisse ablesen. Die Anzahl der Studenten verändert nicht das Verhältnis zwischen den Studiengängen. Aus dieser Darstellung lässt sich aber nicht er- kennen, wie viele Studenten ein Fach studieren. 10 und 1000 Studenten kön- nen das gleiche Verhältnis erzeugen. 12 Statistik 4. Diagramme Lernziel: Am Ende dieses Abschnitts werden Sie Lernziele... die verschiedenen die Verschiedenen Diagramme kennen und wissen, wann wofür sie eingesetzt werden, … logarithmische Darstellung kennen. Das Ergebnis einer Untersuchung wird in Tabellen dargestellt. Dieses ist im- mer die wichtigste Art die Zahlen zu präsentieren. Der Leser kann hier die genauen Werte finden, um diese zu überprüfen oder in weiterführenden Überlegungen zu verwenden. Eine gute Statistik zeichnet sich dadurch aus, dass die Ergebnisse und Zwischenergebnisse detailliert in Tabellen aufge- führt werden. Für die meisten Menschen ist diese Darstellung als Zahlenwerk schwer zu lesen. Zwar kennt man die einzelnen Werte, die Aussage der ge- samten Statistik ist aber nur schwer zu erkennen. Deshalb werden die Ergeb- nisse meistens zusätzlich in Diagrammen dargestellt. Die grafische Darstel- lung wird von vielen besser verstanden. Die Zusammenhänge sind leichter zu erkennen. Mit einem Blick kann die Aussage der Statistik erkannt werden. Ein Teil der Merkmale wird mit ihren Ausprägungen dargestellt. Diese Merk- male müssen quantitativ sein, d. h. sie müssen auf einer Intervallskala oder einer Verhältnisskala dargestellt werden. 4.1 Balkendiagramm Im Balkendiagramm werden die Einheiten untereinander in waagerechten Balken dargestellt. Die Balken fangen in der Regel linksbündig am Rand des Diagramms an und enden, je nach Wert der Ausprägung, unterschiedlich weit rechts. Dieses Merkmal muss quantitative sein. Z.B. kann hier der Um- satz des Tages oder die Anzahl der Studenten in einem Kurs stehen. Je nach Wert, sind die Balken unterschiedlich lang. Ersatzweise kann auch die Fläche den Wert repräsentieren. Der Unterschied ist in den meisten Fällen nicht wichtig, vorausgesetzt die Balken habe die gleiche Höhe. Werden unter- schiedliche Höhen verwendet, ist auf diesen Unterschied zu achten. Das Merkmal, das die Einheiten bezeichnet, muss nicht quantitative sein. Im Gegenteil, die meisten Programme betrachten diese Ausprägung als qualita- tiv und nehmen auch bei quantitativen Merkmalen den gleichen Abstand. Z.B. könnten hier verschieden Tage oder der Name des Kurses stehen. Die meisten Programme werden für fehlende Werte (wenn z.B. am Sonntag kein Umsatz erwirtschaftet wird) keine Leerzeilen erstellen. 13 Statistik Umsatz Di. 13.02.2024 Mo. 12.02.2024 Sa. 10.02.2024 Fr. 09.02.2024 Do. 08.02.2024 Mi. 07.02.2024 Di. 06.02.2024 Mo. 05.02.2024 Sa. 03.02.2024 Fr. 02.02.2024 Do. 01.02.2024 0 20 000 40 000 60 000 80 000 100 000 Abbildung 1: Ein einfaches Balkendiagramm Normalerweise fangen Skalen mit 0 an und sind linear, d. H., dass der Ab- stand zwischen 0 und 100 genauso groß ist wie der Abstand zwischen 1000 und 1100. Es kann aber auch Gründe geben, die eine andere Darstellung er- fordern. Wenn alle Werte ähnlich groß sind und die Unterschiede deutlich dargestellt werden sollen, kann der Ursprung auch mit einer anderen Zahl anfangen. Umsatz Di. 13.02.2024 Mo. 12.02.2024 Sa. 10.02.2024 Fr. 09.02.2024 Do. 08.02.2024 Mi. 07.02.2024 Di. 06.02.2024 Mo. 05.02.2024 Sa. 03.02.2024 Fr. 02.02.2024 Do. 01.02.2024 50 000 60 000 70 000 80 000 90 000 100 000 Abbildung 2: Ein Balkendiagramm, bei dem der linke Rand nicht der Nullpunkt ist. Werden sowohl sehr kleine als auch sehr große Werte dargestellt, kann auch eine logarithmische Darstellung gewählt werden. In dieser Darstellung ist der 14 Statistik Abstand zwischen 1 und 10, 10 und 100 und 100 und 1000 gleich groß. Diese Darstellung ist aber außerhalb der Naturwissenschaften unüblich und kann leicht zu Verwirrungen führen. Folgende Werte z.B. werden logarithmisch dargestellt: Schall in Dezibel, Erdbeben in der Richterskala Umsatz Di. 13.02.2024 Mo. 12.02.2024 Sa. 10.02.2024 Fr. 09.02.2024 Do. 08.02.2024 Mi. 07.02.2024 Di. 06.02.2024 Mo. 05.02.2024 Sa. 03.02.2024 Fr. 02.02.2024 Do. 01.02.2024 1 10 100 1 000 10 000 100 000 Abbildung 3: Ein Balkendiagramm mit logarithmischer Skala 4.2 Säulendiagramme Säulendiagramme sind Balkendiagramme sehr ähnlich. Die Einheiten wer- den durch senkrechte Säulen dargestellt. Der Nullpunkt ist normalerweise der untere Rand, die Höhe der Wert der Ausprägung. Umsatz 100 000 90 000 80 000 70 000 60 000 50 000 40 000 30 000 20 000 10 000 0 Abbildung 4: Ein einfaches Säulendiagramm 15 Statistik 4.3 Liniendiagramme Liniendiagramme werden besonders dann eingesetzt, wenn die Ausprägun- gen der Einheiten nicht unabhängig voneinander sind, sondern die Verände- rung von den einzelnen Ausprägungen sichtbar werden soll. So kann der An- stieg eines Merkmales im Laufe der Zeit deutlich werden. Auch bei diesem Diagramm liegt der Nullpunkt normalerweise auf der unteren Achse, kann aber bei Bedarf auch verschoben werden. Umsatz 50000 45000 40000 35000 30000 25000 20000 15000 10000 5000 0 2020 2021 2022 2023 2024 2025 2026 2027 2028 2029 2030 Abbildung 5: In einem Liniendiagramm ist die Veränderung der Ausprägung gut zu erkennen 4.4 Tortendiagramme Während Balken-, Säulen- und Liniendiagramme eine gewisse Ähnlichkeit haben unterscheiden sich Tortendiagramme deutlich von diesen. Ein Torten- diagramm zeigt keine Gruppe von unterschiedlichen Einheiten nebeneinan- der (übereinander), sondern zeigt die Verteilung eines Ganzen auf die auf die Einheiten. Zum Beispiel kann durch ein Tortendiagramm die Verteilung der Sitze eines Parlamentes auf die verschiedenen Parteien dargestellt werden oder der Anteil der verschiedenen Lebensmittel die eine Person an einem, Tag isst. Der Ganze Kreis stellt dabei 100% da. 16 Statistik Ernährung Zucker 100 Fleisch 300 Getreide 400 Gemüse 200 Obst 150 Abbildung 6: Ein einfaches Tortendiagramm 4.5 3D Diagramm Besonders anspruchsvoll ist die Darstellung von 3-dimensionalen Tabellen. Wir leben zwar in eine 3-dimensionalen Welt, unsere Augen stellen diese aber als 2D Bild auf unsere Netzhaut dar. Durch verschiedene Tricks können wir den einzelnen Gegenständen eine Entfernung zuordnen. Z.B. können wir mit 2 Augen die Entfernung von Gegenständen in einer Entfernung von bis zu 3 Meter abschätzen und so dem Bild eine Tiefe verleihen. Wirklich 3D kön- nen wir aber nicht sehen. Wir können nicht sehen, was sich in oder hinter einem Gegenstand versteck. Ein Delphin z.B. kann mit seinem Ultraschall Ge- genstände durchdringen und wahrnehmen, was sich in dem Gegenstand be- findet. Dieses ist eine richtige 3D Sichtweise. Da Papier und Monitore auch 2D sind, können wir hier nur 2D Bilder darstel- len. Durch eine orthogonale Darstellung können wir eine Tiefe simulieren, echte 3D Diagramme können wir aber nicht dargestellt werden. Ein Beispiel zeigt, wie schlecht die Werte erkannt werden können. 17 Statistik Anzahl Kunden in einer Woche Beispiel 16 14 12 10 8 6 4 Freitag 2 Mi woch 0 Montag 09:00 10:00 11:00 12:00 13:00 14:00 15:00 16:00 17:00 Abbildung 7: 3D Daten in einer orthogonalen Darstellung Eine weiter Möglichkeit ist die Werte nebeneinander darzustellen. Auch hier behindert eine größere Menge an Daten die Übersicht. Anzahl Kunden in einer Woche 16 15 14 12 12 12 10 10 9 Montag 8 Dienstag 8 Mi woch Donnerstag 6 6 Freitag 5 4 4 2 0 09:00 10:00 11:00 12:00 13:00 14:00 15:00 16:00 17:00 Abbildung 8: 3D Daten nebeneinander dargestellt Eine weiter Möglichkeit ist das Blasendiagramm. Hierbei werden in einem 2D Diagramm die Werte durch Blasen dargestellt. Die Größe der Blase stellt den 18 Statistik 3. Wert und damit die 3. Dimension dar. Dieses Diagramm gibt den Betrach- ter einen guten Überblick, die exakten Werte lassen sich aber nur schwer ablesen. Anzahl Kunden in einer Woche 18:00 17:00 16:00 15:00 14:00 13:00 12:00 11:00 10:00 09:00 08:00 07:00 So. Mo. Di. Mi. Do. Fr. Sa. Abbildung 9: 3D Daten im Blasendiagramm 19 Statistik 5. Aufbereitung quantitativer Daten Lernziel: Am Ende dieses Abschnitts werden Sie Lernziele... die Werte auf Skalen in Klassen verteilen können, … die Daten auf verschiedene Arten aufbereiten können. 5.1 Klassenverteilung Für viele Betrachtungen mach es auch Sinn, die stetigen Werte in diskrete Werte zu gruppieren. Z.B. könnten die Jahresgehälter von Angestellten in Klassen von 5.000€ zusammengefasst werden (10.000€ - 15.000€, 15.000€- 20.000€, 20.000€-25.000€). In diesen Klassen lassen sich Mengenangaben besser darstellen. Z.B. werden die Gehälter 12.765€, 13.763€, 14.654€ als 3 Gehälter in der Klasse 10.000€-15.000€ erfasst. Auf einer stetigen Skala wür- den die Werte jeweils nur einmal vorkommen. Die Häufigkeit wäre nur schwer zu berechnen. Bei der Wahl der geeigneten Klassengrenzen sollte darauf geachtet werden, dass die Grenzen runde Zahlen sind. Die Breite der Klassen sollten gleich groß sein, dadurch sind die Anzahl der Beobachtungen vergleichbar. Es sollte ein guter Kompromiss bei der Größe der Klassen gefunden werden: Bei wenigen großen Klassen geht die Information verloren, ob Ausprägung am linken oder rechten Rand der Klasse war. Werden zu viele kleine Klassen verwendet, kann die Übersicht verloren gehen. Beispiel: Eine Firma möchte die Anzahl der Kundinnen pro Tag über das Jahr aufberei- ten. Zuerst wird der minimale und der maximale Wert ermittelt. Die kleinste Beispiel Anzahl von Kundinnen an einem Tag war 57, die Größte 243. Die Firma möchte das Ergebnis in ca. 10 Klassen aufgeteilt haben. (𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 − 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀) (243 − 57) 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 = = = 18,6 ≈ 20 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠ℎ𝑙𝑙 10 Daraus ergibt sich eine Aufteilung der Klasse. 20 Statistik Klasse Häufigkeit 10 12 14 18 22 25 29 25 22 17 Tabelle 4: Kundinnen pro Tag Die Klassen stellen die Anzahl der Kundinnen pro Tag dar. Die Werte geben an, an wie vielen Tagen im Jahr die Anzahl der Kundinnen in dieser Klasse lag. Z.B. haben an 25 Tagen zwischen 150 und 170 Kundinnen die Firma besucht. 5.2 Graphische Darstellung Um die Ergebnisse für den Betrachter besser begreifbar zu machen, können die Daten jetzt als Diagramm dargestellt werden. Zuerst wird ein geeigneter Diagrammtyp ausgesucht. Dafür muss zuerst entschieden werden, welche Merkmale angezeigt werden sollen. In dem Beispiel wird auf der horizonta- len Achse die Anzahl der Kundinnen, die an einem Tag die Firma besucht ha- ben, dargestellt. Auf der vertikalen Achse wird dargestellt, an wie vielen Ta- gen die Anzahl erreicht wird. Wir verwenden für die Anzahl der Kundinnen die vorher festgelegten Klassen. Von den verschiedenen Diagrammen ent- scheiden wir uns für ein Säulendiagramm. Da wir die Breite bei allen Klassen gleich gewählt haben, ist die Fläche und Höhe äquivalent. Hätten wir unter- schiedliche Breiten gewählt, sollte diesen in der Darstellung sichtbar werden. Es könnte zu einer Fehlinterpretation kommen, wenn eine Klasse breiter als die anderen wäre. Es wären mehr Beobachtungen in dieser Klasse und der Wert entsprechend höher. Wenn dieses nicht explizit dargestellt wird, kön- nen die Betrachter den Grund für den besonders hohen Wert übersehen. Für das Verständnis ist eine Beschreibung der Achsen wichtig. 21 Statistik Anzahl Kunden pro Tag 35 30 25 Häufigkeit der Tage 20 15 10 5 0 Anzahl der Kunden Abbildung 10: Graphische Darstellung von einer Häufigkeit 5.3 Kumulierte Daten In einigen Fällen ist es interessant die kumulierten Daten zu betrachten, das heißt, man addiert die Daten auf. Die Werte geben die „Summen aller Häu- figkeiten bis zu einem Wert an“. Die Tabelle fängt mit dem kleinsten Wert an (man könnte auch unter dem kleinsten Wert anfangen, also 0 oder 0%, die- ses wird aber meisten weggelassen). Die Werte steigen an, bis am Ende alle Werte in der Summe erfasst sind, also 100%. 22 Statistik Klasse Häufigkeit Klasse Kumulierte Häufigkeit 10 10 12 22 14 36 18 54 22 76 25 101 29 130 25 155 22 177 17 194 Tabelle 5: Häufigkeiten Anzahl der Kunden pro Tag 250 200 Kumulierte Häufigkeit der Tage 150 100 50 0 -70 -90 -110 -130 -150 -170 -190 -210 -230 -250 Anzahl der Kunden Abbildung 11: Kumulierte Häufigkeit 23 Statistik 5.4 Streudiagramm Eine andere Möglichkeit der Darstellung ist das Streudiagramm. Es bietet sich immer dann an, wenn eine statistische Korrelation zwischen 2 quantita- tiven Werten vermutet wird. Die Werte werden nicht in Klassen gruppiert, sondern einzeln in das Diagramm eingetragen. Das Diagramm besteht dann aus einer Vielzahl von Punkten. Das Diagramm bereitet diese scheinbar un- geordnete Menge an Punkten nicht selbst weiter auf. Es wird den kognitiven Fähigkeiten des Betrachters überlassen, in dieser Menge eine Struktur zu er- kennen. Später werden wir noch Möglichkeiten besprechen, aus dieser Menge eine Funktion zu bilden. In diesem Beispiel wird werden die Verkaufsgespräche und die Vertragsab- schlüsse pro Tag für einen Monat untersucht. Die Menge der Daten ist nicht in Klassen gruppier. Deshalb ist die Datentabelle entsprechend groß. Die Beispiel Werte werden als Punkte in das Diagramm gezeichnet. Es wird dem Betrach- ter überlassen einen Zusammenhang zwischen den Werten zu erkennen. Gespräche Abschlüsse Gespräche Abschlüsse Gespräche Abschlüsse 1 1 9 3 15 6 2 1 10 6 16 5 4 3 10 5 17 5 4 2 12 5 18 7 5 3 13 4 18 6 6 4 15 3 19 9 8 4 15 4 20 8 Tabelle 6: Zusammenhang zwischen Werten erkennen 24 Statistik Vertragsabschlüsse 10 9 8 Anzahl der Vertragsabschlüsse pro Tag 7 6 5 4 3 2 1 0 0 5 10 15 20 25 Anzahl der Verkaufsgespräche pro Tag Abbildung 12: In dem Streudiagramm ist eine lineare Häufung gut zu erkennen. 25 Statistik 6. Statistische Verteilung Lernziel: Am Ende dieses Abschnitts werden Sie Lernziele... den Durchschnitt und den Media ermitteln können, … die Verteilung der Werte angeben können. Jede Einheit einer Population kann eine unterschiedliche Ausprägung eines Merkmales haben. Bestimmte Ausprägungen sind häufiger als andere. Ähn- liche Ausprägungen können ähnliche Häufigkeiten haben. Die Einzelnen Werte sind meistens nicht von Interesse. Die Größe der Datenmengen (von 100 bis zu 100.000.000 Einheiten) macht das Erkenne von Strukturen schwer. Ein Ziel der Statistik ist die Zusammenfassung der einzelnen Daten zu weni- gen aussagekräftigen Werten. 30 25 20 15 10 5 0 1 2 3 4 5 6 Abbildung 13: In dem Diagramm ist eine Häufung zu erkennen. Es können aber keine Zahlen abgele- sen werden, die diese beschreiben. 6.1 Arithmetische Mittel Das arithmetische Mittel beschreibt den Schwerpunkt aller Ausprägungen. Das arithmetische Mittel wird auch Durchschnitt oder Mittelwert bezeich- net. Es verwendet die Häufigkeit und die Lage aller Ausprägungen verwen- det. Auch wenn der Begriff Mittelwert dieses suggeriert, liegt der Mittelwert 26 Statistik nicht in der geometrischen Mitte. Die Häufung von Ausprägungen an einer Seite können den Mittelwert zu dieser Seite verschieben. Der Mittelwert ist die Summe aller Werte durch die Anzahl der Werte. Der Mittelwert für eine ganze Population 𝜇𝜇 (sprich „Mü“) berechnet sich mit 𝑛𝑛 1 𝜇𝜇 = ∙ 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖=1 Der Mittelwert für eine Stichprobe 𝑥𝑥 (sprich „x quer“) berechnet sich mit 𝑛𝑛 1 𝑥𝑥̅ = ∙ 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖=1 Beispiel: 13+22+34+35 104 Die Werte 13, 22, 34, 35 haben den Mittelwert 𝜇𝜇 = 4 = 4 = 26 Beispiel Es gibt 2 Möglichkeiten, wie diese Rechnung ausgeführt wird. Wir summieren die einzelnen Werte aus und teilen diese durch die Anzahl. Dieses ist der genaue Weg, kann aber häufig zu sehr umfang- reichen Rechnungen führen. Möchte man das Durchschnittseinkom- men der Bundesrepublik Deutschland berechnen, müssen die Ein- kommen von ca. 50.000.000 Beschäftigten summiert werden. Dieses ist nicht nur ein entsprechender Aufwand, es stellt sich auch die Frage, ob der Zugriff auf diese Einzeldaten datenschutzrechtlich legal ist. Wir haben oben die Gruppierung der Daten in Klassen besprochen. Je nach Breite der Klassen erhält man eine überschaubare Liste der Ausprägungen. Da in dieser Liste nur die Werte der Klassen und nicht die Werte jedes einzelnen Bürgers dargestellt wird, sollt dieser Da- tensatz ausreichend anonymisiert sein. Da jeder einzelne Wert nicht mehr für eine Beobachtung, sondern für eine ganze Gruppe steht, muss jeder Wert mit der Anzahl ℎ𝑖𝑖 der Gruppenmitglieder multipli- ziert werden 𝑛𝑛 1 𝜇𝜇 = ∙ ℎ𝑖𝑖 ∙ 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖=1 Bzw. 𝑛𝑛 1 𝑥𝑥̅ = ∙ ℎ𝑖𝑖 ∙ 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖=1 Hierbei überträgt sich die Ungenauigkeit der Klassen auf den Mittel- wert. Befinden sich mehr Werte in der Nähe des rechten als in der Nähe des linken Rand einer Klasse, spiegelt die Klasse einen kleiner 27 Statistik Wert vor. Haben viele Klassen diese Verschiebung, wird auch der Durchschnitt entsprechend verschoben. Durch Umformen lässt sich folgende Aussage treffen: Die Summe der Diffe- renz der Werte mit dem Durchschnitt ist 0. 𝑛𝑛 1 𝑥𝑥̅ = ∙ 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖=1 𝑛𝑛 ⇒ n ∙ 𝑥𝑥̅ = 𝑥𝑥𝑖𝑖 𝑖𝑖=1 𝑛𝑛 𝑛𝑛 ⇒ 𝑥𝑥̅ = 𝑥𝑥𝑖𝑖 𝑖𝑖=1 𝑖𝑖=1 𝑛𝑛 𝑛𝑛 ⇒ 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ = 0 𝑖𝑖=1 𝑖𝑖=1 𝑛𝑛 ⇒ (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ ) = 0 𝑖𝑖=1 Die Summe der Differenzen aller Werte mit dem Mittelwert ist 0. Beispiel: Eine Forschungsstation möchte die Durchschnittstemperatur an einem Tag Beispiel messen. Sie misst jede Stunde 28 Statistik Stunde Temperatur Stunde Temperatur 1 5°C 13 16°C 2 4°C 14 16°C 3 4°C 15 17°C 4 4°C 16 16°C 5 5°C 17 15°C 6 6°C 18 14°C 7 7°C 19 12°C 8 9°C 20 10°C 9 10°C 21 8°C 10 11°C 22 7°C 11 12°C 23 6°C 12 14°C 24 5°C Tabelle 7: Duchschnittstemperatur an einem Tag Für die Berechnung werden alle Werte des Tages zusammengezählt und durch die Anzahl geteilt: 24 1 233°𝐶𝐶 𝑇𝑇𝐷𝐷 = ⋅ 𝑇𝑇𝑖𝑖 = ≈ 9,7°𝐶𝐶 24 24 𝑖𝑖=1 6.2 Median Ein großes Problem des Mittelwertes sind die „Ausreißer“ am Rande der Werteliste. Möchte man z.B. das Taschengeld der Schüler einer Gruppe Kin- der betrachten, könnte ein Kind, das ein besonders hohes Taschengeld be- kommt, den Wert so verschieben, dass er für die restlichen Kinder keine Be- deutung mehr hat: 10€, 15€, 100€, 12€, 13€ Der Durchschnitt ist 30€, das Taschengeld von den meisten Kindern ist aber geringer als die Hälfte. Aus diesem Grund wird häufig ein andere Wert ange- geben, der Median. Der Median ist der Wert von der Beobachtung, die genau in der Mitte der sortierten Liste steht. Im obigen Beispiel wird die Liste erst sortiert, 29 Statistik 10€, 12€, 13€, 15€, 100€ und dann der Wert ausgewählt, der in der Mitte der Liste steht: 10€, 12€, 13€, 15€, 100€ Der Wert ist dadurch definiert, dass genau so viele Werte kleiner und größer als dieser Wert sind. Es ist dabei irrelevant, wieviel diese Werte größer oder kleiner sind. Der „Ausreißer“ in dieser Liste verschieben diesen Wert nicht. In unserem Beispiel ist der Median von 13€ ein Wert, der das Taschengeld der meisten Kinder sinnvoll widerspiegelt. In der Hälfte der Fälle ist die Anzahl der Werte in der Liste der beobachteten Werte gerade. In diesem Fall gibt es keinen Wert, der genau in der Mitte steht. In diesem Fall wird der Durchschnitt der beiden Werte genommen, die direkt neben der Mitte stehen. 10€, 12€, 13€, 14€, 15€, 100€ In diesem Fall ist die Mitte zwischen 13€ und 14€. Der Mittelwert dieser bei- 13€+14€ den (nur dieser Beiden) Werte ist 2 = 13,5€. Handelt es sich bei den Werten um eine Ordinalskala, d.h. die Werte können zwar sortiert, aber nicht verrechnet werden, verwendet man den nächsthöheren Wert. Stellen wir uns zum Beispiel die Frage, welches Kind das repräsentative Taschengeld be- kommt, wären Kevin und Ronja in der Mitte. Ronja hat von beiden das hö- here Taschengeld und wird als Median verwendet. Jan (10€), Inge (12€), Kevin (13€), Ronja (14€), Lucas (15€), Gerda (100€) Beispiel: Die Forschungsstation möchte auch den Median der Tagestemperatur be- Beispiel rechnen. Zuerst werden die Werte sortiert: 4°C, 4°C, 4°C, 5°C, 5°C, 5°C, 6°C, 6°C, 7°C, 7°C, 8°C, 9°C, 10°C, 10°C, 11°C, 12°C, 12°C, 14°C, 14°C, 15°C, 16°C, 16°C, 16°C, 17°C Da es sich um eine Gerade Anzahl von Werten handelt, stehen zwei Werte in der Mitte: 9°C und 10°C. Wir bilden den Durchschnitt und erhalten den Wert 9,5°C. 6.3 Quantile und Perzentile Um eine Werteliste weiter zu beschreiben, werden die Begriffe Quantile und Perzentile verwendet. Diese legen einen Wert fest, der beschreibt, dass eine bestimmte Anzahl von Werten kleiner oder größer als dieser Wert ist. Der 30 Statistik Anteil wird bei einem Quantil als Zahl zwischen 0 und 1, bei einem Perzentil zwischen 0% und 100% angegeben. Bei einem Quantil 𝑄𝑄𝑞𝑞 von n Elementen (für alle 0 3 Der Radius ist 𝑟𝑟 = 15 − 10 = 5 𝑟𝑟 5 Z ist σ = 3,08 ≈ 1,62 Die Wahrscheinlichkeit, dass der Wert in dem Radius liegt, ist 89,5%. Die Wahrscheinlichkeit, dass der Wert größer ist, ist (1 − 89,5%)/2 ≈ 5%. 82 Statistik Abbildung 54: Mit ca. 5% Wahrscheinlichkeit sind mehr als 15 Schrauben mangelhaft. 9.4 Statistische Signifikanz In der Medizin und in anderen Bereichen stellt sich öfter die Frage, ob ein Ergebnis zufälliger Natur ist oder durch eine bestimmte Wirkung erzielt wurde. Z.B. muss überprüft werden, ob ein Medikament die erhoffte Wir- kung zeigt oder nicht. Erzielen die Ratschläge eines Börsenexperten einen höheren Gewinn als ein Zufallsgenerator? Dieses lässt sich durch einen Test herausfinden. Da die Ergebnisse eines Tests statistischen Schwankungen un- terliegen, ist es nicht sicher, ob die Ratschläge des Experten nur zufällig bes- ser sind als der Zufallsgenerator. Man erstellt dazu eine Nullhypothese 𝐻𝐻0. Diese sagt aus, dass das Medika- ment nicht wirkt oder die Ratschläge des Experten nicht sinnvoll sind. Wenn bewiesen werden kann, dass diese Aussage nicht stimmt, muss die Alterna- tivhypothese 𝐻𝐻1 gelten. Diese sagt aus, dass das Medikament wirkt oder die Ratschläge des Experten sinnvoll sind. Für die meisten Fälle reicht eine Signifikanzniveau von 5% aus. Das heißt, die Wahrscheinlichkeit der Alternativhypothese soll 5% sein. Die Wahrschein- lichkeit der Nullhypothese ist 90%. Da diese Betrachtung asymmetrisch ist, fällt die andere Seite mit 5% automatisch weg. 83 Statistik Abbildung 55: In 95% der Fälle wird die Nullhypothese bestätigt. In 5% wird sie verworfen und die Al- ternativhypothese ist bestätigt Beispiel: Ein Kandidat für eine Show behauptet übernatürliche Fähigkeiten zu haben. Er kann den Wurf eine Münze so beeinflussen, dass die Zahl am Ende oben Beispiel liegt. Da er sich leicht ablenken lässt, kann er das Ergebnis nicht immer er- zeugen. Er verspricht, dass er es meistens schafft, aber nicht immer. Wie kann der Versuch so aufgebaut werden, dass ein positives Ergebnis mög- lichst kein Zufall ist? Man stellt die Nullhypothese 𝐻𝐻0 auf, dass der Kandidat ein Schwindler ist. Das der Kandidat übernatürliche Fähigkeiten hat, ist die Alternativhypothese 𝐻𝐻1. Der Erwartungswert, dass bei n Würfen Zahl oben liegt, ist 𝜇𝜇 = 0,5 ⋅ n Die Standartabweichung hängt unteranderen von der Anzahl der Versuche in einer Testreihe ab. σ = 𝑛𝑛 ⋅ 𝑝𝑝 ⋅ (1 − 𝑝𝑝) = 𝑛𝑛 ⋅ 0,5 ⋅ 0,5 = √𝑛𝑛 ⋅ 0,5 Da wir ein signifikantes Ergebnis haben wollen, muss die Nullhypothese eine Wahrscheinlichkeit von 90%. Wir entnehmen aus der Tabelle oder dem Ta- schenrechner ein z = 1,64. Der obere Rand der Nullhypothese ist μ + 1,64 ⋅ σ = 0,5 ⋅ n + 1,64 ⋅ 0,5 ⋅ √𝑛𝑛 = 0,5𝑛𝑛 + 0,82√𝑛𝑛 Das Intervall für die Nullhypothese ist 0; 0,5𝑛𝑛 + 0,82√𝑛𝑛. Normieren wir 0,82 dieses Intervall pro Wurf erhalten wir 0; 0,5 +. Wir erkennen, dass das √𝑛𝑛 Intervall kleiner wird, um so mehr Versuche in der Testreihe sind. Je unzu- verlässiger der Kandidat die Münze auf die richtige Seite drehen kann, desto dichter ist sein Erwartungswert an dem zufälligen Erwartungswert. Der Kan- didat muss häufiger werfen, um ein signifikantes Ergebnis zu erhalten. 84 Statistik Verspricht der Kandidat mit 80% die Münze mit dem Kopf nach oben landen zu lassen, muss der Kandidat dieses mit 0,82 80% = 0,5 + √𝑛𝑛 0,82 2 ⇒ 𝑛𝑛 = ≈ 7,5 0,8 − 0,5 8 Würfen beweisen. Verspricht der Kandidat dieses nur bei 60% der Fälle zu schaffen, benötigt er mehr Versuche. 0,82 60% = 0,5 + √𝑛𝑛 0,82 2 ⇒ 𝑛𝑛 = ≈ 67 0,6 − 0,5 Schaft der Kandidat bei 8 Würfen 80% oder bei 67 Würfen 60% der Münzen auf die richtige Seite fallen zu lassen, wird die Nullhypothese verworfen und die Alternativhypothese ist bestätigt. Abbildung 56: Durch die größere Anzahl von Versuchen wird die Verteilung schlanker und höher. Auch Ergebnisse, die dichter am Erwartungswert sind, werden unwahrscheinlicher. Aufgabe: Ein Finanzexperte verspricht in seinem kostenpflichtigen Börsenbriefen, Übung dass er mit hoher Wahrscheinlichkeit vorhersagen kann, ob Aktienkurse fal- len oder steigen wird. Bei n=50 verschiedenen Vorhersagen soll das Verspre- chen überprüft werden. Berechne die Wahrscheinlichkeit, dass der Experte nur durch Zufall mindestens 30-mal richtig liegt (𝑃𝑃(𝑋𝑋 ≥ 30)). 85 Statistik Lösung: Wahrscheinlichkeit: 0,5 (Der Kurs wird sich immer etwas verändern, mit 50% in die vorhergesagte Richtung) Erwartungswert: 𝜇𝜇 = 0,5 ⋅ 50 = 25 Standardabweichung: σ = 𝑛𝑛 ⋅ 𝑝𝑝 ⋅ (1 − 𝑝𝑝) = 50 ⋅ 0,5 ⋅ 0,5 ≈ 3,53 > 3 Radius: 𝑟𝑟 = 30 − 25 = 5 𝑟𝑟 5 = σ = 3,53 ≈ 1,42 ⇒ 𝑃𝑃(20 ≥ 𝑋𝑋 ≥ 30) = 84,4% 𝑧𝑧 1−𝑃𝑃(20 ≥ 𝑋𝑋 ≥ 30) 100%−84,4% Wahrscheinlichkeit: 𝑃𝑃(𝑋𝑋 ≥ 30) = = ≈ 7,8% 2 2 Mit 7,8% Wahrscheinlichkeit würde der Kandidat mit Raten mindestens 30- mal richtig liegen. Aufgabe: Ein Finanzexperte verspricht in seinem kostenpflichtigen Börsenbriefen, Übung dass er mit hoher Wahrscheinlichkeit vorhersagen kann, ob Aktienkurse fal- len oder steigen wird. Bei n=50 verschiedenen Vorhersagen soll das Verspre- chen mit einem Hypothesentest überprüft werden. Das Signifikanzniveau wird mit 5% angegeben. Berechne das Intervall, in dem das Ergebnis liegen muss. Lösung: Nullhypothese 𝐻𝐻0 : Der Experte kann die Aktienkurse nicht vorhersagen. Alternativhypothese 𝐻𝐻1 : Der Experte kann die Aktienkurse vorhersagen. Wahrscheinlichkeit: 0,5 (Der Kurs wird sich immer etwas verändern, mit 50% in die vorhergesagte Richtung) Erwartungswert: 𝜇𝜇 = 0,5 ⋅ 50 = 25 Standardabweichung: σ = 𝑛𝑛 ⋅ 𝑝𝑝 ⋅ (1 − 𝑝𝑝) = 50 ⋅ 0,5 ⋅ 0,5 ≈ 3,53 > 3 Wahrscheinlichkeit der Alternativhypothese: 5% Wahrscheinlichkeit des inneren Bereichs: 90% ⇒ 𝑧𝑧 = 1,64 Oberer Rand: μ + 𝑧𝑧 ⋅ σ = 25 + 1,64 ⋅ 3,53 ≈ 30,8 ≈ 31 Wenn der Kandidat in 50 Versuchen min. 31-mal richtig liegt, ist das Ergebnis signifikant. 9.5 Fehler 1. und 2. Art Zuerst werden die Nullhypothese und die Alternativhypothese aufgestellt. Für diese Hypothesen wird das Signifikanzniveau berechnet. Dann erfolgt die 86 Statistik eigentliche Versuchsreihe. Das Ergebnis dieser Reihe wird durch den Zufall bestimmt. Es ist zwar unwahrscheinlich, dass der Versuch ein falsches Ergeb- nis liefert, aber nicht unmöglich. Bei Fehlern der 1. Art weisen wir die Nullhypothese zurück, obwohl sie wahr ist. In unserem Beispiel aus dem letzten Kapitel könnte der Kandidat viel Glück haben und rein zufällig von 8 Versuchen 7-mal die Zahl werfen. Das ist zwar unwahrscheinlich, aber durch aus möglich. Gerade dann, wenn der Kandidat, häufiger in verschiedenen Shows sein „Können“ unter Beweis stellt, ist die Wahrscheinlichkeit groß, dass er bei eine der Shows Glück hat. Bei einem Signifikanzniveau von 5% sollte der Kandidat im Schnitt bei jeder 20. Show Glück haben. Bei Fehlern der 2. Art bestätigen wir die Nullhypothese und weisen die Al- ternativhypothese zu Unrecht zurück. Gerade dann, wenn der Abstand zwi- schen dem versprochenen Ergebnis und der Grenze der Nullhypothese klein ist, kann durch einen Zufall diese Grenze überschritten werden. Die Nullhypothese und die Alternativhypothese werden nicht gleichwertig betrachtet. Wir überprüfen nur die Nullhypothese. Wenn diese sich nicht bestätig, wird sie verworfen und wir gehen davon aus, dass die Alternativhy- pothese wahr ist. Wir können die Nullhypothese und die Alternativhypo- these vertauschen. Dann überprüfen wir die 2. These (vorher die Alterna- tivhypothese, jetzt die Nullhypothese). Wenn wir diese verwerfe, gehen wir davon aus, dass die 1. These wahr ist. Diese beiden Vorgehensweisen sind nicht äquivalent. Je nach Erwartungswert und Standartabweichung kann es zu Überlappungen kommen. Das Ergebnis wird je nach Herangehensweise zu der 1. oder 2. Hypothese (welche gerade die Nullhypothese ist) zugeord- net. Abbildung 57: Die Intervalle der Hypothesen überlappen sich. Der grüne Bereich wird der Hypothese zugeordnet, die als Nullhypothese verwendet wird. 87 Statistik Sind die Erwartungswerte unter der Berücksichtigung der Standartabwei- chung weiter voneinander entfernt, überlappen sich die Intervalle der bei- den Nullhypothesen nicht. Es gibt einen Bereich, die weder zu der 1. noch zu der 2. Hypothese gezählt werden. Die Ergebnisse in diesem Bereich werden immer der Alternativhypothese zugeordnet. Man erkennt daraus, dass es ei- nen großen Unterschied macht, welche Hypothese die Nullhypothesen und welche die Alternativhypothese ist. Abbildung 58: Die Intervalle überlappen sich nicht. Ergebnisse im farbigen Bereich sorgen immer dafür, dass die Nullhypothese abgelehnt wird. Das Signifikanzniveau von 5% hat sich in der Wissenschaft bewährt, da sich die Risiken eines Fehler 1. Art oder einen Fehler 2. Art ausgewogen gegen- überstehen. Bei den verschiedenen Untersuchungen können die Prioritäten aber unterschiedlich gewichtet werden. Bei der Überprüfung der Wirksam- keit eines Medikamentes möchte man vielleicht liebe ein wirksames Medi- kament als unwirksam einstufen (Fehler 2. Art), als ein wirkungsloses Medi- kament an Patienten auszugeben (Fehler 1. Art). In solch einem Fall kann das Signifikanzniveau auch anders gewählt werden. Wenn die Anzahl der Versuche vergrößert wird, werden die Verteilungskur- ven schmaler. Der Bereich der Überlappung verschwindet. Das Ergebnis des Versuchs sollte eindeutig die 1. oder die 2. Hypothese bestätigen. Leider sind die Anzahl der Versuche häufig begrenzt oder der zusätzliche Aufwand ist nicht gerechtfertigt. Wenn man z.B. ein Medikament gegen eine seltene Krankheit testen möchte, benötigt man Testpersonen mit genau dieser Krankheit. Die Anzahl der Verssuche ist damit durch die Anzahl der passen- den Testpersonen beschränkt. 88 Statistik 10. Zweidimensionale Daten 10.1 Kreuztabellen Bis jetzt haben wir uns damit beschäftigt, dass es zu jeder Beobachtung zwei Merkmale mit zwei Ausprägungen gibt. Ein Merkmal beschreibt die Be- obachtung, die andere wird ausgewertet. Wenn wir die Anzahl der Bewoh- ner von Städten betrachten, ist das erste Merkmal der Name der Stadt und das zweite Merkmal die Anzahl der Bewohner. Name Anzahl der Bew