Deskriptive Statistik (eindimensional) PDF
Document Details
Uploaded by Deleted User
HSLU I
Peter Büchel
Tags
Summary
This document is an introduction to descriptive statistics. It delves into the concepts of one-dimensional and two-dimensional data sets. The document includes examples and calculations. It explores ways of organizing and summarizing data using numerical and graphical methods.
Full Transcript
Deskriptive Statistik (eindimensional) Peter Büchel HSLU I ASTAT: Block 02 Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 1 / 55 Daten Daten und Statistiken best...
Deskriptive Statistik (eindimensional) Peter Büchel HSLU I ASTAT: Block 02 Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 1 / 55 Daten Daten und Statistiken bestimmen immer mehr unser Leben Zeitung: Prognose zur nächsten Abstimmung oder Wahlen → Befragung Googeln: Wie „weiss” Google so genau, was man suchen will? → Google wertet Suchanfragen aus Passkontrolle am Flughafen: Wie erkennt die Software Gesichter? → Gesichter werden charakterisiert Wetterbericht: Wie kommt die Vorhersage zustande? → Modell aufgrund früherer Wetterdaten (und Theorie) Börsenkurse: Wie lässt sich aus dem Börsenverlauf der letzten paar Tage, der Kurs für die nächsten paar Tage vorhersagen? → Modellierung aus alten Daten Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 2 / 55 Datensätze (eindimensional) Liste: Einfachste Variante eines Datensatzes Bsp: Körpergrössen von 5 Personen 1.75, 1.80, 1.72, 1.65, 1.54 Solche Listen heissen: Eindimensionale Datensätze oder Messreihen Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 3 / 55 Datensätze (zweidimensional) Häufigste Form von Datensätzen: Tabellen oder zweidimensionale Datensätze Bsp: Person Grösse Gewicht Geschlecht Nationalität A 1.82 72 m CH B 1.75 82 w D C 1.61 70 w CH D 1.80 83 m A E 1.89 95 w FL Grösse und Gewicht: Quantitative Daten, also (gemessene) Zahlen Können, zumindest theoretisch, jeden beliebigen Zahlwert in einem Bereich annehmen Geschlecht und Nationalität: Qualitative Daten Nehmen nur bestimmte Anzahl Werte an (müssen keine Zahlen sein) Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 4 / 55 Deskriptive Statistik Deskriptive Statistik: Darstellung von Datensätzen Datensätze ◮ durch gewisse Zahlen charakterisieren (z.B. Mittelwert) ◮ und graphisch darstellen Zunächst eindimensionale Daten: Eine Messgrösse wird an einem Untersuchungsobjekt ermittelt (zweidimensionale später) Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 5 / 55 Ziele der Deskriptiven Statistik Daten zusammenfassen durch numerische Kennwerte Graphische Darstellung der Daten Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 6 / 55 Beispieldatensatz Messungen Körpergewicht Erfahrung: Steht am Morgen auf Waage und merkt sich Gewicht Steht nochmals auf die Waage und erhält leicht anderes Resultat Wir wollen es genauer wissen Nehmen 80 Kilogramm schweren Metallblock, der geeicht ist, d.h. er hat mit sehr grosser Genauigkeit 80 kg Gewicht dieses Metallblocks wird mehrere Male mit zwei Waagen A und B gemessen Zwei Datensätze mit Gewichten (in kg; auf 10 g genau gemessen) Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 7 / 55 Tabelle: Waage A 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 80.05 Waage A 80.03 80.02 80.00 80.02 Waage B 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97 Frage: Warum führen verschiedene Messungen, die am gleichen Objekt stattfinden zu unterschiedliche Resultaten? Messungen finden nie unter exakt denselben Bedingungen statt Scheinbar genaue Angaben sind nur ungefähre Angaben ◮ Kalorienzahl auf einer Packung Schokolade ◮ Inhalt 500 ml Pet-Flasche: Keine zwei Pet-Flaschen sind absolut gleich ◮ Gesichtserkennung am Flughafen: Sie haben nie denselben Gesichtsausdruck Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 8 / 55 Zurück zum Beispiel der Waagen Messungen wurden mit grösstmöglichen Sorgfalt durchgeführt Trotzdem variieren die Messwerte innerhalb beider Waagen Es stellen sich hier nun die folgenden Fragen: ◮ Gibt es einen Unterschied zwischen der Waage A und der Waage B? ◮ Falls ja, wie können wir diesen Unterschied ermitteln? Es fällt auf: ◮ Beide Waagen: Messwerte um 80 herum liegen (sollte auch so sein) ◮ Waage A: Nur 2 Werte von 13 unter 80 ◮ Waage B: Nur 2 von 8 Werten über 80 liegen ◮ Werte der Waage A sind also eher grösser als die der Waage B Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 9 / 55 Was heisst hier aber „eher”? Wie kann man die beiden Messreihen miteinander vergleichen? Ziel: Messreihen irgendwie zusammenzufassen, um die beiden Waagen miteinander vergleichen zu können Deskriptive Statistik beschäftigt sich damit, auf welche Weisen Daten organisiert und zusammengefasst werden können Ziel: Interpretation und darauffolgende statistische Analyse dieser Daten vereinfachen Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 10 / 55 Kennzahlen sollen Daten numerisch zusammenfassen und grob charakterisieren Bei statistischen Analysen ist es sehr wichtig, nicht einfach blind ein Modell anzupassen oder ein statistisches Verfahren anzuwenden Daten sollten immer mit Hilfe von geeigneten graphischen Mitteln und den Kennzahlen dargestellt werden Nur auf diese Weise kann man (teils unerwartete) Strukturen und Besonderheiten entdecken Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 11 / 55 Aber: Warnung!!! Wann immer ein Datensatz „reduziert” wird (durch Kennzahlen oder Graphiken), geht Information verloren! Bsp: Noten einer Schulklasse mit 24 Lernenden an einer Prüfung: 4.2, 2.3, 5.6, 4.5, 4.8, 3.9, 5.9, 2.4, 5.9, 6, 4, 3.7, 5, 5.2, 4.5, 3.6, 5, 6, 2.8, 3.3, 5.5, 4.2, 4.9, 5.1 Notendurchschnitt ist 4.51 Dieser Wert sagt über Klasse als Ganzes etwas aus, aber nichts mehr über die einzelnen Lernenden Kennen nur Zahl 4.51: Keine Information mehr, wie die einzelnen Lernenden abgeschnitten haben Wissen nicht einmal, wieviele Lernende in der Klasse sind Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 12 / 55 Bezeichnungen Standardbezeichnung von Daten mit x1 , x2 ,... , xn n: Umfang der Messreihe (Daten, Datensatz) Beispiel: Messreihe der Waage A hat Umfang n = 13: x1 = 79.98, x2 = 80.04,... , x13 = 80.02 Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 13 / 55 Kennzahlen Kennzahlen Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 14 / 55 Überblick über die Kennzahlen Bekannt: n beobachtete Datenpunkte (Messungen) x1 , x2 ,... , xn (z.B. Verkehrsaufkommen an n verschiedenen Tagen) Unterscheidung zwischen Lage- und Streuungsparametern Lageparameter („Wo liegen die Beobachtungen auf der Mess-Skala?”) ◮ Arithmetisches Mittel („Durchschnitt”) ◮ Median ◮ Quantile Streuungsparameter („Wie streuen die Daten um ihre mittlere Lage?”) ◮ Empirische Varianz / Standardabweichung ◮ Quartilsdifferenz Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 15 / 55 Arithmetisches Mittel Umgangsprachlich: Durchschnitt Addiert alle Daten und teilt Summe durch Anzahl Daten (Umfang) Definition: Arithmetisches Mittel n x1 + x2 +... + xn 1X x= = xi n n i=1 Sprechweise: „x quer” Beispiel Waage A: Arithmetische Mittel der n = 13 Messungen 79.98 + 80.04 +... + 80.03 + 80.02 + 80.00 + 80.02 x= = 80.020 77 13 Peter Büchel (HSLU I) Deskriptive Statistik (eindimensional) ASTAT: Block 02 16 / 55 R-Befehl für arithmetisches Mittel mean(...): waageA