Lernzettel PDF
Document Details
Uploaded by Deleted User
Tags
Summary
Dieser Lernzettel bietet eine Zusammenfassung der Grundbegriffe der Statistik, einschließlich der verschiedenen Teilgebiete wie deskriptive Statistik, Wahrscheinlichkeitsrechnung und induktive Statistik. Der Text erläutert Konzepte wie Häufigkeitsverteilungen, Lagemaße und Streuungsmaße, sowie verschiedene Arten von Merkmalen und Skalierungen.
Full Transcript
**Lernzettel** **Grundbegriffe** **Statistik** - Beschäftigt sich mit der Untersuchung von Phänomenen, die in Massen auftreten - Erste Auffassung - Ergebnis von Zählen und Messen - Resultat einer Erhebung - Zweite Auffassung - Aufbereiten und Verarbeiten des Gezählten und Gem...
**Lernzettel** **Grundbegriffe** **Statistik** - Beschäftigt sich mit der Untersuchung von Phänomenen, die in Massen auftreten - Erste Auffassung - Ergebnis von Zählen und Messen - Resultat einer Erhebung - Zweite Auffassung - Aufbereiten und Verarbeiten des Gezählten und Gemessenen - Bei Untersuchung von Massenerscheinungen ist die Abgrenzung der Menge der zu untersuchende Elemente notwendig - Sachlich, räumlich, zeitlich **Teilgebiete der Statistik** [Deskriptive Statistik ] - Analyse eindimensionaler Häufigkeitsverteilungen - Regressions -- und Korrelationsanalyse - Verhältniszahlen - Zeitreihenanalysen [Wahrscheinlichkeitsrechnung ] - Wahrscheinlichkeiten - Zufallsvariablen und Wahrscheinlichkeitsverteilungen [Induktive Statistik ] - Stichprobentheorie - Statistisches Schätzen - Statistisches Testen **Statistische Massen** [Bestandsmassen] - Elemente besitzen Lebensdauer - Verweilen für gewisse Zeit in der Masse - Messung zu einem bestimmten Zeitpunkt - Z.B. Patienten eines KH, Einwohner einer Stadt, Waren in einem Lager [Ereignismassen ] - Elemente der Masse treten nur zu bestimmten Zeitpunkten auf - Messung erfolgt über einen bestimmten Zeitraum - Z.B. Geburten eines Jahres, Hüftoperationen, Sternschnuppen **Merkmale** - Eigenschaften der Elemente einer statistischen Untersuchung **Skalierung von Merkmalen (Skalenniveau)** [Nominal ] - nur Verschiedenartigkeit der Ausprägung zum Ausdruck gebracht - keine Rang- oder Reihenfolge [Ordinal ] - verschiedenen Merkmalsausprägungen können in sinnvolle Reihenfolge gebracht werden - Abstände nicht quantifizierbar [Metrisch Skaliert ] - Verschiedenen Merkmalsausprägungen können in eine sinnvolle Reihenfolge gebracht werden - Abstände zwischen Merkmalen quantifizierbar Ein Bild, das Text, Screenshot, Schrift, Zahl enthält. Automatisch generierte Beschreibung [Diskrete Merkmale] - Endlich oder abzählbar unendlich - Können nur bestimmte einzelne Werte annehmen - Zählbar, kein Zwischenwert zwischen den einzelnen Messpunkten - Z.B. Geschlecht, Einwohnerzahl, Patientenanzahl [Stetige Merkmale] - Überabzählbar unendlich - Können jeden beliebigen Wert innerhalb eines Intervalls annehmen - Messbar, unendlich viele mögliche Werte innerhalb eines Bereiches - Z.B. Körpertemperatur, Körpergröße, Geburtsgewicht **Eindimensionale beschreibende Statistik** - N= Stichprobenumfang - X~i\ =~ einzelnen Merkmalsausprägungen - K = Anzahl der Merkmalsausprägungen - n -- Tupel x = ( x~1~, x~2~, x~3~,....); Stichprobe **Häufigkeitsverteilungen** [Absolute Häufigkeit ] - Zeigt, wie oft eine Merkmalsausprägung in der Stichprobe vorkommt - Wenn ich alle absoluten Häufigkeiten summiere, muss der Stichprobenumfang n rauskommen [Relative Häufigkeit ] - Häufigkeit in Relation zur Stichprobe - Absolute Häufigkeit / Stichprobenumfang - Wenn ich alle relativen Häufigkeiten summiere, muss 1 (100%) rauskommen - Erfassung der Stichprobe kann tabellarisch erfolgen oder auch grafisch im Säulendiagramm, Kreisdiagramm [Summenhäufigkeitsfunktion ] - Verschiedenen Merkmalsausprägung sind der Größe nach geordnet - Dann rechnet man die absoluten Häufigkeiten zusammen bis zu der gewünschten Merkmalsausprägung - A (x) = Summenhäufigkeit [Empirische Verteilungsfunktion ] - Genau wie bei der Summenhäufigkeitsfunktion, aber mit relativen Häufigkeiten - E (x) = empirische Verteilungsfunktion - In einer Grafik würden sich eine Treppenfunktion zeigen **Häufigkeitsverteilung bei Klassenbildungen** **Klassenbildung** - Unterteilung des Intervall I, in dem alle Beobachtungswerte liegen - In disjunkte Teilintervalle K~t~ - Klasseneinteilung, falls die Vereinigung der Teilintervalle wieder I ergibt - Teilintervalle werden Klassen genannt - [Klassenbreite ] - Gibt an wie weit die Werte innerhalb einer Klasse auseinander liegen - Rechten Rand -- linken Rand des Intervalls = Klassenbreite - Ist die Breite aller Klassen gleich groß, spricht man von einer äquidistanten Einteilung - [Klassenmitte ] - Mittelwerte einer Klasse - Rechten und linken Rand addieren und dann durch 2 teilen **Häufigkeitsbegriff für Klasseneinteilung** - Grafische Darstellung der Häufigkeit einer Klasse erfolgt mittels eines Histogramms - Fläche der Rechtecke über den Intervallen proportional zur entsprechenden Häufigkeit und nicht die Höhe - Höhe des Rechteckes entspricht der Dichte der Klasse - Höhe der Rechtecke ist zur Häufigkeit nur bei gleicher Klassenbreite proportional - d~t~ = r~t~ / b~t~ [Absolute Häufigkeit ] - Anzahl der Beobachtungswerte, die in die Klasse K~t~ fallen - h (K~t~): 0 hat [Relative Häufigkeit ] - absolute Klassenhäufigkeit durch den Stichprobenumfang n teilen - relative Klassenhäufigkeit r~t~ **Lagemaße** - dienen der Charakterisierung von Stichproben - Kerngrößen, die zur Beschreibung einer Stichprobe geeignet sind - Müssen sich am beschriebenen Problem orientieren **Allgemeine Lagemaße** [Modalwert (Modus) ] - Der Beobachtungswert, der in einer Stichprobe die größte absolute (relative) Häufigkeit besitzt - Muss nicht eindeutig sein - Ist bei nominalen Merkmalen der einzige Lageparameter - X~Mo~ ![Ein Bild, das Text, Schrift, Screenshot, Reihe enthält. Automatisch generierte Beschreibung](media/image113.png) [Median (Zentralwert) ] - Untersuchende Merkmal ist metrisch skaliert - Stichprobe ist der Größe nach geordnet Ein Bild, das Text, Schrift, Screenshot, Reihe enthält. Automatisch generierte Beschreibung [Mittelwert (arithmetisches Mittel) ] - Zu untersuchen Merkmal ist metrisch skaliert - Beschreibt den Durchschnittswert einer Stichprobe - Z.B. Pro -- Kopf- Verbrauch von Lebensmittel, Durchschnittsalter der Bevölkerung eines Landes, durchschnittliche Ausgaben für den Urlaub - Unterscheidung in ungewogenes arithmetisches Mittel und gewogenes arithmetisches Mittel - Ungewogenes arithmetisches Mittel - Mittelwert eines Datensatzes, bei dem alle Werte gleich gewichtet sind - Gewogenes arithmetisches Mittel - Durchschnittswert einer Stichprobe ermittelt, entsprechend ihres Auftretens gewichtet, also nach Häufigkeit - Mittelwert nicht für alle Stichproben gleichermaßen gut geeignet - Kann bei Ausreißern oder schiefen Verteilungen kann ein vollkommen falsches Bild vermittelt werden - Reagiert sensibel auf Ausreißer **Anwendung von** [Mittelwert ] - Nicht zu kleiner Stichprobenumfang - Stichprobe nicht zu sehr asymmetrisch (schief) - nicht allzu viele Ausreißer- Durchschnittswert liegt in der der Nähe der größten Häufigkeiten - Bsp: Körpergröße, Lebenserwartung, Energieverbrauch von Haushalten [Median ] - Kleiner Stichprobenumfang - Stichprobe ist stark asymmetrisch (schief) - es gibt viele Ausreißer - Merkmal ist ordinal skaliert - Bsp: Einkommensverteilung **Spezielle Lagemaße** [Geometrisches Mittel ] - Beschreibt den Durchschnittswert einer Stichprobe bei Wachstumsprozessen - Z.B. durchschnittliche Preissteigerungen, Vermehrung, Zellteilungsrate, Bevölkerungswachstumsrate ![Ein Bild, das Text, Screenshot, Schrift enthält. Automatisch generierte Beschreibung](media/image154.png) =========================================================================================================== [Harmonisches Mittel ] - Beschreibt den Durchschnittswert einer Stichprobe bei Vergleich von Quotienten (Relationen) - Z.B. durchschnittlicher Preis je Mengeneinheit, Geschwindigkeit, Prozentwerte Ein Bild, das Text, Screenshot, Schrift, Reihe enthält. Automatisch generierte Beschreibung ![Ein Bild, das Schrift, Text, Reihe, weiß enthält. Automatisch generierte Beschreibung](media/image162.png) [Verallgemeinerung des Medians ] - Median teilt die Stichprobe in der Mitte, d.h. bei 50% - Teilung kann auch bei jedem anderen Prozentwert stattfinden [Quantil] - Stichprobe ist geordnet - In der Praxis werden häufig bestimmte Quantile verwendet - Quartile, a = 0,25 und a = 0,75 (unteres und oberes Quartil) - Dezile a= 0,1; 0,2; 0,3;... (Abschnitte mit je 10%) - Perzentile, in Hundertstel geteilt - Quantil a = 0,5 = Median ![](media/image169.png) Ein Bild, das Text, Screenshot, Schrift, Diagramm enthält. Automatisch generierte Beschreibung **Streuungsmaße** - Dienen zur Charakterisierung der Verteilung innerhalb der Stichprobe - Bauen auf Lagemaßen auf [Spannweite ] - Betrachtet nur die Extremwerte - Keine Aussage zur Verteilung zwischen Extremwerten - Gibt nur Aufschluss über Größe des Merkmalsbereich - Abstand zwischen dem Maximalwert und Minimalwert der Stichprobe [Quantilsabstand ] - Ist die Länge des Intervalls, in dem 50% aller Stichprobenwerte liegen - Nicht so empfindlich gegenüber Ausreißern wie die Spannweite - Muss man Quantil 0,25 und Quantil 0,75 berechnen - Darstellung als Box -- Plot ![](media/image187.png) [Mittlere absolute Abweichung ] - Maß für die Streuung oder Variabilität in einer Stichprobe - Wie weit die einzelnen Datenpunkte im Durchschnitt von einem Lagemaß entfernt ist z.B. Median (Zentralwert) oder Mittelwert - Stichprobe metrisch skaliert und z ein fester Wert z.B. Median oder Mittelwert der Stichprobe - d~z~ = mittlere absolute Abweichung - Alle Abweichungen zusammenrechnen und dann durch den Stichprobenumfang = durchschnittliche Abweichung [Varianz und Standardabweichung ] [Varianz] - Zu untersuchende Merkmal ist metrisch skaliert - Misst wie stark die Merkmale in einer Stichprobe vom arithmetischen Mittel streuen - Durchschnittliche quadratische Abweichung der Merkmalsausprägungen vom Mittelwert an - Je höher die Varianz, desto weiter sind die Werte im Durchschnitt vom Mittelwert entfernt, desto breiter die Streuung Standardabweichung - Misst wie stark die Merkmale in einer Stichprobe um den Mittelwert streuen - Quadratwurzel der Varianz - Vorteil ist die Angabe in der gleichen Einheit wie die Beobachtungswerte Ein Bild, das Text, Screenshot, Zahl, Schrift enthält. Automatisch generierte Beschreibung - Bisherigen Streumaße geben Streuung als absolute Größe an - Interpretation teilweise schwierig, da Bezugsgröße fehlt - Deshalb relatives Streumaß - Gibt Streuung im Verhältnis zum arithmetischen Mittel an [Variationskoeffizient ] - Gibt die Streuung um den Mittelwert in Relation zum Mittelwert an - Besitzt keine Dimension - Gibt mit 100 multipliziert die Streuung in Prozent vom Mittelwert an ![](media/image230.png) [Streumaße klassierter Merkmale] - Klassierte Merkmale - Merkmale, deren Werte in Klassen oder Intervalle unterteilt werden - Decken jeweils einen Bereich von Werten ab - Spannweite ist die Differenz aus dem rechten Eckpunkt der letzte Klasse und dem linken Eckpunkt der ersten Klasse - Für Berechnung der mittleren absoluten Abweichung, der Varianz und der Standardabweichung werden alle Werte einer Klasse mit der Klassenmitte identifiziert - Repräsentant der Klasse - Linker Rand + Rechter Rand / 2 - Danach gleiches Vorgehen wie bei Einzelmerkmalen Ein Bild, das Text, Schrift, Zahl, Screenshot enthält. Automatisch generierte Beschreibung **Interpretation von Lage und Streuung** - - - - - - **Korrelation und Regression** - In einer Stichprobe meistens mehrere Merkmale gleichzeitig erfasst - Stichprobe besteht dann aus n- Tupeln - Betrachtung dann komponenten -- weise als eindimensionale Stichprobe oder - Untersuchen, ob es zwischen den Werten der einzelnen Komponenten Abhängigkeiten oder Zusammenhänge gibt - Zweidimensionaler Fall - Stichprobe enthält nur zwei Komponenten - Oder wir untersuchen den Zusammenhang von zwei Komponenten für eine mehrdimensionale Stichprobe - Bei Untersuchung von Zusammenhängen werden Betrachtungen aus rein mathematischer Sicht geführt **Zweidimensionale Häufigkeitsverteilungen** - Darstellung der zweidimensionalen Stichprobe erfolgt zur grafischen Veranschaulichung in einem sogenannten Streuungsdiagramm [Absolute Häufigkeit ] (x, y) = ((x1, y1 ), (x2, y2 ),(x3, y3),..., (xn , yn )) sei eine zweidimensionale Stichprobe mit den Merkmalsausprägungen a1, a2, a3,...ar und b1, b2, b3,...bs - Die Anzahl des Paares (a~j~, b~k~) ist dessen absolute Häufigkeit und wird mit h(a~j~, b~k~) = h~jk~ bezeichnet [Relative Häufigkeitsverteilung ] - R(a~j,~b~k)~ - Absolute Häufigkeit / Stichprobenumfang - Darstellung der Häufigkeitsverteilung erfolgt wieder mit Häufigkeitstabelle auch als Kontigenztafel bezeichnet ![Ein Bild, das Text, Screenshot, Zahl, Schrift enthält. Automatisch generierte Beschreibung](media/image275.png) **Korrelation** - Beschreibt den Zusammenhang zwischen zwei Variablen - Zeigt inwieweit Veränderungen in einer Variable mit Veränderungen in einer anderen Variable verbunden - Zweidimensionale Stichprobe - Komponentenstichprobe von (x,y) - Für Komponentenstichproben werden Mittelwerte x und y und Varianzen wie in der eindimensionalen Statistik berechnet - Aber immer noch keine Aussage zum Zusammenhang der beiden Stichprobenkomponenten möglich **Kovarianz** - Misst wie zwei Variablen gemeinsam variieren - Zeigt, ob es eine positive, negative oder keine Beziehung zwischen den Variablen gibt - Erstes Maß für einen linearen Zusammenhang - Linearer Zusammenhang beschreibt eine Beziehung zwischen zwei Variablen, die auf einer Geraden dargestellt werden - Gegenläufiger linearer Zusammenhang für Werte nahe -- Unendlich - Bedeutet, dass zwei Variablen in entgegengesetzte Richtungen variieren - Wenn eine Variable steigt, fällt die andere und umgekehrt - Negative Korrelation - Gleichläufiger linearer Zusammenhang für Werte nahe + Unendlich - Zwei Variablen variieren in die gleiche Richtung - Steigen und sinken zusammen - Positive Korrelation - Aber besser wäre normierter Wert mit engem Wertebereich **Korrelationskoeffizient** - Misst die Stärke und Richtung des linearen Zusammenhangs zwischen zwei Variablen - Mit Hilfe des Korrelationskoeffizienten kann ein möglicher linearer Zusammenhang festgestellt werden - Korrelationskoeffizient r nach Pearson - Für die Werte von r gilt -1 kleiner gleich r kleiner gleich +1 - R ist ein normiertes Maß für den linearen Zusammenhang - Weil der Korrelationskoeffizient immer zwischen -1 und 1 liegt, erlaubt er den Vergleich zwischen verschiedenen Datensätzen oder Studien. Eine Kovarianz, die stark von den Skalen und Einheiten der Daten abhängt, bietet diese Vergleichbarkeit nicht. Ein Bild, das Text, Screenshot, Schrift, Reihe enthält. Automatisch generierte Beschreibung **Regression** - Nächster Schritt soll die Beschreibung dieses linearen Zusammenhangs durch eine Funktion sein - Ziel - Die Geraden der Funktion so durch die Punktwolke im Streuungsdiagramm zu legen, dass die Abstände der einzelnen Punkte zur Geraden minimal werden - Gerade ist die beste lineare Näherung zur Beschreibung der Stichprobe - **Regressionsgerade** **Bestimmtheitsmaß** - Gibt die Qualität der linearen Näherung an - Werte bei kleiner gleich 0 - Schlechte Näherung - Die Punkte liegen breit gestreut und sind von der Regressionsgeraden weit entfernt - Werte bei größer gleich 1 - Sehr gute Näherung - Die Punkte liegen alle in unmittelbarer Nähe oder auf der Regressionsgeraden