Statistik - Einführung (PDF)

Statistik – Einführung (1) Warum ist Statistik als wissenschaftliche Disziplin in fast jedem wissenschaftlichen Bereich unerlässlich? Generieren neuer Erkenntnisse über bestimmte Themengebiete Bedeutsamkeit Statistik an selbstgewähltem Beispiel Beispiel: Weiterentwicklung der Inflationsrate ➔ Vergangene Entwicklungen betrachten und analysieren, um neue Erkenntnisse zu gewinnen ➔ Schlussfolgerungen für zukünftige Entwicklungen ziehen und Handlungsempfehlungen ableiten Definition Merkmalsträger, Merkmal und einzelne Merkmalsausprägungen. Merkmalsträger: interessierende Person oder Objekt, über welches man Aussagen gewinnen möchte (z.B. ein Lehrer) Merkmal: zu erhebende Variable (z.B. Unterrichtsstil) Merkmalsausprägung: Wert der zu erhebenden Variable (z.B. Frontalunterricht) Unterschied zwischen Grundgesamtheit und Stichprobe anhand eines selbstgewählten Beispiels Grundgesamtheit: umfasst alle Merkmalsträger (Gesamtheit aller Individuen, die für stat. Untersuchung relevant sind) Stichprobe: umfasst Merkmalsträger, die in Studie berücksichtigt wurden ➔ Benötigt repräsentative Zusammenstellung aller Merkmalsträger ➔ Mit zunehmender Stichprobengröße können präzisere Aussagen über Grundgesamtheit getroffen werden Beispiel: Lernaufwand deutscher Studierende ➔ Grundgesamtheit: alle Studenten in Deutschland ➔ Stichprobe: Studenten, die tatsächlich hinsichtlich Lernaufwandes untersucht werden Wie werden Stichproben differenziert? Zufallsstichprobe: geeignete Basis für statistische Analysen, um Rückschlüsse auf Allgemeinheit zu ziehen ➔ Einfache Zufallsstichprobe: jeder Merkmalsträger hat gleiche Chance, für Stichprobe ausgewählt zu werden ➔ Geschichtete Stichprobe: Grundgesamtheit in Teilpopulationen aufteilen, woraus Stichproben gezogen werden, Auswahl nach Zufallsprinzip ➔ Klumpenstichprobe: natürlich existierende Teilmengen der Grundgesamtheit werden nach Zufallsprinzip ausgewählt und untersucht Ad-hoc-Stichprobe: Merkmalsträger werden ausgewählt, die zum Zeitpunkt der Datenerhebung verfügbar sind Was sind Skalenniveaus und wie werden sie unterschieden? Skalenniveau: entscheidet über mögliche statistische Analysen ➔ Nominalskala: Ausprägung der Merkmale sind Namen oder Kategorien, wobei sich die Kategorien nicht in sinnvolle Reihenfolge bringen lassen (qualitative Merkmale) ➔ Ordinalskala: Kategorien lassen sich in sinnvolle Reihenfolge bringen (qualitative Merkmale) ➔ Kardinalskala: Ausprägungen sind Zahlen, Abstände zueinander sind ebenfalls Skalen und lassen sich mathematisch sinnvoll interpretieren (quantitative Merkmale) o Verhältnisskala: weist natürlichen Nullpunkt auf o Intervallskala: weist keinen natürlichen Nullpunkt auf o Diskret: Merkmal hat nur wenige verschiedene Ausprägungen o Stetig: Merkmal hat sehr viele verschiedene Ausprägungen Welches Skalenniveau weisen folgende Merkmale auf? Geschlecht Nominalskala Gewicht Kardinalskala (Verhältnisskala) Postleitzahl Nominalskala Lieblingsfarbe Nominalskala Schulnote Ordinalskala Wohnfläche Kardinalskala (Verhältnisskala) Nationalität Nominalskala Temperatur Kardinalskala (Intervallskala) Arbeitsamtbezirk mit Nominalskala Anfangsgehalt von Kardinalskala (Verhältnisskala) höchster Arbeitslosenquote Absolventen der WiWi Fachbereich wissensch. Nominalskala Gemessene Zeit beim Sprint Kardinalskala (Verhältnisskala) Hochschulen Studiendauer Kardinalskala (Verhältnisskala) Sind die folgenden Merkmale diskret oder stetig? Geschwindigkeit Stetig Hörerzahl einer Vorlesung Diskret Zeit für Beschleunigung Stetig Anzahl Bücher Diskret Stromverbrauch Stetig Anzahl Mitarbeiter Diskret Was ist unter natürlichem Nullpunkt zu verstehen? Zahl Null hat in jeder erdenklichen Einheit die gleiche Bedeutung Beispiel: Körpergröße in mm, cm oder m Schritte statistischer Untersuchungen? Warum ist Datenaufbereitung der wichtigste Schritt? 1. Datensammlung 2. Datenaufbereitung (wichtig, weil Grundlage für Möglichkeit für saubere Auswertung gelegt wird) 3. Datenauswertung Was ist Primär- und Sekundärerhebung? Primärerhebung: Sammlung der Daten durch Befragungen oder Experimenten Sekundärerhebung: Rückgriff auf bereits vorhandene Daten Unterschied deskriptive Statistik und Inferenzstatistik und explorative Statistik Deskriptive Statistik: Beschreibung der gesammelten Daten (Daten komprimiert zusammenfassen) Inferenzstatistik: Überprüfen der deskriptiven Ergebnisse auf die Allgemeinheit Explorative Statistik: erkundet neue und noch wenig erforschte Bereiche Warum sind Daten im Paneldesign informativer als Daten im Querschnittsdesign? Querschnittsdesign: Daten werden innerhalb eines kurzen Zeitraums erhoben Längsschnittdesign: Erfassung gleicher Daten zu mehreren aufeinanderfolgenden Zeitpunkten ➔ Paneldesign: bringt Ergebnisse mit meisten Informationen (regelmäßige Erhebung der Daten gleicher Merkmalsträger) ➔ Trenddesign: Untersuchung der Fragestellung in regelmäßigen Abständen unterschiedlicher Merkmalsträger Vor- und Nachteile Paneldesign: Vorteile: Intraindividuelle Veränderungen beobachtbar Höchster Informationsgehalt Nachteile: Paneleffekte / Lerneffekte (gleiche Antworten) Panelmortalitäten (Ausscheiden aus der Befragung) Statistik – Auswertungsmethoden eindimensionaler Daten (2) Auswertung eindimensionaler Daten: Univariante Analyse (eindimensionale Analyse): Untersuchung eines Merkmals Bivariante Analyse: Untersuchung des Zusammenhangs zwischen zwei Merkmalen Was ist eine Urliste / Rohdaten? beinhaltet die gesammelten Daten eines Merkmals (Ausgangsdaten) x1 (Merkmalsausprägung erste Person), x2 (Merkmalsausprägung zweite Person), xn (Ausprägung der n-ten Person) ➔ n=Gesamtanzahl der Personen bzw. Stichprobenumfang Darstellungsmöglichkeiten: Tabellarische Darstellung: Häufigkeitstabelle: komprimierte Zusammenfassung der gesammelten Daten eines Merkmals Absolute / relative / kumulierte Häufigkeiten: Absolute Häufigkeiten: zählen Vorkommen einzelner Merkmalsausprägungen ab (z.B. 20 Personen sind weiblich) Relative Häufigkeiten: absolute Häufigkeiten werden in Bezug zur Gesamtanzahl an Merkmalsträgern in Stichprobe gesetzt, geben die Anteile der einzelnen Merkmalsausprägungen wieder (z.B. 20 von 50 Personen (0,4 – 40%) sind weiblich) Kumulierte Häufigkeit (ab Ordinalskala): fassen relative Häufigkeiten benachbarter Ausprägungen Schritt für Schritt zusammen Grafische Darstellung: Darstellung der relativen und kumulierten Häufigkeiten Keine Darstellung der absoluten Häufigkeiten, da sich aus relativen Häufigkeiten die Verhältnisse besser ablesen lassen Nominalskaliertes Merkmal: Kreisdiagramm: zeigt Häufigkeitsverteilung eines Merkmals an (relative Häufigkeit * 360 = Winkel) Balkendiagramm: auf x-Achse wird Merkmalsausprägung und auf y-Achse die relative Häufigkeit abgetragen Paretodiagramm: ordnet Merkmalsausprägung nach Größe ihres Vorkommens ➔ Spezialform des Balkendiagramms, ordnet Balken nach Höhe der relativen Häufigkeiten an Ordinalskaliertes Merkmal: Kreisdiagramm Balkendiagramm Verzicht auf Paretodiagramm, da sinnvolle Reihenfolge in Merkmalsausprägungen nicht verändert werden sollte Kardinalskaliertes diskretes Merkmal: Balkendiagramm Verzicht auf Kreisdiagramm, wenn es sich bei Ausprägungen um Zahlen handelt Kardinalskaliertes stetiges Merkmal: Histogramm (empirische Dichtefunktion): wird nur für stetige Merkmale gezeichnet ➔ Grund: Klassenbildung, durch Histogramm können Klassen miteinander verglichen werden (sind unterschiedlich breit) ➔ x-Achse: Klassengrenzen, y-Achse: Dichten (relative Häufigkeiten / Klassenbreite) Berechnung von Dichten aus stetiger Häufigkeitstabelle: Dichte = relative Häufigkeit / Klassenbreite Klassenbreite = Obergrenze minus Untergrenze der Klasse (z.B. 3-0 oder 6-3) Modus: ist hierbei die Klasse mit der größten Dichte Mittelwert: normal berechnen, Hinweis: Mitte der Klasse (z.B. Klasse 0, 3 = Mitte 1,5) Warum werden bei nominalskalierten Merkmalen keine kumulierten Häufigkeiten bestimmt, während es bei ordinalskalierten Merkmalen der Fall ist? Nominalskalierte Variablen lassen sich in keine sinnvolle Reihenfolge bringen, bei ordinalskalierten Variablen möglich Dadurch lassen sich Häufigkeiten benachbarter Ausprägungen zusammenfassen Warum werden bei Histogramm Dichten und nicht relative Häufigkeiten abgebildet? Wie werden Dichten berechnet? Histogramme werden für stetige Merkmale genutzt, Merkmalsausprägungen werden hier in Klassen eingeteilt Klassen können unterschiedlich breit sein, weswegen die relativen Häufigkeiten unter Umständen nicht angemessen abgebildet werden können ➔ Bildung von Dichten, indem relative Häufigkeiten durch die Klassenbreite (Obergrenze-Untergrenze) geteilt werden Häufigkeitstabelle: Absolute Häufigkeit: wie oft einzelne Merkmalsausprägungen vorkommen Relative Häufigkeit: absolute Häufigkeit / Gesamtanzahl Kumulierte Häufigkeit: Beginn mit der kleinsten Ausprägung + Aufsummieren mit relativer Häufigkeit Lageparameter und ihre Einsatzmöglichkeiten Modus Quantile Mittelwert Nominal Ja - - Ordinal Ja (ja) - Kardinal (diskret/stetig) Ja Ja Ja Ermittlung der Lagemaße. Modus (xmod): Merkmalsausprägung eines Merkmals, die am häufigsten in der Stichprobe vorkommt ➔ Bei stetigen Merkmalen muss Modus anhand der Dichten bestimmt werden (Klasse mit größter Dichte = Modus) Quantil (xp): Merkmalsausprägung, die von bestimmten Anteil an Merkmalsträgern nicht überschritten wird (beliebig) ➔ Median: wichtigstes Quartil, bildet Zentrum des geordneten Datensatzes (wenn kumulierte Häufigkeit das erste Mal 0,5 überschreitet) ➔ Unterstes Quartil: Ausprägung, die von 25% der Merkmalsträger nicht überschritten wird (s. kumulierte Häufigkeit, wobei 0,25 das erste Mal überschritten wird) ➔ Oberstes Quartil: Ausprägung, die von 75% der Merkmalsträger nicht überschritten wird (s. kumulierte Häufigkeit, wobei 0,75 das erste Mal überschritten wird) Mittelwert: fasst alle Daten eines Merkmals zu einem Wert zusammen, nur für Kardinalskala möglich Mittelwert oder Median besser geeignet, die Lage eines Merkmals zu beschreiben? Abhängig vom Datensatz Median konzentriert sich auf Mitte des Datensatzes (grundsätzlich robust) Mittelwert berücksichtigt beim Aufsummieren alle Altersangaben (sehr ausreißerempfindlich) ➔ Mittelwert nur dann gut geeignet, wenn Datensatz nicht von extremen Ausreißern betroffen ist Symmetrische Verteilung: Mittelwert und Median sind ungefähr gleich groß Rechtsschiefe Verteilung: Mittelwert ist größer als der Median Linksschiefe Verteilung: Mittelwert ist kleiner als der Median Einteilung Symmetrie / Asymmetrie ist nur für kardinalskalierte Merkmale möglich. Streuungsmaße: Spannweite (R): zeigt den Abstand von der kleinsten zur größten Ausprägung (größte Ausprägung – kleinste Ausprägung) ➔ Nachteil: von extremen Beobachtungen beeinflussbar, weswegen Sachverhalt der Streuung nicht angemessen widergespiegelt wird Interquartislabstand (IQR): zeigt Abstand der zentralen 50% an Merkmalsträgern Beispiel: Datensatz: 2, 3, 3, 3, 4, 5, 6, 7, 7, 7, 8 N*P (11*0,25 = 2,75 -> 3. Stelle, x0,25=3 11*0,75 = 8,25 -> 9. Stelle, x0,75 = 7 IQR = 7-3 = 4) ➔ Abstand vom unterem zum oberen Quartil Stichprobenvarianz: erforderlich, um Standardabweichung zu erhalten Standardabweichung (s): gibt durchschnittliche Abweichung vom Mittelwert an (Wurzel aus Stichprobenvarianz) ➔ Bei Verdopplung der Werte verdoppelt sich Spannweite, Interquartilsabstand und Standardabweichung Warum ist der Interquartilsabstand als Maßzahl für die Streuung besser geeignet als die Spannweite? Im Falle von vorhandenen Ausreißern besser geeignet Konzentriert sich auf Variation bei zentralen 50% an Beobachtungen und vernachlässigt etwaige Ausreißer Beispiel: Analyse des Alters von 5 Personen (18, 20, 23, 25, 40): Median: 23 (Mitte des sortierten Datensatzes, besser wenn Ausreißer vorhanden) Modus: häufigste Ausprägung 18+20+23+25+40 Mittelwert: = 25,2 Jahre (Durchschnitt bilden) 5 Stichprobenvarianz und Standardabweichung: 18+20+23+25+40 1) Durchschnitt errechnen: = 25,2 Jahre (Durchschnittsalter) 𝟓 𝟏𝟖^𝟐+𝟐𝟎^𝟐+𝟐𝟑^𝟐+𝟐𝟓^𝟐+𝟒𝟎^𝟐 2) 𝑥2 = = 695,6 (Mittelwert der quadrierten Altersangaben) 𝟓 𝑛 𝟓 3) Stichprobenvarianz = ∗ (𝑥 2 − 𝑥 −2 ) = ∗ (𝟔𝟗𝟓, 𝟔-25,2^2)=75,7 n… Stichprobenumfang (5 Personen) 𝑛−1 𝟓−1 4) Standardabweichung = √𝟕𝟓, 𝟕 = 8,70 Statistik – Auswertungsmethoden zweidimensionaler Daten (3) Korrigierter Kontingenzkoeffizient zweier nominalskalierter Merkmale: Quantifiziert Zusammenhang zwischen zwei Merkmalen, von denen mindestens eins nominalskaliert ist 1. Berechnung der erwarteten Häufigkeiten 2. Berechnung der Abstände zwischen den absoluten und erwarteten Häufigkeiten 3. Berechnung des Kontingenzkoeffizienten (K) 4. Berechnung des korrigierten Kontingenzkoeffizienten Aussage, wenn Chi = 0 Absolute Häufigkeit ist identisch mit der erwarteten Häufigkeit ➔ Merkmale haben nichts miteinander zutun Je größer Chi, desto größer ist Abhängigkeit Beispiel Kontingenztabelle zweier nominalskalierter Merkmale – Berechnung korrigierter Kontingenzkoeffizient: A/B Raucher (B1) Nichtraucher (B2) (gesamt) w (A1) 7 27 34 m (A2) 6 8 14 Randhäufigkeiten 13 35 48 1. Berechnung erwarteter Häufigkeiten A/B Raucher (B1) Nichtraucher (B2) (gesamt) w (A1) 7 (13*34 / 48 = 9,208) 27 (34*35 / 48 = 24,792) 34 m (A2) 6 (13*14 / 48 = 3,792) 8 (14*35 / 48 = 10,208) 14 13 35 48 2. Berechnung von x2 (Chi Quadrat) Absolute Häufigkeit – erwartete Häufigkeit / erwartete Häufigkeit (7 − 9,208)2 (27 − 24,792)2 (6 − 3,792)2 (8 − 10,208)2 𝑥2 = + + + 9,208 24,792 3,792 10,208 𝑥 2 = 0,529 + 0,197 + 1,286 + 0,478 𝑥 2 = 2,49 3. Berechnung des Kontingenzkoeffizienten K: 2,49 𝐾=√ = 0,222 2,49 = Chi Quadrat 48 = Gesamtanzahl der Personen 2,49+48 4. Berechnung des korrigierten Kontingenzkoeffizienten 𝑘 ∗ : 𝑀 = min{2, 2} = 2 2 = Anzahl der Spalten 2 = Anzahl der Zeilen 2−1 𝐾𝑚𝑎𝑥 = √ = 0,707 2 0,222 𝐾∗ = = 0,314 √0,707 Interpretation: es besteht ein schwacher Zusammenhang zwischen Geschlecht und Rauchverhalten Interpretation des korrigierten Kontingenzkoeffizienten: Werte, die K* annehmen kann, liegen zwischen 0 und 1 0=deskriptive Unabhängigkeit (kein Zusammenhang zwischen den Werten) 0

Statistik - Einführung (PDF)

Document Details

Tags

Related

Summary

Full Transcript