Vorlesung Statistik - Kapitel 2 PDF
Document Details
Uploaded by Deleted User
Dr. Evdokiia Slepukhina, Prof. Dr. Karin Melzer, Prof. Dr. Peter Plappert
Tags
Summary
Dieses Dokument ist eine Vorlesung zum Thema Statistik, genauer zum Kapitel 2: Datengewinnung. Es behandelt verschiedene Aspekte der Planungsphase, Datenerhebung und Datenbereinigung.
Full Transcript
Vorlesung Statistik Kapitel 2: Datengewinnung Abschnitt 2.1: Planungsphase Abschnitt 2.2: Datenerhebung Abschnitt 2.3: Datenbereinigung...
Vorlesung Statistik Kapitel 2: Datengewinnung Abschnitt 2.1: Planungsphase Abschnitt 2.2: Datenerhebung Abschnitt 2.3: Datenbereinigung Dr. Evdokiia Slepukhina Prof. Dr. Karin Melzer Prof. Dr. Peter Plappert Statistik Kapitel 2 Seite 1/16 2 Datengewinnung: Überblick Statistik Kapitel 2 Seite 2/16 2.1 Planungsphase einer statistischen Untersuchung 2.1 Planungsphase einer statistischen Untersuchung a) Festlegung des Untersuchungsziels b) Festlegung der Grundgesamtheit und der statistischen Einheiten c) Festlegung der zu erhebenden Merkmale d) Festlegung von Art und Methode der Erhebung zu a) Festlegung des Untersuchungsziels Fragestellung formulieren! Beispiel? Statistik Kapitel 2 Seite 3/16 2.1 Planungsphase einer statistischen Untersuchung zu b) Festlegung der Grundgesamtheit und der statistischen Einheiten Die zu untersuchende Grundgesamtheit muss präzise abgegrenzt werden in » räumlicher » zeitlicher » sachlicher Hinsicht, d. h. es muss definiert werden, welche statistischen Einheiten (man sagt auch: „Merkmalsträger“ oder „Objekte“) dazugehören und welche nicht. Statistik Kapitel 2 Seite 4/16 2.1 Planungsphase einer statistischen Untersuchung zu c) Festlegung der zu erhebenden Merkmale Arten von Merkmalen und ihre möglichen Ausprägungen: Statistik Kapitel 2 Seite 5/16 2.1 Planungsphase einer statistischen Untersuchung zu c) Merkmale Quantitative Merkmale (metrische Merkmale, kardinale Merkmale) o Die Merkmalsausprägungen sind Zahlen aus Messungen oder Zählungen o Differenz zwischen zwei Ausprägungen hat eine Bedeutung, z. B. ein Werkstück ist um 0,3 mm länger als ein anderes ► Quantitativ-stetige Merkmale o Mögliche Ausprägungen sind alle Werte in einem Intervall o Treten vorzugsweise bei Messungen auf o Bsp: Gewicht, Länge, Temperatur, Geldbeträge in EUR (!) ► Quantitativ-diskrete Merkmale o Mögliche Werte: nur einzelne Punkte auf dem Zahlenstrahl o Treten vorzugsweise bei Zählungen auf o Als Ausprägungen sind dann nur 0, 1, 2,... möglich. o Bsp: Anzahl der Defektstücke einer Lieferung, Tore pro Spiel Statistik Kapitel 2 Seite 6/16 2.1 Planungsphase einer statistischen Untersuchung zu c) Merkmale Qualitative Merkmale o Beschreibende Eigenschaften, die sich nicht durch Messen oder Zählen ermitteln lassen o Können gelegentlich mit Hilfe von Zahlen codiert sein, dann haben aber die Differenzen der Codes keine Bedeutung (mit diesen Zahlen kann man aber nicht rechnen). o Bsp: bei Verschlüsselung 3 = „gelb“, 6 = „grün“ ergibt es keinen Sinn zu sagen, Farbe „grün“ sei doppelt so groß wie Farbe „gelb“. ► Qualitativ-ordinale Merkmale (Rangmerkmale) o Die Ausprägungen stehen in einer natürlichen Rangfolge o Bsp: Merkmal „Interesse an einer Veranstaltung“ mit Ausprägungen „sehr groß“ / „groß“ / „mittel“ / „gering“ / „sehr gering“. ► Qualitativ-nominale Merkmale (beschreibende Merkmale) o Die Ausprägungen lassen sich nicht in eine Rangfolge bringen o Bsp: Merkmale Religionszugehörigkeit, Farbe, gewählte Partei, … Statistik Kapitel 2 Seite 7/16 2.1 Planungsphase einer statistischen Untersuchung zu d) Festlegung von Art und Methode der Erhebung Arten von Erhebungen: Totalerhebung (auch: „Vollerhebung“) ► Untersuchung der Grundgesamtheit Teilerhebung (Stichprobe) ► Untersuchung einer Stichprobe Statistik Kapitel 2 Seite 8/16 2.1 Planungsphase einer statistischen Untersuchung zu d) Festlegung von Art und Methode der Erhebung Aufgabe: Wann ist eine Teilerhebung sinnvoller als eine Vollerhebung? Nennen Sie mindestens drei Gründe. Statistik Kapitel 2 Seite 9/16 2.1 Planungsphase einer statistischen Untersuchung zu d) Festlegung von Art und Methode der Erhebung Aufgabe: Wann ist eine Teilerhebung sinnvoller als eine Vollerhebung? Nennen Sie mindestens drei Gründe. Lösungsvorschlag: Eine Teilerhebung ist sinnvoller als eine Vollerhebung, ► wenn bei einer Vollerhebung der Aufwand (Zeitaufwand, Kostenaufwand) zu groß ist, ► wenn nicht alle statistischen Einheiten für eine Vollerhebung erreichbar sind, ► bei zerstörenden Prüfungen (Untersuchung auf Haltbarkeit, Geschmacksprüfungen), ► wenn eine Vollerhebung nicht genauer ist als eine Teilerhebung (z.B. Prognose über Kaufverhalten in 2 Jahren). Statistik Kapitel 2 Seite 10/16 2.1 Planungsphase einer statistischen Untersuchung zu d) Festlegung von Art und Methode der Erhebung Einige Methoden zur Gewinnung von Stichproben (I) ► (reine) Zufallsstichprobe ► Systematische Auswahl: objektives Kriterium, z. B. jeder 100. Artikel ► Schichtenstichprobe: » Einteilung der Grundgesamtheit in Schichten » Schichten sollten bezüglich des Untersuchungsmerkmals möglichst » homogen (einheitlich) sein. » Anschließend wird aus jeder Schicht eine bestimmte Anzahl von Stichprobenstücken gezogen. » Der Anteil der in die Stichprobe aufgenommenen Objekte kann von Schicht zu Schicht unterschiedlich sein. Statistik Kapitel 2 Seite 11/16 2.1 Planungsphase einer statistischen Untersuchung zu d) Festlegung von Art und Methode der Erhebung Einige Methoden zur Gewinnung von Stichproben (II) ► Klumpenstichprobe: » Die Grundgesamtheit lässt sich in Gruppen („Klumpen“) zerlegen » Die Klumpen sind möglichst ähnlich wie Grundgesamtheit zusammengesetzt. » Oft sind Klumpen geographisch definiert. Z. B. Kreise, Stadtbezirke, Planquadrate,... » Innerhalb dieser Klumpen wird dann entweder eine Vollerhebung oder eine Stichprobe durchgeführt. ► Quotenverfahren: Durch Vorgabe von Quoten wird sichergestellt, dass die Stichprobe » bei bestimmten Merkmalen (wie z. B. Frau/Mann, Alter, Berufsgruppe,...) » die gleichen Anteile wie die Grundgesamtheit enthält. Repräsentative Stichprobe Statistik Kapitel 2 Seite 12/16 2.2 Durchführung der Datenerhebung ► Eine Erhebung wird technisch durchgeführt. Z. B. durch I Befragung (Fragebogen, Internet,...), I Beobachtung oder I Experiment. ► Daten werden selber erhoben I „Primär-Erhebung“ ► Die Nutzung von bereits vorhandenem (evtl. früher für andere Zwecke erhobenem) Datenmaterial I „Sekundär-Erhebung“ Statistik Kapitel 2 Seite 13/16 2.3 Datenbereinigung Behandlung von Ausreißern und fehlenden Werten „Ausreißer“ (engl: outlier) »... Extremwert innerhalb einer Stichprobe, der so extrem ist, dass die Person, die die Stichprobe prüft, glaubt, dass er nicht stimmen kann. »... Daten, die offenbar viel zu groß oder viel zu klein sind. http://davidmlane.com/ben/cartoons.html Statistik Kapitel 2 Seite 14/16 2.3. Datenbereinigung: Behandlung von Ausreißern und Fehlern Vorgehen zur Behandlung von Ausreißern 1) Ausreißer identifizieren; 2) überprüfen, ggf. berichtigen; 3) wenn die Ausreißer nicht berichtigt werden können, a) Datensatz streichen oder b) fehlerhafte Daten abändern (z. B. Ersetzen durch den Mittelwert der nicht fraglichen Daten) oder c) Datensatz unverändert beibehalten. Die Möglichkeiten 3b) und 3c) sollten nur mit größter Zurückhaltung angewendet werden. Im Zweifelsfall 3a)! Genauso behandelt man andere unmögliche oder unplausible Werte. Behandlung von Fehlern: wie Ausreißer aber ohne 3c) Statistik Kapitel 2 Seite 15/16 2. Datengewinnung: Wichtiger Hinweis! ► Es ist wichtig, dass alle Phasen der Datengewinnung mit größter Sorgfalt durchgeführt werden. ► Im schlimmsten Fall können sonst die gewonnenen Daten nutzlos sein. „Garbage in – garbage out!“ Statistik Kapitel 2 Seite 16/16