Data Science – Datenauswertung #2 PDF
Document Details
FAU
Jonas Dovern
Tags
Summary
This document is a presentation on data science, data evaluation. The document discusses data, characteristics, measurement scales, and frequencies. It also defines statistical variables, explains different types of data, and the concepts of population and sampling.
Full Transcript
Data Science – Datenauswertung #2 Daten / Merkmale / Messskalen / Häufigkeiten Prof. Dr. Jonas Dovern Welche Art von Daten gibt es? Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 2 Lernziele Sie können erklären, was ein Merkmal und was eine statistische Vari...
Data Science – Datenauswertung #2 Daten / Merkmale / Messskalen / Häufigkeiten Prof. Dr. Jonas Dovern Welche Art von Daten gibt es? Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 2 Lernziele Sie können erklären, was ein Merkmal und was eine statistische Variable ist Sie können für Beispiele erläutern, welche Variable untersucht wird und was der Wertebereich ist Sie können erkennen, auf welcher Art von Messskala ein gegebenes Merkmal abgebildet ist, und die verschiedenen Messskalen nennen und erklären Sie können erklären, was Häufigkeiten sind, und Häufigkeiten für gegebene Datensätze berechnen Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 3 Merkmale Wir bezeichnen die Zuordnung von Eigenschaften zu Untersuchungs- einheiten (auch: statistische Einheiten oder Merkmalsträger) als Merkmale Merkmale können verschiedene Merkmalsausprägungen annehmen: Geschlecht: weiblich, männlich, divers Augenzahl beim Würfeln: 1, 2, … , 6 Merkmal, z.B. 𝐴, ordnet jeder Untersuchungseinheit, 𝑒, eine Merkmals- ausprägung zu: 𝐴 𝑒 = 𝑎 Merkmale können dabei sowohl numerische als auch nicht- numerische Zuordnungen darstellen Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 4 Merkmale Oft werden sogenannte häufbare Merkmale ausgeschlossen, d.h. an einer Untersuchungseinheit kann genau eine Merkmalsausprägung erhoben werden Unvollständige Merkmale werden fast immer ausgeschlossen, d.h. für jede Untersuchungseinheit muss eine Merkmalsausprägung erhoben werden (gängige Lösung: Kategorie „sonstige“) Beispiel: Studienfach Liste mit Merkmalsausprägungen enthält alle Fächer, die man in Deutschland im Bachelor irgendwo studieren kann: Fall 1 – Studierende mit zwei Hauptfächern: neue Ausprägung „X und Y“ muss gebildet werden. Fall 2 – Studierende aus dem Ausland mit Fächern, die es in Deutschland nicht gibt: Ausprägung „sonstige Fächer“ könnte gebildet werden. Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 5 Statistische Variablen Im Fall von numerischen Zuordnungen sprechen wir eher von (statistischen) Variablen, die wir auch mit Großbuchstaben notieren (z.B. mit 𝑋) Hier wird jedem Element einer Erhebungsgesamtheit, 𝐸, eine reelle Zahl zugeordnet: 𝑋: 𝐸 → ℝ Die Menge {𝑋 𝑒 |𝑒 ∈ 𝐸} heißt Wertebereich von 𝑋 Werte, die sinnvoll als mögliche Ergebnisse in Frage kommen, sind die Realisationsmöglichkeiten oder auch Merkmalsausprägungen (deren Menge stets den Wertebereich umfasst) Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 6 Grundgesamtheit vs. Erhebungsgesamtheit Das Lehrbuch ist hier bei der Terminologie etwas nachlässig Oft wird nicht die Grundgesamtheit untersucht, so dass die Erhebungsgesamtheit nicht alle potentiellen Untersuchungseinheiten umfasst: Ausgewählte Teilmenge aller potentieller Untersuchungseinheiten Wir werden später von Stichproben sprechen Korrespondierende Unterscheidung: Alle möglichen Merkmalsausprägungen Bei Erhebungsgesamtheit beobachtete Merkmalswerte/Wertebereich Wir werden die Unterscheidung erst im Modul „Data Science – Statistik“ machen Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 7 Statistische Variablen Beispiel: Produkteigenschaft Für ein Marktforschungsgutachten sollen Eigenschaften verschiedener Markenprodukte untersucht werden. Insbesondere von Interesse sind die drei Merkmale „Packungsgewicht“, „Preis“ und „Hauptverpackungsfarbe“. Die Farben werden dabei auf Basis des folgenden Systems als numerische Werte codiert: blau – 1, rot – 2, gelb – 3, und sonstige Farbe – 4. Es ergeben sich also folgende Realisationsmöglichkeiten: Packungsgewicht: 1 g, 2 g, …, 1000 g, … Preis: 1 Cent, 2 Cent, … Farbe: 1, 2, 3, 4 Bei Kenntnis des genauen Marktes könnten die beiden ersten Realisationsmöglichkeiten sicherlich noch eingegrenzt werden. Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 8 Was ist eine Grundgesamtheit Oft unklar, was die Grundgesamtheit ist Abgrenzung hängt stark mit der untersuchten Fragestellung zusammen Beispiel: Studierendenpopulation Ein Kurs? FAU? Deutschland? Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 9 Klassifikation statistischer Variablen Diskrete Variablen: Endlich viele oder abzählbar unendlich viele unterschiedliche Werte möglich Stetige Variablen: Wertebereich umfasst alle Werte eines (u.U. unendlichen) Intervalls Unterscheidung in der Praxis bisweilen willkürlich (vom Statistiker gewählt): Wie genau wird Körpergröße/Packungsgewicht/Geschwindigkeit gemessen? Alternative Klassifikation nach sinnvollen Relationen zwischen Realisationsmöglichkeiten: Abhängig von Messskalen Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 10 Kardinalskalen / metrische Skalen Absolutskala: Keine Dimensionseinheit (bzw. natürliche Einheit „Stück“), fester Nullpunkt Beispiele: Semesteranzahl, normierte Daten Zulässige Transformationen: 𝑇 𝑥 = 𝑥 Verhältnisskala: Dimensionseinheit, fester Nullpunkt Beispiele: Gewicht, Größe, monetäre Größen Zulässige Transformationen: 𝑇 𝑥 = 𝑎𝑥 Intervallskala Dimensionseinheit, kein fester Nullpunkt Beispiele: Temperatur (°C/°F), Kalender Zulässige Transformationen: 𝑇 𝑥 = 𝑏 + 𝑎𝑥 Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 12 Kardinalskalen / metrische Skalen Beispiel: Temperaturumrechnung 25°C sind 9/5 ∙ 25 + 32 = 77°𝐹. Es können sinnvolle Aussagen über Messintervalle/ -Differenzen getätigt werden. Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 13 Ordinalskala (für geordnet kategoriale Merkmale) Untersuchungseinheiten können sinnvoll in Bezug auf ein kategoriales Merkmal geordnet werden Messwerte können Zahlen, aber prinzipiell auch sprachliche Begriffe sein Beispiele: Noten, Ratings, Online-Bewertungen Zulässige Transformationen erhalten die Ordnung: 𝑔 𝑥 ist streng monoton zunehmend und stetig über den Wertebereich Keine sinnvollen Aussagen über Differenzen oder Verhältnisse möglich Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 14 Ordinalskala (für geordnet kategoriale Merkmale) Beispiel: Ratings Standard and Poor‘s vergibt Anleihenratings von der Bestnote AAA bis hin zur schlechtesten Note D. Eine Anleihe mit dem Rating AA weist eine höhere Bonität auf als eine Anleihe mit dem Rating BB-. Aber man kann nicht sagen, dass die Bonität x-fach so gut ist. Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 15 Nominalskala (für ungeordnet kategoriale Merkmale) Es wird nur angegeben, ob zwei Messwerte gleich sind Eine Rangfolge (oder noch weitergehende Vergleiche) kann nicht festgestellt werden Wenig Informationsgehalt Zulässige Transformationen bewirken lediglich Umcodierung und müssen Gleichheit bzw. Ungleichheit erhalten Beispiel: Umcodierung von Nominalskala Wir können die Ausprägung des Merkmals „Sektor“ folgendermaßen codieren: {Industrie, Dienstleistungen, Landwirtschaft} {1, 2, 3} oder auch {2, 3, 1} {I, D, L} Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 16 Hierarchie von Skalen und Merkmalen Merkmalswerte sind Messwerte auf einer Skala Je kleiner die Menge der zulässigen Skalentransformationen desto höher das Skalenniveau Hierarchie der Skalen… Absolutskala → Verhältnisskala → Intervallskala → Ordinalskala → Nominalskala …überträgt sich auf die Merkmale… quantitativ/metrisch (verschiedene Abstufungen) → geordnet kategorial → ungeordnet kategorial Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 19 Hierarchie von Skalen und Merkmalen Woran erkennt man das Skalenniveau? Axiome der Messtheorie Pragmatischer Ansatz mit Überprüfung, ob es (wählbare) Dimensionseinheit, festen Nullpunkt und Rangordnung gibt Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 20 Hierarchie von Skalen und Merkmalen Daten Meist Meist Meist stetig diskret diskret Nominalskala Ordinalskala Kardinalskalen Keine Rangfolge Rangfolge Intervallskala Beispiele: Differenzen nicht aussagekräftig (kein natürlicher Nullpunkt) Geschlecht Beispiele: Studienfach Klausurnoten Verhältnisskala Produktname Kreditratings (natürlicher Nullpunkt) Telefonnummer Einkommensklasse Präferenzrankings Absolutskala (natürlicher Nullpunkt) Rangfolge Differenzen sind aussagekräftig Beispiele: Temperatur (in °F/°C) Preis (in Euro), Temperatur (in °K) Semesteranzahl Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 21 Erkennen von Skalenniveaus Beispiel: Eine Geschichte voller Merkmale Lesen Sie bitte den folgenden Text: Eine Bank möchte eine Bonitätseinschätzung (Prüfung der Kreditwürdigkeit) einer um einen Kredit nachfragenden Kundin vornehmen. Die Bank weiß: Die Kundin ist 30 Jahre alt, hat ein Girokonto bei der Bank und wohnt in Nürnberg-Maxfeld; die gewünschte Kredithöhe beträgt 10.000 Euro, und die Kundin hat bei einem fünfstufigen Bonitätsranking aufgrund einer Beobachtung der Bewegungen auf dem Girokonto den Rang „gut“. Wir wollen nun die erwähnten Merkmale bzw. Merkmalstypen diskutieren! Quelle: Hassler (2018). Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 22 Urliste / Datenmatrix Als Urliste bezeichnen wir eine Aufzeichnung der an allen Untersuchungseinheiten beobachteten Merkmalsausprägungen: Tabellen mit allen Beobachtungen Weitgehend unsortiert 𝑛 ist die Anzahl der Beobachtungswerte (später auch Stichprobenumfang genannt) Variablen 𝑋1 𝑋𝟐 … 𝑋𝐣 … 𝑋𝐤 Untersuchungseinheiten 𝑒1 𝑥11 𝑥12 … 𝑥1𝑗 𝑥1𝑘 𝑒2 𝑥21 𝑥22 𝑥2𝑗 𝑥2𝑘 𝑒3 𝑥31 𝑥32 𝑥3𝑗 𝑥3𝑘 … … … … 𝑒𝑛 𝑥𝑛1 𝑥𝑛2 … 𝑥𝑛𝑗 𝑥𝑛𝑘 Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 23 Urliste / Datenmatrix Beispiel: Kundendaten Oft werden Urlisten nach einem Merkmal geordnet Geordneter Datensatz mit 𝑥 1𝑘∗ ≤ 𝑥 2𝑘∗ ≤ 𝑥 3𝑘 ∗ ≤ ⋯ ≤ 𝑥 𝑛𝑘 ∗ Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 24 Urliste / Datenmatrix Beispiel: Rohdaten aus der Kursumfrage Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 25 Urliste / Datenmatrix Beispiel: Sporttabellen Quelle: Kicker. Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 26 Häufigkeiten Oft nicht praktikabel (und nicht informativ!) alle Beobachtungswerte zu zeigen: Insbesondere bei sehr großen Datensätzen Beispiel: Wochentag von tödlichen Autounfällen in Australien Quelle: Kaggle. Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 27 Häufigkeiten Oft nicht praktikabel (und nicht informativ!) alle Beobachtungswerte zu zeigen: Insbesondere bei sehr großen Datensätzen Lösung: Anschauen, wie oft eine bestimmte Merkmalsausprägung beobachtet wurde Für welche Art von Daten praktikabel/sinnvoll? Beispiel: Wochentag von tödlichen Autounfällen in Australien Quelle: Kaggle. Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 28 Häufigkeiten Wir bezeichnen die Anzahl des Vorkommens einer Merkmalsausprägung 𝑥𝑗 in einem Datensatz als absolute Häufigkeit Als Notation verwenden wir 𝑛(𝑋 = 𝑥𝑗 ) oder kurz: 𝑛𝑗 Die relative Häufigkeit setzt die Anzahl des Vorkommens einer Merkmalsausprägung ins Verhältnis zum Stichprobenumfang ℎ 𝑋 = 𝑥𝑗 = 𝑛 𝑋 = 𝑥𝑗 / 𝑛 oder kurz: ℎ𝑗 Es gilt per Definition: σ𝑘𝑖=1 𝑛𝑖 = 𝑛 und σ𝑘𝑖=1 ℎ𝑖 = 1 Zusammenfassung in Häufigkeitstabelle Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 29 Häufigkeiten Beispiel: Wochentag von tödlichen Autounfällen in Australien Nr. 𝒙𝒊 𝒏𝒊 𝒉𝒊 1 Montag 6.108 0,116 2 Dienstag 6.145 0,116 3 Mittwoch 6.663 0,126 4 Donnerstag 7.106 0,134 5 Freitag 8.665 0,164 6 Samstag 9.696 0,183 7 Sonntag 8.460 0,160 Quelle: Kaggle. Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 30 Häufigkeiten Beispiel: Nationalratswahl 2023 in der Schweiz Quelle: Watson.ch. Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 31 Zusammenfassung Unterschiedliche Typen von Daten: Kategorial vs. quantitativ/metrisch Stetig vs. diskret Merkmale ordnen Untersuchungseinheiten Eigenschaften zu: Merkmalsausprägungen Numerische Zuordnungen werden als Variablen bezeichnet Verschiedene Skalenniveaus auf denen Merkmalsausprägungen gemessen werden (Kardinal-, Ordinal-, und Nominalskalen) Aufbereitung von Datensätzen Urliste, geordnete Liste, Häufigkeitstabelle (nur f. diskrete Variablen sinnvoll) Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 33 Hausaufgaben Literatur: Abschnitte 1.1-1.3 und 2.1.2 in Schlittgen (2012) SZ-Artikel „Die Statistik erfindet sich neu“ [über StudOn verfügbar] Optionale Literatur - Aufgaben: Registrieren Sie sich (falls noch nicht geschehen) für einen Übungstermin Lesen Sie die für die nächste Vorlesung relevante Literatur Fangen Sie spätestens jetzt an, den R-Einführungskurs auf StudOn zu bearbeiten Installieren Sie R und RStudio auf Ihrem Computer Lehrstuhl für Statistik und Ökonometrie | Data Science - Datenauswertung 34