Analyse von technischen und wirtschaftlichen Daten PDF
Document Details
Uploaded by EnviableOlivine
Budapest University of Technology and Economics
Tags
Summary
This document provides an analysis of technical and economical data. It introduces key concepts like arithmetic mean, median, and empirical standard deviation. The document also discusses boxplots and empirical density functions.
Full Transcript
Analyse von technischen und wirtschaftlichen Daten 1. Erste Vorlesung In dieser Vorlesung werden die Begriffe arithmetisches Mittel, Median, und korrigierte empirische Standardabweichung erläutert. Der Boxplot und die daraus resultierenden Informationen, sowie die empirische Dichtefunktion werden v...
Analyse von technischen und wirtschaftlichen Daten 1. Erste Vorlesung In dieser Vorlesung werden die Begriffe arithmetisches Mittel, Median, und korrigierte empirische Standardabweichung erläutert. Der Boxplot und die daraus resultierenden Informationen, sowie die empirische Dichtefunktion werden vorgestellt. Beispiel 1: Es sollen die Studenten, die eine mindestens ausreichende Note in Mathematik A2 erhielten nach ihren Noten klassifiziert: Note Häufigkeit (νi) Relative Häufigkeit (νi/n) ξ5 5 20 20/500 = 0,04 ξ4 4 33 33/500 = 0,066 ξ3 3 150 150/500 = 0,3 ξ2 2 297 297/500 = 0,594 Die Tabelle zeigt, daß die Prüfung insgesamt n = 500 Studenten erfolgreich abgelegt haben, diese Zahl ist die Größe der Stichprobe. Die Note des i-ten Studenten wird mit ξ*i (i = 1, …, 500) bezeichnet. Das arithmetische Mittel der Noten wird mit der Formel. (1) berechnet. Es kann, wie folgt umgeschrieben werden:. (2) wo νj die Häufigkeit der Note j bezeichnet, ξj ist die j-te Note. Der Bruch νj/n an der rechten Seite der Gleichung heißt relative Häufigkeit der Note j. Die relative Häufigkeit ist also das Verhältnis der interessierenden Ausprägungen zu allen Ausprägungen. Es soll erwähnt werden, daß die Summe der relativen Häufigkeiten immer 1 gibt. Die rechte Seite von Gl. (2) heißt gewichteter Mittelewert der Probe. Die Beobachtungen in diesem Beispiel haben diskrete Ausprägungen (diskretes Merkmal), da die Noten nur endliche Zahlenwerte annehmen können (in Ungarn 5, 4, 3, 2, 1 in Deutschland 1; 1,3; 1,7; 2; 2,3; 2,7;…;4,7; 5). Stetige Werte würden z.B. die Körpergröße der Studenten (stetiges Merkmal) annehmen. 1.1. Boxplot Das arithmetische Mittel sagt über die Probe nicht viel aus. Um ausreichende Informationen zu gewinnen werden weitere Parameter benötig. Der erste solche Begriff ist der Median. Der Median ist jenes Element, das in der, der Größe nach geordneten Probe genau in der Mitte liegt, es sind gleichviel Elemente links und rechts von ihm. Die der Größe nach geordnete Probe soll mit der Zahlenfolge 1 , 2 ,..., n bezeichnet werden. Ist n eine ungerade Zahl, * * * n +1 ~ so ist der Index des mittleren Elementen m = , so ist der Median = n+1. Ist die 2 2 Stichprobengröße eine gerade Zahl, so gibt es kein mittleres Element, nur zwei -1- n n+2 Nachbarelemente mit den Indizes und , in diesem fall ist also der Median 2 2 n + n+ 2 ~ = 2 2. 2 Es kann auch untersucht werden, was über die Elemente links, bzw. rechts von dem Median gesagt werden kann. Es kann auch der Median dieser Teilmengen, durch den die geordnete Stichprobe „geviertelt“ werden kann berechnet werden. Sie werden als Quartile (Viertelanteile) bezeichnet. Das erste Quartil ist der Median der Teilmenge der Stichprobe links, das dritte Quartil ist der Median der Teilmenge rechts vom Median der gesamten ~ ~ Stichprobe. Sie werden jeweils mit 1 , bzw. 3 bezeichnet. Das 0-te und das vierte Quartil 4 4 können auch definiert werden, die sind das kleinste und das größte Element ( 1 , und n ) in der Stichprobe. Das k-Qartil ist also jenes Element in der geordneten Stichprobe von k k welchem der Elemente kleiner, 1 − größer sind. Das zweite Quartil is natürlich der 4 4 Median selbst. Der Boxplot der Stichprobe kann mittels der Quartile gezeichnet werden. Er ist im ersten Bild dargestellt. Beispiel für Boxplots: http://www.mythologic.hu/digitalcity/servlet/PublishedFileServlet/AAABGTCK/Hircsator na_2008_marcius_aprilis.pdf Bild 1 Boxplot Im Zusammenhang mit dem Boxplot werden weitere Begriffe vorgestellt. Der mittlere Bereich wird als Inter-Quartil-Region/range (IQR) bezeichnet. Es ist also ~ ~ IQR = 3 − 1. (3) 4 4 Ausreißer nach unten heißen die Ausprägungen ξi für die gilt: ~ i 1 − 1 ,5 IQR. (4) 4 -2- Extreme Ausreißer nach unten heißen die Ausprägungen ξi mit: ~ i 1 − 3 IQR.. (5) 4 Ausreißer nach oben heißen die Ausprägungen ξi für die gilt: ~ i 3 + 1 ,5 IQR. (6) 4 Extreme Ausreißer nach oben heißen die Ausprägungen ξi mit: ~ i 3 + 3 IQR. (7) 4 Beispiel 2: Man untersuche den Benzinverbrauch von 4 PKW-s im Stadtverkehr. Aus den Meßdaten wurden die Boxplots im Bild 2 konstruiert. So kann der Benzinverbrauch auch visuell verglichen werden. Es ist klar, daß PKW-s A, B, C von einander nicht wesentlich abweichen, Typ D ist jedoch wesentlich (signifikant) günstiger, als die anderen Typen. Bild 2 Boxplots vom Verbrauch von vier PKW-s Eine weitere Auskunft über die Meßdaten gibt ihre Streuung. Dazu werden die Differenzen der einzelnen Beobachtungen und ihr Mittelwert ξi −ξ¯ benötigt. Es ist klar, daß es immer gilt (8) So gibt die einfache Differenz keine Auskunft. Entweder der Betrag oder das Quadrat der Differenz soll untersucht werden: -3- oder Die mittlere quadratische Differenz wird als empirische Varianz genannt und mit s2 bezeichnet.:. (9) Daraus folgt die empirische Standardabweichung. (10) In dieser Formel sind jedoch die Daten von einander nicht unabhängig, da ξ¯ genau das arithmetische Mittel der Meßdaten ist. In der Statistik soll mit unabhängigen Daten operiert werden, so führen wir den Begriff korrigierte empirische Varianz ein:. (11) Dann ist die korrigierte empirische Standardabweichung:. (12) Man fragt sich, was geschieht, wenn n → ∞. Diese Frage wird später beantwortet. Man soll wahrnehmen, daß die Meßeinheiten des Mittelwertes, des Medianes und der Standardabweichung mit der der einzelnen Meßdaten identisch sind. 1.2. Empirische Dichtefunktion Mit Hilfe der empirischen Dichtefunktion oder des Histogramms gewinnt man Auskunft über die Verteilung der Beobachtungswerte. Diskrete bzw. stetige Ausprägungen werden bei der Behandlung von einander unterscheidet. Im Diskreten Fall werden auf die Abszisse des Koordinatensystems die Beobachtungswerte, auf die Ordinate die relativen Häufigkeiten aufgetragen. Bei quantitativen Variablen erfolgt eine natürliche, die Größe folgende Skalierung. Bei qualitativen Variablen (wie z.B. Farbe) ist die Reihenfolge uninteressant, wichtig sind nur die Säulenhöhen der einzelnen Häufigkeiten. Bild 3 zeigt das Histogramm, das aus den Daten des 1-ten Beispiels konstruiert wurde. -4- Bild 3 Aus den Daten des Beispiels 1 gezeichnetes Histogramm 2. Zweite Vorlesung Die empirische Dichtefunktion wird für den stetigen Fall weiter diskutiert, der Begriff der Verteilungsfunktion wird eingeführt. Die empirische Korrelation sowie ein Spezialfall, die Rangkorrelation werden besprochen. Für stetige Variablen (z.B. Körpergröße) werden die Meßdaten der Größe nach geordnet, der kleinste und der größte Wert werden gesucht und die Spannweite (der Bereich zwischen diesen Werten) wird in Klassen (Intervalle) aufgeteilt. Es werden über die einzelnen Intervallen Säulen gezeichnet, deren Flächen mit der relativen Häufigkeit der Ausprägungen die in diesen Intervallen liegen gleich ist. Die präzise Formulierung ist folgendes. Die Stichprobe sei ξ1,ξ2,...,ξn, der kleinste Wert sei x0 = minξi, der größte Wert sei xZI = maxξi mit ZI = Zahl der Intervalle. Für das i-te Intervall werden folgende Bezeichnungen eingeführt: ∆xi: Breite des i-ten Intervalls, νi: Zahl der Ausprägungen, die im i-ten Intervall liegen, d.h. ihre Häufigkeit, fi = fn(xi) die Höhe der Säule an der Stelle xi. Da die relative Häufigkeit des Ereignisses, daß die Ausprägung im i-ten Intervall liegt gleich der Fläche der über dieses Intervall gezeichneten Säule ist, gilt: , (13) und daraus kann die Säulenhöhe berechnet werden:. (14) -5- Bild 4 Empirische Dichtefunktion für stetige Variablen Zur Festlegung der Zahl der Intervalle werden folgende Regel empfohlen: ▪ Für n