Big Data Analysen in Anwendung unter Verwendung der Programmiersprache R PDF
Document Details
Uploaded by AchievablePlateau
Deutsche Hochschule für angewandte Wissenschaften
Tags
Summary
This document provides an introduction to big data analysis using the R programming language. It covers the installation of R software, basic data analysis techniques, and how to use R to visualize data. The document also explains some basic concepts of big data and data analysis, including different types of data and how to use algorithms.
Full Transcript
Big Data vermeiden, bevor diese durch Prüfstellen und Aufsichtsbehörden entdeckt werden. Insbesondere die folgenden beiden Bereiche sind hierbei von zentraler Be- deutung:28 Die Einhaltung von regulatorischen Vorschriften dauerhaft zu kon- trollieren und sicherzustellen: wird...
Big Data vermeiden, bevor diese durch Prüfstellen und Aufsichtsbehörden entdeckt werden. Insbesondere die folgenden beiden Bereiche sind hierbei von zentraler Be- deutung:28 Die Einhaltung von regulatorischen Vorschriften dauerhaft zu kon- trollieren und sicherzustellen: wird ein Bezug zwischen den gelten- den Vorschriften und den Unternehmensprozessen und -daten her- gestellt, die davon betroffen sind, so lassen sich durch gezielte Über- wachung von Kennzahlen drohende Abweichungen frühzeitig erken- nen. Konsequente Prüfung aller Transaktionsdaten: die Prüfung von Transaktionen auf Besonderheiten, Auffälligkeiten und ihre Bedeu- tung für die Beeinflussung von Compliance-Risiken geschieht in der Praxis aktuell meist stichprobenartig und periodisch. Eine durchge- hende Prüfung aller Transaktionen kann hier zu mehr Transparenz führen, um die Anforderungen aufsichtsrechtlicher Meldeprozesse zu erfüllen. 3.6.3 Digitale Vermögensverwaltung mittels Robo-Advisor Robo-Advisor sind auf Algorithmen basierende Systeme, die automatisiert Trading- oder Anlagestrategien für den Finanzmarkt umsetzen, um in Pro- dukte wie Aktien und Anleihen zu investieren. Sie erledigen damit viele Auf- gaben, für die früher teure Finanzexperten erforderlich waren. Die Dienst- leistungen reichen von automatischem Rebalancing bis hin zur Steueropti- mierung und erfordern wenig bis keine menschliche Interaktion. Sie ermög- lichen es auch auf bestimmte Marktsituationen zu reagieren und beispiels- weise in einem Crash-Szenario automatisch eine Umschichtung von Vermö- gen in sichere Anlageklassen vorzunehmen. Mittels solcher Systeme lassen sich auch individuelle und beliebig komplexe Anlagestrategien automatisieren, die auf verschiedenen äußeren Bedingun- gen beruhen. So sind die Systeme in der Lage, Tausende von Variablen auf einmal zu betrachten, einschließlich demografischer Daten, Timing, histori- scher Trends, technischer Analyse, Fundamentalanalyse, Marktstimmung und mehr. Diese Daten können anschließend in Bezug auf die eigene Anla- gestrategie bewertet werden, sodass auf Basis der Analyse Handlungsemp- fehlungen abgeleitet und umgesetzt werden können werden. 28 Vgl. Valenta, 2019 29 Big Data 7. Big Data Analysen in Anwendung unter Ver- wendung der Programmiersprache R Neben den bereits erwähnten Verfahren, Software und Algorithmen bedarf es auch sogenannter Programmiersprachen, um Big Data nutzbar zu ma- chen. ine solche ist „ “. ie ird h ufig i Bereich des Data inings und für die statistische Datenverarbeitung verwendet. Der Vorteil dieser Pro- grammiersprache ist, dass eine kostenlose Benutzeroberfläche hierfür ge- nutzt werden kann. In diesem Kapitel nutzen wir daher diese Sprache, um einen ersten Einblick in die Analysemöglichkeiten von Big Data zu erhalten, auch wenn die ver endeten Datens tze noch nicht de „Big“ in Big Data entsprechen – so zeigen sie dennoch das Potenzial sehr gut auf und vermit- teln durch ein geleitetes Hands-on erste Versuche der direkten Anwen- dung.57 7.1 Installation der Software und erste Schritte Um R nutzen zu können, müssen zunächst zwei kostenlose Softwarepakete installiert werden. 1. Folgen Sie dem Link und installieren Sie R für Ihr Betriebssystem: https://cran.r-project.org/ 2. Folgen Sie dem zweiten Link und installieren die Benutzeroberfläche, um R sinnvoll und einfach nutzen zu können: https://posit.co/down- load/rstudio-desktop/#download – öffnen Sie dann das Programm. 3. Verschaffen Sie sich einen Überblick auch anhand der folgenden Gra- fik 57 Vgl. Gold, 2019 83 Big Data Abbildung 9: Überblick über die R-Benutzeroberfläche 4. Sehen Sie sich die folgende Seite an, um eine kurze Einführung in das Programm zu erhalten: https://cran.r-project.org/doc/manuals/r-re- lease/R-intro.html 7.2 Einfache Datenanalyse mit R In R lassen sich große Mengen an Datensets einlesen, zusammenführen, be- arbeiten, analysieren, statistische Auswertungen durchführen und auch Vi- sualisierungen ausgeben. Hierfür können wir z. B. SQL-basierte Abfragen ge- stalten oder einfach EXCEL-Tabellen einlesen. Es gibt in R aber auch vorin- stallierte Datensets, mit denen wir arbeiten können. Sie können dieses Da- tenset folgendermaßen laden und die ersten 6 Zeilen anzeigen lassen: data(mtcars) #Loading the data head(mtcars, 6) #printing first 6 rows Der Output sollte dann folgendermaßen aussehen: Abbildung 10: Ausgabe der ersten 6 Reihen des Datensatzes 84 Big Data Die Variablen bedeuten dabei folgendes: mpg: Meilen pro Gallone cyl: Anzahl Zylinder disp: Hubraum (cu.in.) hp: Pferdestärke drat: Hintere Achsenübersetzung wt: Gewicht in 1000 lbs qsec: 1/4 Meilenzeit vs: V/S am: Getriebe (0 = Automatik, 1 = manuell) gear: Anzahl Gänge carb: Anzahl Verdampfer Auch mit einem solch kleinen Datensatz können nun gewisse Analysen vor- genommen werden, um ein Verständnis dafür zu erhalten, welches praktisch anwendbares Potenzial von Big Data ausgeht. 7.2.1 Beispiel 1: Minima und Maxima im Datensatz anzeigen las- sen Wir möchten aus dem Datenset dasjenige Auto herausfiltern, das den höchs- ten und niedrigsten Spritverbrauch aufweist (Zeile mpg). Dies lässt sich mit zwei einfachen Befehlen im linken oberen Fenster als Ergänzung zu den zu- vor eingeführten Befehlen bewerkstelligen. Fügen Sie ihrem bisherigen Code also folgende Zeilen hinzu: min(mtcars$mpg) max(mtcars$mpg) Die Ausgabe sollte dann folgende zwei Zeilen enthalten: 10.4 33.9 Das heißt das verbrauchsintensivste Auto kann mit einer Gallone 10,4 Mei- len fahren, das spritsparendste Auto hingegen ganze 33,9 Meilen. Diese ein- fachen Ausgaben lassen sich nun in einem weiteren Schritt in Beziehung zu anderen Werten setzen, um eine höhere Aussagekraft zu erhalten. 85 Big Data 7.2.2 Beispiel 2: Zusammenfassung des Datensets mit Mittel- werten und Variablen-Minima und -Maxima Für jede der 11 Variablen können wir nun einfach eine Reihe von Vergleichs- werten ausgeben lassen mit dem simplen Befehl, der hinzuzufügen ist: summary(mtcars) Die Ausgabe umfasst dann folgendes: Abbildung 11: Zusammenfassung des Datensets mcars Für alle 11 Variablen finden Sie nun die Minimalwerte (Min.), das erste Quar- til (1st Qu.), den Median, das arithmetische Mittel (Mean), das dritte Quartil (3rd Qu.) und das Maximum (Max.). Daraus ließen sich jetzt bereits erste Analysen erstellen. 86 Big Data 7.2.3 Beispiel 3: Konkrete Analyse von Minima- und Maxima- Werten Nachdem wir uns zuvor globale Minima und Maxima des Verbrauchs ausge- geben haben, sind diese Informationen insofern noch nicht ganz nützlich, da wir das passende Automodell nicht ausgegeben haben. Wir suchen daher in diesem Beispiel ganz konkret das jeweilige Auto mit dem niedrigsten und höchsten PS-Anzahl (Variable hp). Wir formulieren den entsprechenden Suchauftrag: rownames(mtcars)[which.max(mtcars$hp)] rownames(mtcars)[which.min(mtcars$hp)] Schrittweise Erklärung: `rownames(mtcars)` Dies gibt die Zeilennamen (also die Modellnamen der Autos) des `mtcars`-Datensatzes zurück. `which.max(mtcars$hp) Die Funktion `which.max()` sucht den Index der Zeile mit dem höchs- ten Wert in der Spalte `hp` (Pferdestärken). Mit diesem Index wird der Name des Autos mit der höchsten PS-Zahl ermittelt. `which.min(mtcars$hp)` Die Funktion `which.min()` tut das Gleiche wie `which.max()`, aber für den niedrigsten Wert in der Spalte `hp`. Sie gibt den Index des Autos mit der niedrigsten PS-Zahl zurück. Im Outputfenster sollte dann nach Ausführung des gesamten Codes aller bis- herigen Codezeilen auch dies hier auftauchen: "Maserati Bora" "Honda Civic" Wir schließen also daraus, dass das verbrauchsintesivste Auto der Maserati Bora und dementsprechend das sparsamste der Honda Civic ist. 7.2.4 Beispiel 4: Datenvisualisierung mit R Nun lassen sich auch grafisch aufbereitete Outputs generieren, die wir dann weiter analysieren können. In diesem Beispiel interessiert uns z. B. der 87 Big Data Zusammenhang zwischen der Anzahl der Zylinder (Variable 2: cyl) und dem Spritverbrauch (Variable 1: mpg). Hierfür verwenden wir das Packet ggplot aus der Sammlung tidyverse. Tidyverse erlaubt das effiziente Arbeiten mit Daten und ist eine Sammlung von Paketen speziell für Data Science (siehe: https://www.tidyverse.org/). Der Code erstellt ein Streudiagramm, das den Zusammenhang zwischen der Anzahl der Zylinder und dem Benzinverbrauch von Autos aufzeigt, indem die `ggplot2`-Bibliothek des `tidyverse`-Pakets verwendet wird. install.packages("tidyverse") library(tidyverse) ggplot(mtcars, aes(x=cyl, y=mpg)) + geom_point() Schrittweise Erklärung: 1. install.packages("tidyverse") Dieser Befehl installiert das `tidyverse`-Paket, eine Sammlung von R-Pake- ten, die zusammen verwendet werden, um Daten zu importieren, aufzube- reiten, zu transformieren, zu visualisieren und zu analysieren. Zu den wich- tigsten Paketen gehören `ggplot2` für Visualisierung, `dplyr` für Datenmani- pulation und `tidyr` für Datenaufbereitung. Dieser Befehl ist nur notwendig, wenn das `tidyverse`-Paket noch nicht in- stalliert ist. 2. library(tidyverse) Mit diesem Befehl wird das `tidyverse`-Paket in die aktuelle R-Sitzung gela- den, damit die darin enthaltenen Funktionen verwenden kann, wie zum Bei- spiel die `ggplot`-Funktion zur Erstellung von Diagrammen. 3. ggplot(mtcars, aes(x=factor(cyl), y=mpg)) + geom_point() Das ist der eigentliche Befehl zur Visualisierung der Daten. Er verwendet die `ggplot2`-Funktion, um ein Diagramm zu erstellen. Hier ist die genaue Be- deutung: ggplot(mtcars, aes(x=factor(cyl), y=mpg)): `ggplot`: Die Funktion, die das Diagramm erstellt. `mtcars`: Der Datensatz 88 Big Data `aes(x=factor(cyl), y=mpg)`: Das sind die "ästhetischen" Mappings, die festlegen, welche Variablen auf den Achsen dargestellt werden. - `x=factor(cyl)`: Auf der X-Achse wird die Anzahl der Zylinder (`cyl`-Spalte im `mtcars`-Datensatz) dargestellt - `y=mpg`: Auf der Y-Achse wird der Spritverbrauch in Meilen pro Gallone (`mpg`) dargestellt. `geom_point()`: Diese Funktion fügt dem Diagramm Punkte (Scatter- plot) hinzu, um die Datenpunkte darzustellen. Das Ergebnis ist ein Streudiagramm, das die Beziehung zwischen der Anzahl der Zylinder eines Autos (cyl) und dessen Spritverbrauch (mpg) darstellt. Die Zylinderanzahl wird auf der X-Achse und der Spritverbrauch auf der Y-Achse angezeigt, wobei jeder Punkt im Diagramm ein Auto aus dem `mtcars`-Da- tensatz darstellt. Da es Autos mit demselben Wert gibt, überlagern sich diese. Im Outputfenster wiederum sollte dann die folgende Grafik zu sehen sein: Abbildung 12: Grafik zum Vergleich zweier Variablen 89 Big Data Aus diesem Ergebnis ließe sich schlussfolgern, dass es einen Zusammenhang zwischen der Anzahl von Zylindern und Spritverbrauch gibt: Je mehr Zylin- der, desto effizienter der Verbrauch. Interessant wäre auch eine Korrelationsanalyse zwischen z. B. dem Gewicht (wt) und Verbrauch (mpg) eines Autos. Dies können wir wie folgt grafisch analysieren: ggplot(mtcars, aes(x=wt, y=mpg)) + geom_point() + geom_smooth(method="lm", se=FALSE, color="blue") + labs(x = "Gewicht (1000 lbs)", y = "Meilen pro Gallone", title = "Streudiagramm: Gewicht -- Meilen pro Gallone") Schrittweise Erklärung: 1. ggplot(mtcars, aes(x=wt, y=mpg)) `ggplot()` startet die Erstellung des Diagramms und verwendet den `mtcars`- Datensatz. `aes(x=wt, y=mpg)` legt fest, dass das Gewicht des Autos (`wt`) auf der X-Achse und der Kraftstoffverbrauch (`mpg`) auf der Y-Achse darge- stellt wird. 2. `geom_point()` Diese Funktion fügt Punkte in das Diagramm ein, um die Daten als Streudia- gramm darzustellen. 3. `geom_smooth(method="lm", se=FALSE, color="blue")` `geom_smooth()` fügt eine Trendlinie hinzu. Die Option `method="lm"` gibt an, dass eine lineare Regressionslinie berechnet und dargestellt werden soll. `se=FALSE` unterdrückt die Anzeige des Konfidenzintervalls um die Regressi- onslinie. `color="blue"` färbt die Trendlinie blau. 4. `labs()` `labs(x = "Gewicht (1000 lbs)", y = "Streudiagramm: Gewicht -- Meilen pro Gallone")` fügt Achsenbeschriftungen und einen Titel hinzu, um das Dia- gramm klar und verständlich zu machen. Und wir sehen anschließend folgendes im Outputfenster: 90 Big Data Abbildung 13: Korrelation zwischen Gewicht und Verbrauch der Autos Wir können erkennen, dass es scheinbar eine Korrelation zwischen beiden Variablen gibt: Je leichter ein Auto, desto geringer der Verbrauch. 7.2.5 Beispiel 5: Korrelationsmatrix Nun lassen sich nicht nur Korrelationen zweier Variablen ausgeben, sondern auch alle möglichen Korrelationen aller Variablen untereinander, visualisiert in einer sogenannten Korrelationsmatrix. Um eine solche ausgeben zu las- sen, ird der Befehl „heat ap“ verwendet, in welchem auch die Achsenbe- schriftung und die Überschrift der Grafik festgelegt werden kann. Fügen wir folgenden Befehl zu unseren bisherigen Code-Zeilen hinzu und lassen das Programm laufen, so erhalten wir die unten angeführte Grafik: cor_matrix