Full Transcript

DATA SCIENCE Wissen aus Daten ziehen und langfristige Chancen frühzeitig erkennen © ELG E-Learning-Group GmbH Data Science Inhaltsverzeichnis ABBILDUNGSVERZEICHNIS .............................................................................................. IV ARBEITEN MIT DIESEN UNTERLAGEN .....

DATA SCIENCE Wissen aus Daten ziehen und langfristige Chancen frühzeitig erkennen © ELG E-Learning-Group GmbH Data Science Inhaltsverzeichnis ABBILDUNGSVERZEICHNIS .............................................................................................. IV ARBEITEN MIT DIESEN UNTERLAGEN ............................................................................... V ERKLÄRUNG DER SYMBOLE: ...................................................................................................... V HINWEIS ZUR VERWENDETEN SPRACHE: ...................................................................................... V 1 WAS IST DATA SCIENCE? ......................................................................................... 1 1.1 EINFÜHRUNG ........................................................................................................... 1 1.2 WARUM DATA SCIENCE?............................................................................................ 3 1.3 HISTORIE ................................................................................................................. 4 1.4 BEGRIFFSDEFINITIONEN .............................................................................................. 8 1.4.1 Big Data ......................................................................................................... 10 1.4.2 Data Science................................................................................................... 14 1.4.3 Data Analytics ................................................................................................ 15 1.4.4 Business Intelligence ...................................................................................... 16 1.5 BERUFSBILD DATA SCIENTIST ..................................................................................... 18 2 THEORETISCHE GRUNDLAGEN ................................................................................20 2.1 DATENTYPEN .......................................................................................................... 20 2.1.1 Kategorische Daten ........................................................................................ 20 2.1.2 Nominale Daten ............................................................................................. 21 2.1.3 Ordinale Daten ............................................................................................... 22 2.1.4 Numerische Daten.......................................................................................... 23 3 STATISTIK ...............................................................................................................25 3.1 STATISTISCHE MERKMALE ......................................................................................... 25 3.2 WAHRSCHEINLICHKEITSVERTEILUNGEN ........................................................................ 26 3.2.1 Gleichverteilung ............................................................................................. 27 3.2.2 Normalverteilung ........................................................................................... 27 3.2.3 Poisson-Verteilung ......................................................................................... 28 3.3 DIMENSIONALITÄTSREDUKTION .................................................................................. 28 3.4 OVER- UND UNDERSAMPLING.................................................................................... 30 3.5 BAYES‘SCHE WAHRSCHEINLICHKEIT............................................................................. 31 3.6 KORRELATION ......................................................................................................... 33 3.7 LINEARE REGRESSION ............................................................................................... 34 3.8 DIAGRAMMARTEN ................................................................................................... 35 3.8.1 Säulendiagramm oder Balkendiagramm ....................................................... 36 3.8.2 Gestapeltes Säulen- oder Balkendiagramm ................................................... 36 3.8.3 Positiv/Negativ-Säulendiagramm .................................................................. 37 3.8.4 Kreisdiagramm ............................................................................................... 37 3.8.5 Liniendiagramm ............................................................................................. 38 3.8.6 Flächendiagramm .......................................................................................... 38 3.8.7 Streuungsdiagramm ...................................................................................... 39 3.8.8 Blasendiagramm ............................................................................................ 39 3.8.9 Boxplot ........................................................................................................... 40 4 GRUNDLAGEN AUSGEWÄHLTER METHODEN VON DATA SCIENCE..........................41 4.1 DATENQUALITÄT UND MODELLBILDUNG ...................................................................... 42 4.1.1 Datenqualität ................................................................................................. 42 4.1.2 Datenmenge .................................................................................................. 43 4.1.3 Modellbildung ................................................................................................ 43 4.2 MASCHINELLES LERNEN ............................................................................................ 47 I Data Science 4.2.1 Unterschiede zwischen maschinellem Lernen und künstlicher Intelligenz ..... 48 4.2.2 Anwendungen maschinellen Lernens ............................................................. 49 4.2.3 Training beim maschinellen Lernen ............................................................... 50 4.2.4 Arten maschineller Lernverfahren.................................................................. 51 4.3 NEURONALE NETZE ................................................................................................. 57 4.3.1 Eingabeschicht ............................................................................................... 59 4.3.2 Zwischenschichten ......................................................................................... 59 4.3.3 Ausgabeschicht .............................................................................................. 60 4.3.4 Gewichte und Verzerrung .............................................................................. 60 4.3.5 Arten von künstlichen neuronalen Netzen ..................................................... 60 4.3.6 Training eines neuronalen Netzes .................................................................. 62 4.4 DEEP LEARNING ...................................................................................................... 64 4.4.1 Praktische Anwendungen von Deep Learning ................................................ 65 4.4.2 Funktionsweise von Deep Learning ................................................................ 66 4.4.3 Unterschiede zwischen maschinellem Lernen und Deep Learning ................. 67 4.4.4 Training von Deep Learning Systemen ........................................................... 68 4.5 FORECASTING UND PROGNOSEMODELLE ...................................................................... 69 4.5.1 Qualität von Prognosemodellen .................................................................... 71 4.5.2 Markov Modelle ............................................................................................. 71 5 INTEGRATION VON DATA SCIENCE IM UNTERNEHMEN ..........................................76 5.1 5.2 5.3 5.4 5.5 5.6 6 STRATEGISCHE ANALYSE ........................................................................................... 78 OPERATIVE ANALYSE ................................................................................................ 79 GESCHÄFTSGETRIEBENES DATENMANAGEMENT............................................................. 80 TRANSFORMATION UND ERWEITERUNG DES GESCHÄFTSMODELLS..................................... 81 ENTWICKLUNG EINES DATENGETRIEBENEN GESCHÄFTSMODELLS ....................................... 82 AUSBLICK............................................................................................................... 86 CRISP-DM VORGEHENSMODELL .............................................................................87 6.1 GESCHÄFTSBEZUGSANALYSE ...................................................................................... 87 6.1.1 Definition gewünschter Projektergebnisse .................................................... 88 6.1.2 Bewertung der aktuellen Situation ................................................................ 89 6.1.3 Beschreibung des Ziels von Data Science ....................................................... 90 6.1.4 Erstellung des Projektplans ............................................................................ 91 6.2 DATENEXPLORATION ................................................................................................ 92 6.2.1 Beschreibung der Grundcharakteristiken der Daten ...................................... 92 6.2.2 Beschreibung der statistischen Charakteristiken der Daten .......................... 92 6.2.3 Überprüfung der Datenqualität ..................................................................... 93 6.2.4 Erstellung des Datenqualitätsberichts ........................................................... 93 6.3 DATENVORBEREITUNG.............................................................................................. 94 6.3.1 Bereinigung der Daten ................................................................................... 94 6.3.2 Rekonstruktion fehlender erforderlicher Daten ............................................. 94 6.3.3 Integration von Daten aus anderen Quellen .................................................. 95 6.4 MODELLIERUNG ...................................................................................................... 96 6.4.1 Erstellung des Testplans ................................................................................. 96 6.4.2 Erstellung des Datenmodells .......................................................................... 97 6.4.3 Bewertung des Datenmodells ........................................................................ 97 6.5 EVALUIERUNG ........................................................................................................ 98 6.5.1 Evaluierung des Gesamtprozesses ................................................................. 99 6.5.2 Festlegung der nächsten Schritte ................................................................. 100 6.6 BEREITSTELLUNG ................................................................................................... 100 6.6.1 Überwachung und Kontrolle der Bereitstellung ........................................... 100 6.6.2 Erstellung eines Abschlussberichts ............................................................... 101 6.6.3 Bewertung der Projektdurchführung ........................................................... 101 7 FALLSTUDIEN ........................................................................................................102 7.1 KLASSIFIKATION VON KUNDEN DURCH NEURONALE NETZE ............................................. 102 II Data Science 7.1.1 Definition von relevanten Kundeninteraktionen .......................................... 102 7.1.2 Training des neuronalen Netzes mit Kundeninteraktionen .......................... 103 7.1.3 Interpretation der Ergebnisse ...................................................................... 104 7.2 PROGNOSE VON KUNDENABWANDERUNG MITTELS MASCHINELLEM LERNEN ..................... 105 7.2.1 Generisches Vorgehensmodell ..................................................................... 106 7.2.2 Erstellung des Prognosemodells .................................................................. 107 7.2.3 Vorbereitung der Daten ............................................................................... 108 7.2.4 Analyse der Daten ........................................................................................ 109 7.2.5 Interpretation der Ergebnisse ...................................................................... 111 7.3 UNTERSTÜTZUNG BEI DIAGNOSEFINDUNG DURCH TEXTMINING RADIOLOGISCHER BEFUNDE . 113 7.4 VORHERSAGE VON HERZERKRANKUNGEN ANHAND VORSORGEUNTERSUCHUNGEN ............. 114 7.5 ERKENNUNG VON GESCHÄFTSUNTERBRECHUNGEN DURCH ANALYSE SOZIALER NETZWERKE . 116 7.6 BERECHNUNG DER AUSFALLSWAHRSCHEINLICHKEITEN VON KREDITNEHMERN ................... 118 7.7 PROGNOSE DES CUSTOMER LIFETIME VALUE BEI ONLINE-SHOPS .................................... 119 7.7.1 Bildung des Markov-Modells für den CLV .................................................... 121 7.7.2 Validierung des Markov-Modell-basierten CLV-Vorhersage Ansatzes ......... 123 7.7.3 Ergebnisse der Feldstudie............................................................................. 123 LITERATURVERZEICHNIS ...............................................................................................125 III Data Science Abbildungsverzeichnis ABBILDUNG 1: DATA SCIENCE ALS ZUSAMMENSPIEL MEHRERER DISZIPLINEN ......................................... 9 ABBILDUNG 2: DIE 6VS VON BIG DATA ........................................................................................ 11 ABBILDUNG 3: ÜBERSICHT AUSGEWÄHLTER DATENTYPEN ................................................................ 20 ABBILDUNG 4: BEISPIEL NOMINALER DATEN IN EINEM FRAGEBOGEN .................................................. 21 ABBILDUNG 5: BALKENDIAGRAMM UND TORTENDIAGRAMM ............................................................ 21 ABBILDUNG 6: BEISPIEL FÜR ORDINALE DATEN IN EINEM FRAGEBOGEN............................................... 22 ABBILDUNG 7: INTERVALLWERTE AM BESPIEL EINER TEMPERATURSKALA ............................................. 23 ABBILDUNG 8: HISTOGRAMM UND BOXPLOT ................................................................................. 24 ABBILDUNG 9: STATISTISCHE MERKMALE AM BEISPIEL EINES BOXPLOTS.............................................. 25 ABBILDUNG 10: GLEICHVERTEILUNG ............................................................................................ 27 ABBILDUNG 11: NORMALVERTEILUNG ......................................................................................... 27 ABBILDUNG 12: POISSON-VERTEILUNG ........................................................................................ 28 ABBILDUNG 13: BEISPIEL DIMENSIONALITÄTSREDUKTION EINES MULTICUBE ....................................... 28 ABBILDUNG 14: OVER- UND UNDERSAMPLING VON DATENSÄTZEN ................................................... 31 ABBILDUNG 15: LINEARE REGRESSIONSGERADE ............................................................................. 34 ABBILDUNG 16: SÄULENDIAGRAMM (UNGESTAPELT) ...................................................................... 36 ABBILDUNG 17: GESTAPELTES BALKENDIAGRAMM ......................................................................... 36 ABBILDUNG 18: POSITIV/NEGATIV-SÄULENDIAGRAMM................................................................... 37 ABBILDUNG 19: KREISDIAGRAMM ............................................................................................... 37 ABBILDUNG 20: LINIENDIAGRAMM.............................................................................................. 38 ABBILDUNG 21: FLÄCHENDIAGRAMM .......................................................................................... 38 ABBILDUNG 22: STREUUNGSDIAGRAMM ...................................................................................... 39 ABBILDUNG 23: BLASENDIAGRAMM ............................................................................................ 39 ABBILDUNG 24: DATENBASIERTE METHODEN IM LAUFE DER ZEIT ...................................................... 41 ABBILDUNG 25: VORGEHEN FÜR DATENBASIERTE MODELLBILDUNG ................................................... 45 ABBILDUNG 26: ÜBERWACHTES LERNEN AM BEISPIEL EISVERKAUF .................................................... 54 ABBILDUNG 27: VERSTÄRKUNGSLERNEN AM BEISPIEL ZIELSUCHE EINES ROBOTERS ............................... 56 ABBILDUNG 28: FUNKTIONSWEISE NEURONALER NETZE BEI TRAINING UND EINSATZ ............................. 58 ABBILDUNG 29: STRUKTUR VON NEURONALEN NETZEN FÜR DEEP LEARNING ....................................... 66 ABBILDUNG 30: MARKOV-MODELL ZUR VORHERSAGE VON SPIELERGEBNISSEN ................................... 73 ABBILDUNG 31: STUFEN DER ANWENDUNG VON DATA SCIENCE IN UNTERNEHMEN .............................. 76 ABBILDUNG 32: CRISP-DM VORGEHENSMODELL.......................................................................... 87 ABBILDUNG 33: KUNDENSEGMENTE ANHAND ÄHNLICHER INTERAKTIONEN MIT DEM UNTERNEHMEN ..... 104 ABBILDUNG 34: ZUSAMMENHANG ANRUFE BEI KUNDENHOTLINE UND KUNDENABWANDERUNG ........... 111 ABBILDUNG 35: ZUSAMMENHANG PRODUKTKOSTEN PRO MONAT UND KUNDENABWANDERUNG ......... 112 ABBILDUNG 36: ERKENNUNG ANATOMISCHER REGIONEN IN MR-BEFUNDEN .................................... 113 ABBILDUNG 37: FRAGEBOGEN KARDIOVASKULÄRES RISIKO DER ÖSTERR. SOZIALVERSICHERUNG ............ 114 ABBILDUNG 38: KALIBRIERUNG DES PROGNOSEMODELLS FÜR HERZERKRANKUNGEN ........................... 115 ABBILDUNG 39: RISIKOKATEGORIEN FÜR MENSCHENVERURSACHTE EREIGNISSE .................................. 116 ABBILDUNG 40: VERANTWORTUNGSVOLLER EINSATZ VON DATA SCIENCE ......................................... 117 IV Data Science Arbeiten mit diesen Unterlagen In diesem Dokument finden Sie den Studientext für das aktuelle Fach, wobei an einigen Stellen Symbole und Links zu weiterführenden Erklärungen, Übungen und Beispielen zu finden sind. An den jeweiligen Stellen klicken Sie bitte auf das Symbol – nach Beendigung des relevanten Teils kehren Sie bitte wieder zum Studientext zurück. Stellen Sie sicher, dass auf Ihrem Rechner ein MPEG4-Decoder installiert ist. Erklärung der Symbole: Wichtiger Merksatz oder Merkpunkt Zusammenfassung Hinweis zur verwendeten Sprache: Aus Gründen der leichteren Lesbarkeit wird im vorliegenden Skriptum die gewohnte männliche Sprachform bei personenbezogenen Substantiven und Pronomen verwendet. Dies impliziert jedoch keine Benachteiligung des weiblichen Geschlechts, sondern soll im Sinne der sprachlichen Vereinfachung als geschlechtsneutral zu verstehen sein. V Data Science 1 Was ist Data Science? 1.1 Einführung Data Science ist ein kontinuierlicher Prozess und kein plötzliches Ereignis. Es beschreibt den Prozess, wie strukturiert Daten verwendet werden können, um daraus gezielt Schlüsse zu ziehen. Zum Beispiel, wenn Sie eine Hypothese haben, eine Beobachtung – und nun wissen möchten, ob diese Hypothese „richtig“ ist. Oft werden in Unternehmen Entscheidungen „aus dem Bauch heraus“ getroffen. Ziel von Data Science ist es, Ihre Entscheidungen auf der Grundlage von Daten treffen zu können. In diesem Sinne ist Data Science mehr als nur ein Werkzeug. Es ist Wissenschaft und kreative Tätigkeit zugleich, die „harte“ Fakten soweit in eine (plastische) Geschichte übersetzen lässt, dass diese Daten nachvollziehbar beschreiben, wie Kunden ihre Entscheidungen treffen, welche Produkte öfter als andere und zu welchem Zeitpunkt genutzt werden. Das Verknüpfen all dieser Punkte, die einzeln betrachtet keinen besonderen Sinn ergeben würden, ergibt aber ein neues Bild, was mit bisherigen Ansätzen nicht möglich war. Auch erleichtert dieses „Storytelling“, das Beschreiben der Einblicke und Schlüsse, die man aus Daten gezogen hat, die Kommunikation mit Ihren Stakeholdern. Bisherige Verfahren richteten den Fokus immer nur auf einzelne Punkte, während Data Science auch aufgrund der Datenmenge nun auch die zeitliche Dimension mit ins Spiel bringt. Mit diesen Erkenntnissen können Sie sowohl Prozesse innerhalb des Unternehmens neugestalten, als auch Produkte sowohl für den Kunden als auch für Sie entsprechend Ihren geschäftlichen Vorgaben verbessern. Data Science ist ein Prozess, bei dem aus unterschiedlichsten Systemen sowohl strukturierte als auch unstrukturierte Daten extrahiert und miteinander in Beziehung gesetzt werden. Das Ziel hierbei ist, diese Daten zu „erkunden“, das heißt, dass oft nicht mal die genaue Fragestellung vor der Analyse bekannt sein muss. Vielmehr ist das Ziel, Erkenntnisse aus den Daten zu ziehen, die einem zuvor nicht bewusst waren – um erst daraus konkrete Fragen abzuleiten. Data Science als Wissenschaft, die sich der Untersuchung von Daten widmet, ist an sich nicht neu. Die Definition und der Name kamen schon in den 80er und 90er Jahren auf, als einige Professoren an US-Universitäten sich mit der Neugestaltung des Statistik-Studiums befassten. Dabei entschloss man sich, diese Disziplin „Data Science“ zu nennen, wobei dies zu diesem Zeitpunkt eher als Versuch, denn als ernstgemeinte Umgestaltung des Statistik-Studiums aufzufassen ist. 1 Data Science Data Science entstand in den 80er und 90er Jahren aus einem Teilgebiet der Statistik. Dabei war die Idee, konkrete Fragestellungen aus dem unternehmerischen Umfeld mithilfe statistischer Verfahren zu betrachten. Eine konkrete und einheitliche Definition des Begriffs „Data Science“ gibt es daher bis heute nicht. Man kann es – auch als Abgrenzung zur Statistik – als Methode sehen, die explorativ Daten auf neue Erkenntnisse untersucht; Fragen auf Antworten zu finden, die oft zuvor nicht genau bekannt sind, um sie erst im Rahmen des Prozesses zu konkretisieren. Dies ist auch ein wesentliches Abgrenzungsmerkmal zu deskriptiven Verfahren in der Statistik. Bei Data Science – im Vergleich zur Statistik – geht es mehr um das Ziel als um die konkrete Methodik, sich von der Neugier treiben zu lassen, große Datenmengen aus unterschiedlichsten Blickwinkeln heraus zu analysieren und neue Erkenntnisse abzuleiten. Und im Anschluss diese (neuen) Erkenntnisse zu verwenden, um konkrete Fragen zu formulieren. Diese Analyse ist erst durch die Unmengen von Daten möglich, die heute verfügbar sind. Und genau dieser explorative Ansatz unterscheidet Data Science von anderen, bisherigen Methoden, Daten zu untersuchen. Während man früher das Problem hatte, überhaupt an Daten zu kommen, sehen wir uns heute mit einer wahren Datenflut konfrontiert. Auch gab es damals weder entsprechende Algorithmen noch entsprechende Hardware, um diese Datenflut zielgerichtet für Unternehmen nutzen zu können. Mit dieser Datenflut entstanden aber auch immer mehr Alternativen zu den teuren Software-Lösungen, die es damals nur großen Unternehmen möglich machten, diese Daten überhaupt auszuwerten. Mit der Verfügbarkeit von Open-Source Softwarelösungen kann sich praktisch jedes Unternehmen leisten, diese Daten auch auszuwerten. Zusätzlich ist auch das Speichern der Daten günstiger geworden – cloudbasierte Lösungen speichern Milliarden von Datensätzen zu einem Bruchteil der bisherigen Kosten bei mehr Flexibilität. Zusammengefasst: die Werkzeuge, die Daten und die Fähigkeiten, diese Daten auch auszuwerten, nehmen ständig zu und sind für jedermann verfügbar. Es gibt also keinen besseren Zeitpunkt, sich die Möglichkeiten, die Data Science für Ihr Unternehmen bietet, genau anzusehen und die entsprechenden Fähigkeiten anzueignen. Data Science verfolgt einen explorativen Ansatz, bei dem Erkenntnisse aus Daten gezogen werden. Die konkrete Fragestellung dafür wird erst im Rahmen der Analyse klar. 2 Data Science 1.2 Warum Data Science? Tom Davenport (Davenport, 2017) ist ein bekannter amerikanischer Autor mehrerer Bücher im Bereich Data Analytics und Geschäftsprozessinnovationen. Er beschreibt fünf Gründe, warum Data Science für Unternehmen wichtig ist und was dabei zu beachten ist. Besonderen Wert legt er auf die Darstellung der bei der Datenanalyse gewonnenen Erkenntnisse als Geschichte. Warum dies so wichtig ist, erklärt die folgende Liste: • • • Geschichten waren schon immer wirksame Mittel, um vom Menschen gewonnene Erkenntnisse zu transportieren, weil es damit leichter ist, komplexe Zusammenhänge für alle verständlich zu formulieren. Dies trifft insbesondere zu, wenn diese Erkenntnisse Daten und Analysen beinhalten, die von Natur aus eher abstrakt sind. Durch das „Erzählen“ der datenbasierten Erkenntnisse wird den Menschen zu diesem abstrakten Inhalt aber auch der Kontext dargestellt, in den sie diese Erkenntnisse einbetten können. Dies erleichtert es ihnen, schlussendlich, das „große Ganze“ zu verstehen. Das Ziel von Data Science ist, praktisch umsetzbare Erkenntnisse aus Daten zu ermöglichen. Solange die Stakeholder in Ihren Projekten allerdings nicht den Sinn und das Potential Ihrer Erkenntnisse verstanden haben, wird es Ihnen schwerfallen, sie zu überzeugen. Das Ziel muss also sein, Ihre Erkenntnisse in eine Geschichte zu verpacken, die plastisch nachvollziehbar ist. Als Hilfsmittel eignen sich dazu auch Visualisierungen – dazu müssen Sie Sich auch nicht an speziellen Diagrammarten aus der Statistik orientieren. Erlaubt ist, was hilft Ihre Erkenntnisse, die Sie aus den Daten gezogen haben, zu transportieren. Viele Menschen wollen Beweise, damit sie die Details Ihrer Analyse verstehen können. Ergänzen Sie daher Ihre Geschichte um konkrete Fakten, die Sie durch die Datenanalyse gefunden haben. Während manche Menschen mehr an den Zusammenhängen interessiert sind, benötigen andere mehr Detailwissen, die Darlegung des konkreten Nutzens oder auf welche Weise diese Erkenntnisse entstanden sind. Versuchen Sie, alle diese Typen anzusprechen, indem Sie für jeden Typ die relevanten Informationen aus Ihrer Analyse in Ihrer Geschichte bereitstellen. Beziehen Sie auch die Organisation als Ganzes mit ein, welche Auswirkung Ihre Erkenntnisse – sowohl kurz- als auch langfristig – für sie haben. So wird deutlich, dass Sie Sich nicht in einem (unwesentlichen) Detail verfangen haben, sondern auch die Auswirkungen auf organisatorischer Ebene miteinbezogen haben. 3 Data Science • • Auch unter Zuhilfenahme moderner Werkzeuge ist der gesamte Prozess von Data Science zeitaufwendig. Sie benötigen also ein effektives Kommunikationsmittel, Ihre Erkenntnisse Ihren Stakeholdern zu vermitteln. Es wäre im Geschäftsalltag völlig unmöglich, alle Details einer quantitativen Analyse exakt und umfassend darzulegen, vor allem, wenn Sie keinen unmittelbaren Erkenntnisgewinn für die anderen bringen. Insofern ist es wichtig, Ihre Erkenntnisse in einer verständlichen und knappen Form zu transportieren, wofür sich Geschichten hervorragend eignen. Alle Geschichten sind nach wenigen Grundtypen aufgebaut und die meisten Menschen kennen sie aus ihrer Kindheit, die Muster sind ihnen daher vertraut. Auf der anderen Seite folgen die meisten quantitativen Darstellungen ebenfalls denselben Strukturen. Vor allem, wenn Sie immer mit denselben Unternehmen arbeiten, versuchen Sie daher immer dieselben Grundkonzepte zu verwenden, nach denen Sie die Geschichte aufbauen, mit der Sie Ihre Erkenntnisse zu vermitteln versuchen. Data Science und Statistik gelten als „trockene“ Disziplinen, obwohl gerade sie mit empirischen Daten arbeiten. Data Science nutzt zu einem großen Teil empirische Daten, um neue Erkenntnisse zu gewinnen. Verpacken Sie Ihre Erkenntnisse als Geschichten und erleichtern Sie damit Ihren Stakeholdern, den Nutzen Ihrer Erkenntnisse besser zu verstehen. 1.3 Historie Data Science ist ein Zusammenspiel mehrerer bereits existierender Disziplinen, deren Betriff um 2001 geprägt wurde. Insofern ist es auch eine sehr junge Disziplin. Speziell ab 2010 ist die Popularität von Data Science gestiegen – vor allem aufgrund der immer steigenden Datenflut, mit der sich Unternehmen und Regierungen konfrontiert sehen. Google, und hier vor allem die immer neu hinzukommenden Services, ist hier ein klassisches Beispiel für die Möglichkeiten, die Data Science bietet. Data Science ist eine Disziplin im Schnittfeld zwischen Informatik, Statistik, Mathematik, Advanced Computing und Visualisierung. Die praktische Kombination dieser Disziplinen wird als Data Science bezeichnet Als Schöpfer des Begriffs Data Science gilt William S. Cleveland, der 2001 einen Aktionsplan zur Erweiterung der technischen Fähigkeiten, die in Statistikstudien in den USA gelehrt wurden, formulierte. Danach ging es Schlag auf Schlag. Etwa ein Jahr später, 2002, gründete der Internationale Rat für 4 Data Science Wissenschaft das „Committee on Data for Science and Technology“, also eine konkrete akademische Instanz, die die von Forschern eingereichten Publikationen auf Qualität prüft. Anfang April startete dieses Komitee dann mit der Veröffentlichung des CODATA Data Science Journal, ein Jahr später die Columbia University mit der Veröffentlichung des „Journal of Data Science“. Zwischen 1998 und 2000, der sogenannten „Dot-Com“-Zeit, war Festplattenspeicher überdurchschnittlich günstig, weshalb Unternehmen und Regierungen viel davon kauften. Einfach formuliert besagen die Parkinson‘schen Gesetze aus der Soziologie, dass sich Dinge immer um genau jene Menge erweitern, für die zusätzlich Platz gemacht wurde. Umgelegt auf das Beispiel mit dem Festplattenspeicher bedeutete dies, dass sich die verfügbaren und von Unternehmen extrahierten Daten nun vollständig auf den neuen Platz ausdehnten. Man sammelte alle möglichen Daten, ohne diese auf tatsächliche Relevanz zu prüfen. Diese Vorgehensweise produziert natürlich täglich neue Daten, von Benutzerinteraktionen auf einer Web-Plattform bis zu Bankomatkarten-Transaktionen. Der Begriff „Big Data“ kam auf, um eben diese Datenflut zu beschreiben, die mit herkömmlichen Datenbanksystemen nicht mehr beherrschbar ist. Mit der Verfügbarkeit dieser gesammelten Daten kam es natürlich zur Anforderung, diese Daten nun auch zielgerichtet auswerten zu können. Neue Computerarchitekturen für ebendieses Szenario wurden federführend von Unternehmen wie Google, Yahoo! und Amazon entwickelt und ist mittlerweile als „Cloud Computing“ bekannt. Eine der Erfindungen in diesem Kontext ist „MapReduce“, ein Algorithmus, der für die Verarbeitung sehr großer Datenmengen geeignet ist, da er die dabei entstehende Last auf mehrere Maschinen verteilen kann. „Apache Hadoop“ 1 ist eine Open-Source Software basierend auf dem MapReduce-Algorithmus, die die Verarbeitung von Big Data in der Cloud ermöglicht. Der MapReduce-Algorithmus wurde von Google-Forschern entwickelt und ermöglicht das Verarbeiten von Big Data. Eine freie Software-Lösung basierend auf diesem Algorithmus ist das Apache Hadoop-Framework. Normalerweise werden Daten als Ganzes eingelesen und darauf ein Algorithmus angewandt. Wenn wir beispielsweise eine Datei für eine Tabellenkalkulation wie Microsoft Excel© öffnen, wird eine Datei von der Festplatte geladen und der Inhalt mit dem Programm geöffnet. Der MapReduce-Algorithmus hingegen zerteilt sehr große Datenmengen in kleinere Stücke, die viel einfacher zu verarbeiten sind. Diese kleineren Datenstücke werden dann auf vielen einzelnen Computern verteilt, die die nötige Berechnung 1 https://hadoop.apache.org/. 5 Data Science durchführen. Im Anschluss werden die Teilergebnisse von den einzelnen Computern wieder gesammelt und das Gesamtergebnis berechnet. Allerdings war Hadoop für die breite Öffentlichkeit ohne fortgeschrittene Informatikkenntnisse viel zu schwierig zu bedienen. Als Konsequenz wurden basierend auf Hadoop eine Reihe von zusätzlichen Analysewerkzeuge entwickelt, die einfachere Schnittstellen und Bedienung für Hadoop ermöglichen. Diese Gruppe von Analysewerkzeugen nennt man „Mass Analytic Tools“ und sie dienen primär dazu, die Analyse sehr komplexer und großer Datenmengen einfacher zu gestalten. Sie unterscheiden sich hinsichtlich der analysierten Daten als auch dem Zweck der Analyse und reichen von Empfehlungswerkzeugen, über Anwendungen aus dem Bereich des maschinellen Lernens zur Vorhersage von Ereignissen, z.B. um Kreditkartenmissbrauch vorzeitig zu erkennen. Nichtsdestotrotz erfordern auch diese Werkzeuge mathematisches Grundlagenwissen, um sie korrekt bedienen zu können. „Mass Analytic Tools“ sind Analysewerkzeuge, die die Analyse von großen und komplexen Datenmengen vereinfachen. Auch sie setzen mathematisches Grundlagenwissen voraus. Aufgrund der einfacheren Bedienung verbreiteten sich diese Analysewerkezeuge schnell in den Unternehmen, was wiederum die Nachfrage nach Experten erhöhte, die diese Werkzeuge auch tatsächlich bedienen konnten. Das Berufsbild des „Data Scientists“ entstand – Experten, die aus der Datenflut für Unternehmen die richtigen Erkenntnisse ziehen und diese auch entsprechend argumentieren und präsentieren können. Bisherige Ansätze ermöglichten nicht, diese Datenmengen explorativ zu analysieren und damit tatsächlich neue Erkenntnisse aus ihnen zu gewinnen. Dennoch ist die Komplexität dieser Daten so hoch, dass in der Praxis mehrere Data Scientists gemeinsam in Teams arbeiten – oft auch in Zusammenarbeit mit Experten aus anderen Disziplinen. Aufgrund der Komplexität und Vernetzung der Daten arbeiten Data Scientists meistens in Teams – oft auch zusammen mit Experten aus anderen Disziplinen, wie z.B. Usability, Experten Marketing oder Produktmanagement. In den letzten Jahren wurde Data Science dann auch immer mehr im Zusammenhang mit Big Data genannt, was die Popularisierung des Begriffs zusätzlich förderte. Mitte der 2000er Jahre wurden zusätzlich in bekannten und unter Absolventen von einschlägigen Studien beliebten Firmen Data Science Teams ins Leben gerufen. Die Aufgabe dieser Teams war es, die Daten der Benutzer zu analysieren, die durch die Nutzung ihrer Plattformen entstanden, um daraus neue Produkte zu generieren. Mittlerweile gibt es auch weitere, eher praktisch orientierte Konferenzen für Data Science, wie die 6 Data Science „O'Reilly's Strata Conferences“ oder die „Greenplum's Data Science Summits“. Ebenso spricht die Berufsbezeichnung „Data Scientist“ Informatiker erfolgreich an – und dies in einer Zeit, wo ohnehin schon ein Mangel an ITExperten am Berufsmarkt herrscht. Mittlerweile haben auch mehrere Universitäten begonnen, einschlägige Ausbildungen für Data Science anzubieten, entweder als umfassende mehrjährige Studienabschlüsse oder als Sommerprogramm. Begleitend sind auch professionelle nichtakademische Organisationen entstanden, wie „Data Science Central“ und „Kaggle“. Der Fokus dieser Organisationen liegt weniger auf der Entwicklung neuer Methoden zur Datenanalyse, sondern eher auf der Vermarktung und Attraktivierung des Berufsfelds. Beispielsweise können sich Unternehmen bei Kaggle anmelden, um gegeneinander bei komplizierten Datenanalysen anzutreten oder eine Aufgabe für alle zu definieren, die mithilfe von Data Science gelöst werden muss. Danach versuchen die Unternehmen, die Aufgabe zu lösen und treten gegeneinander an. Kaggle wiederum bezahlt für die beste Lösung. Für die dort registrierten Data Scientists dient eine Teilnahme natürlich ebenfalls als Demonstration ihrer Fachkompetenz, die dann gegenüber potentiellen Arbeitgebern auch gut vermarktet werden kann. Als praktisches Beispiel sei auch AltaVista genannt, die in den 90er Jahren die beliebteste Suchmaschine war. Damals extrahierten sogenannte „Crawler“ den Text von Webseiten, der daraufhin von AltaVista indiziert und in Datenbanken gespeichert wurde. Wenn Benutzer also auf der Webseite von AltaVista nach einem Begriff suchten, durchsuchte AltaVista seine Datenbanken nach genau diesem Begriff und konnte entsprechende Webseiten vorschlagen. Als relevanteste Webseite wurde jene ermittelt, bei der der gesuchte Begriff am häufigsten vorkam. Auch wenn dies eine sehr einfache Lösung war, ermöglichte sie zu einer Zeit, als das Internet wachsende Beliebtheit erfuhr und Computer noch nicht die aktuelle Leistung hatten, die zielgerichtete Suche nach Informationen und für damalige Verhältnisse gute Antwortzeiten. AltaVista gilt als erste Suchmaschine, die große Mengen an Daten indizierte. Bei einer Suchabfrage ermittelte man die relevanten Seiten über die Häufigkeit des Suchbegriffs auf den indizierten Seiten. Später in den 90er Jahren war es dann Google, das die Suche im Internet revolutionierte – durch einen anderen Algorithmus. Dazu kombinierten sie Ansätze aus Mathematik, Statistik und Informatik zu einem neuen Algorithmus, genannt „PageRank“, der jenen von AltaVista schnell verdrängte. Der wesentliche Unterschied war, dass ihr Algorithmus nicht nur die Wörter auf den jeweiligen Seiten indizierte, sondern auch den Hyperlinks zu anderen 7 Data Science Webseiten folgte und auch dort die Wörter indizierte. Zusätzlich betrachtet ihr Algorithmus auch noch die Anzahl an eingehenden Hyperlinks auf eine Webseite als Maß für deren Relevanz. Die Idee dahinter war, dass der Betreiber einer Website ja nur dann die entsprechende andere Webseite anführen wird, wenn er sie als relevant ansieht. Insofern lässt sich davon die Relevanz einer Seite ableiten. Daher stehen bei den Ergebnissen einer Suche auf Google jene Seiten mit den meisten eingehenden Hyperlinks ganz oben. Damit erfasst Google auch indirekt das menschliche Wissen über eine Website, welches durch die bewusste Auswahl an ausgehenden Webseiten ableitbar ist. Dieses Beispiel zeigt auch die Mächtigkeit von Metadaten, auf die sich der PageRank-Algorithmus ja konzentriert hat. Dass gerade Google eine Fülle von Open-Source Lösungen wie das Hadoop-Framework entwickelte, entstand auch aus ihrem Bedarf heraus, die Webseiten regelmäßig zu indizieren, um die Qualität der Suchergebnisse dauerhaft sicherzustellen. Data Science ist eine Kombination aus mehreren Disziplinen mit dem Ziel, aus komplexen und großen Datenmengen neue Erkenntnisse zu gewinnen. Der MapReduce-Algorithmus und das Hadoop-Framework von Google gelten als wichtigste Verfahren, um große Datenmengen auf mehreren Computern oder der Cloud verteilt zu analysieren. Ebenso zeigt Google’s PageRank-Algorithmus die Mächtigkeit von Metadaten, um die Qualität der Datenanalyse zu erhöhen. 1.4 Begriffsdefinitionen Im Technologiebereich und verwandten Branchen hört man die Begriffe Data Analytics und Data Science sehr oft – manchmal sogar, um den gleichen Sachverhalt auszudrücken. Doch auch wenn die beiden Begriffe ähnlich klingen, beschreiben sie unterschiedliche Konzepte und Auswirkungen auf Ihr Unternehmen. Das Wissen um genau jene Unterschiede ist allerdings wichtig, um sich mit Experten austauschen zu können und genau diese Auswirkungen richtig einschätzen zu wissen. Während Data Analytics die konkrete Tätigkeit beschreibt, bezieht sich Data Science auf die gesamte Disziplin und setzt nicht unbedingt eine konkrete Tätigkeit voraus. Beispielsweise ist maschinelles Lernen ein Teilbereich von Data Science, hängt aber mit Data Analytics, wie wir sie kennen, nur begrenzt zusammen. 8 Data Science Während Data Analytics eine Tätigkeit beschreibt, umfasst der Begriff Data Science sämtliche zu dieser Disziplin zugehörigen, weiteren Schritte, wie z.B. Data Preprocessing, Cleansing oder auch artverwandte Disziplinen wie maschinelles Lernen. Abbildung 1: Data Science als Zusammenspiel mehrerer Disziplinen Abbildung 1 zeigt die Überlappung von Data Science mit anderen, verwandten Disziplinen. Speziell ist hierbei die Schnittmenge aus Mathematik, Informatik und Statistik relevant, da eben nur die Kombination dieser Disziplinen es ermöglicht, Daten in dieser Menge und Komplexität zu sammeln und zu analysieren. Diese Verbindung von mehreren Disziplinen verdeutlicht auch das notwendige Wissen von Data Scientists – die jeweilige Person muss sich nicht nur auf Informatik spezialisiert haben, sondern auch über (tiefergehende) Expertise in Statistik verfügen. Ohne konkretes Wissen über die Domäne, in der man Data Science einsetzen will, lassen sich allerdings auch nicht die richtigen Fragen stellen. Deshalb ist der Einsatz eines Fachexperten unabdingbar, wenn Sie Data Science in Ihrem Unternehmen einsetzen möchten. Dies auch deshalb, da Data Science letztendlich zu praktisch umsetzbaren Wissen für Sie führen soll und nicht „nur“ Mittel zum Zweck sein soll. Der Einsatz eines Fachexperten vermeidet daher den klassischen Tunnelblick. Ein sehr prominentes Beispiel für diese Kombination unterschiedlicher Disziplinen ist die Bioinformatik, wo Epidemiologen, Mediziner und Statistiker im Zusammenspiel medizinische Daten auswerten. Epidemiologen bringen tiefes Verständnis für Krankheiten mit, die Stärke liegt aber darin, das 9 Data Science vorhandene Datenmaterial mit statistischen Analysen und Fachkenntnissen gezielt und explorativ auszuwerten. Data Science kann seine Stärke nur dann entfalten, wenn Data Scientists mit den jeweiligen Domänen- und Fachexperten zusammenarbeiten. Ein prominentes Beispiel hierfür ist die Bioinformatik, wo neben Data Scientists auch Epidemiologen an medizinischen Fragestellungen arbeiten. Das Marketing des Begriffs „Data Science“ hat der Branche allerdings einen großen Gefallen getan. Es hat vielen erst die Macht der Daten bewusstgemacht, sowohl Unternehmen als auch Kunden und zu einer Professionalisierung geführt. Gerade ab 2012 hat eine Reihe von Publikationen „Big Data“ zu einem Begriff gemacht – gefördert von Firmen wie IBM und SAS. Das Missverständnis dieses Hypes liegt aber darin zu glauben, Big Data gab es davor nicht. Abhängig vom Speichermedium waren heute kleinste Datenmengen vor zehn Jahren unbeherrschbar groß. Der Unterschied aber liegt darin, dass man heute diese Daten verstärkt sammelt und – noch viel mehr – Daten unterschiedlichster Quellen miteinander in Beziehung setzt und analysiert. Insofern werden Datenmengen, die heute als groß und praktisch unbeherrschbar gelten, in mehreren Jahren Standard sein. 1.4.1 Big Data Big Data ist ein sich ständig weiterentwickelnder Begriff und beschreibt große Volumen an strukturierten und unstrukturierten Daten, aus denen Informationen gewonnen werden können. Diese Daten können sowohl für die Datenanalyse als auch für maschinelles Lernen verwendet werden. Große Datenmengen werden oft durch 3Vs-charakterisiert: das extreme Datenvolumen als Volume, die Vielfalt der Daten als Variety und die Geschwindigkeit, mit der die Daten verarbeitet werden müssen, als Velocity. Diese Merkmale wurden von der Firma Gartner, einer internationalen Unternehmensberatung, Anfang 2001 identifiziert. Als groß gelten hierbei Datenmengen ab Terabytes – gefolgt von Petabytes und sogar der Begriff der Exabytes wurde schon genutzt, um das Volumen von heutigen Daten zu beschreiben. In jüngster Zeit wurden die 3Vs durch weitere Charakteristiken ergänzt, wie z.B. Vertrauenswürdigkeit Veracity, Wert Value und Variabilität Variability. Variety ist zwar eng verwandt mit Variability, beschreibt aber etwas anderes. Letzteres zielt auf die unterschiedlichen Möglichkeiten ab, für die man die gewonnenen Informationen verwenden kann, während Ersteres die Unterschiede der Daten an sich beschreibt. 10 Data Science Abbildung 2 stellt die 6Vs mit einer kurzen Zusammenfassung dar. Abbildung 2: Die 6Vs von Big Data Volume Umfangreiche Daten können aus unzähligen verschiedenen Quellen stammen, wie z.B. Geschäftsabwicklungssystemen, Kundendatenbanken, Krankenakten, dem Monitoring von Benutzerinteraktionen auf einer Web-Plattform, mobilen Anwendungen, sozialen Netzwerken, gesammelten Ergebnissen wissenschaftlicher Experimente, maschinell generierten Daten oder Echtzeit-Datensensoren, die im Internet der Dinge („IoT“) eingesetzt werden. Ebenso können manche Daten schon in ihrer Rohform verarbeitet werden, während andere vorverarbeitet werden müssen. Typischerweise geschieht das mit Data-Mining-Tools oder spezieller Software zur Datenaufbereitung (z.B. um statistische Ausreißer schon im Vorfeld zu filtern). Variety In Big Data werden unterschiedlichste Datentypen verarbeitet. Man unterscheidet strukturierte Datentypen, die typsicherweise in SQL-Datenbanken und Data Warehouses gespeichert werden, unstrukturierte Datentypen wie Textdateien, die keinem konkreten Schema entsprechen und semi-strukturierte Daten wie Protokolle von Sensoren und Webservern. Das wesentliche Kriterium dabei ist, ob es ein sogenanntes „Schema“ für die Daten gibt, also eine konkrete Grammatik, wie die Daten auszusehen haben und welche davon miteinander in Beziehung gebracht werden können. Relationale Datenbanken erfordern beispielsweise grundsätzlich ein Schema, um überhaupt Daten speichern zu können. Sogenannte NoSQL-Datenbanken sind schemafrei, das heißt, man kann auch unstrukturierte und semi-strukturierte Daten speichern, was die Analyse entsprechend vereinfacht. Relationale Datenbanken haben ihre Stärke in der Transaktionssicherheit, also die Integrität zu jedem Zeitpunkt, was sie daher für klassische Anwendungen prädestiniert. Auf der anderen Seite haben NoSQL-Datenbanken ihre Stärke eben in 11 Data Science der Speicherung von weniger strukturierten Daten und einer besseren Skalierbarkeit unter vielen gleichzeitigen Benutzern. Dies macht sie daher besser geeignet für die Datenanalyse als auch für die Speicherung der Daten, gerade wenn es sich dabei um sehr große und rasant wachsende Datenmengen handelt. Man unterscheidet strukturierte, unstrukturierte und semi-strukturierte Daten. Das wesentliche Unterscheidungsmerkmal dafür ist, ob es ein Schema, also eine konkrete Grammatik gibt, die die Struktur der Daten beschreibt. Zusätzlich werden bei Big Data meistens mehrere Datenquellen gleichzeitig zusammengefasst und angesprochen, die anders gar nicht integriert werden könnten. Der Grund dafür liegt meistens darin, dass diese unterschiedlichen Datenbanken ja jeweils ganz unterschiedliche Schemata haben. Ein Big Data Projekt, das beispielsweise den zukünftigen Umsatz basierend auf vergangenen Verkaufsdaten errechnen soll, muss sowohl auf Retouren-Daten als auch auf Online-Rezensionen der Kunden zugreifen können, um hier Berechnungen durchführen zu können. Es liegt in der Natur dieser Daten, dass diese natürlich alle jeweils eine andere Struktur haben. Velocity Big Data adressiert auch das Problem, dass heutzutage Daten mit sehr großer Geschwindigkeit aus unterschiedlichen Quellen erzeugt, verarbeitet und analysiert werden. In Echtzeit oder nahezu in Echtzeit werden in vielen Fällen die Daten aktualisiert, auf der anderen Seite bestehen die täglichen, wöchentlichen oder monatlichen Updates bei klassischen Anwendungen. Big Data Projekte nehmen diese Datenmengen aber nicht nur auf, sondern müssen auch innerhalb einer bestimmten Zeit Ergebnisse liefern können, um überhaupt von Nutzen sein zu können. Mithilfe mehrere Datenquellen übergreifender Abfragen werden Korrelationen berechnet, also Zusammenhänge zwischen den Daten extrahiert. Um aber von tatsächlichem Nutzen sein zu können, müssen Data Scientists ein detailliertes Verständnis und ein Gefühl dafür haben, ob diese Ergebnisse auch richtig sein können. Basierend auf den Ergebnissen müssen auch weitere Fragen formuliert werden, die die bisherigen Hypothesen dann entweder unterstützen (verifizieren) oder widerlegen (falsifizieren) können. Ebenso ist die Geschwindigkeit der Verarbeitung auch deshalb wichtig, um sicherzustellen, dass die enthaltenen Informationen überhaupt noch gültig sind, wenn man basierend auf Erkenntnissen Aktionen ergreift. Besonders kritisch ist die Geschwindigkeit bei maschinellem Lernen und künstlicher Intelligenz (KI), wo in den gesammelten Daten automatisch Muster extrahiert, miteinander in Bezug gebracht und daraus neue Erkenntnisse abgeleitet werden. 12 Data Science Die Geschwindigkeit der Datenanalyse stellt sicher, dass die gewonnenen Erkenntnisse dann noch gültig sind, wenn man konkrete Handlungen setzt. Besonders kritisch ist die Geschwindigkeit bei maschinellem Lernen und künstlicher Intelligenz. Veracity Datenwahrheit bezieht sich auf den Grad an Vertrauenswürdigkeit in Datensätzen. Unsichere Rohdaten, die aus mehreren Quellen, wie z.B. Social Media-Plattformen und Webseiten, gesammelt werden, können gravierende Probleme hinsichtlich der Datenqualität haben. Stellen sich dann später bei Betrachtung der Ergebnisse Fehler heraus, so sind diese dann nur mehr sehr schwer zurückzuverfolgen. Man müsste dann für jeden analysierten Datensatz den genauen Ursprung wissen, um den Fehler rückwirkend zu rekonstruieren und beheben zu können. Schlechte Daten führen zu ungenauen Analysen und kompromittieren den Wert der Analysen, da sie Führungskräfte veranlassen können, den Daten als Ganzes zu misstrauen. Insofern müssen die unsicheren Daten in einem Unternehmen berücksichtigt werden und entweder von der Analyse ausgeschlossen werden oder bei der Präsentation der Ergebnisse entsprechend dargestellt werden. Daher ist es umso wichtiger, dass schon im Vorfeld die Qualität der Daten sichergestellt oder zumindest erhöht wird, um über eine ausreichende Menge qualitativ hochwertiger Daten zu verfügen, um valide Ergebnisse zu erzielen. Die Qualität der Daten muss schon im Vorfeld sichergestellt werden, da sich Fehler oft im Nachhinein nicht mehr korrigieren lassen. Auch ist es oft gar nicht mehr möglich, sie bis zum Ursprung zurückzuverfolgen. Value Nicht alle gesammelten Daten haben einen echten Geschäftswert und die Verwendung ungenauer Daten kann die Qualität der Ergebnisse erheblich beeinträchtigen. Es ist daher wichtig, dass Unternehmen die Daten vorher bereinigen und sicherstellen, dass sich die verwendeten Daten tatsächlich auf relevante Geschäftsprobleme beziehen. Dies muss vor allem vor einer möglicherweise sehr aufwendigen Datenanalyse geschehen, deren Ergebnisse keinen unternehmerischen Wert haben könnten. Variability Die Menge an unterschiedlichen Anwendungsgebieten der gewonnenen Erkenntnisse wird als „Variability“, zu Deutsch Variabilität, bezeichnet. Diese muss besonders bei großen Datensätzen beachtet werden, die weniger 13 Data Science konsistent sind als Einzeldaten (die z.B. durch viele kleine Ereignisse entstehen wie Bankomatkartentransaktionen) und die oft mehrere, auch unterschiedliche Bedeutungen haben. Auch können die Daten aus den unterschiedlichen Datenquellen auch unterschiedlich formatiert sein, was den Aufwand für die Verarbeitung und Analyse der Daten weiter erschwert. Die 6Vs beschreiben die wesentlichen Eigenschaften von Big Data. Das extreme Datenvolumen, die Vielfalt, die Geschwindigkeit der Verarbeitung, die Vertrauenswürdigkeit, den möglichen Wert der gewonnenen Informationen und die Variabilität der Ergebnisse. 1.4.2 Data Science So wie die Wissenschaft ein großer Begriff ist, mit einer Reihe unterschiedlicher Schwerpunkten und Richtungen, ist auch Data Science ein breiter Begriff für eine Vielzahl von Modellen und Methoden zur Informationsbeschaffung. Unter dem Dach von Data Science befinden sich die wissenschaftliche Methode, Mathematik, Statistik und andere Werkzeuge, die zur Analyse und Manipulation von Daten verwendet werden. Wenn heutzutage von einem Werkzeug oder einem Prozess die Rede ist, in dessen Zuge Daten analysiert oder konkrete Informationen daraus gewonnen werden, fällt es wahrscheinlich unter Data Science. In der Praxis verfolgt Data Science das Ziel, Informationen und isolierte Datenquellen so zu verbinden, um daraus Erkenntnisse abzuleiten, die für das Unternehmen nützlich sein können und einen Vorsprung mit sich bringen. Data Science erforscht die Welt des Unbekannten explorativ, indem sie versucht, neue Muster und Erkenntnisse in den Daten zu finden, was sie stark von der rein deskriptiven Statistik abgrenzt. Anstatt eine Hypothese zu überprüfen, wie es normalerweise bei der Datenanalyse der Fall ist, versucht Data Science mit statistischen Verfahren Verbindungen zwischen den unterschiedlichen Daten zu erkennen und daraus wertvolles Wissen vor allem für die Zukunft zu gewinnen. Data Science bietet Unternehmen eine neue Perspektive auf ihre Daten, vor allem aufgrund der Art und Weise, wie diese Daten miteinander verbunden sind. Konnte man früher beispielsweise nur die Stammdaten seiner Kunden analysieren, so kann man heutzutage diese Stammdaten zusätzlich mit Daten aus den täglichen Einkäufen und dem Einlösen von zugesandten Rabatten eines Kunden verknüpfen und so ein sehr genaues Profil seiner Kunden gewinnen. 14 Data Science Data Science arbeitet primär explorativ, das heißt, es untersucht vorhandenes Datenmaterial zum Beispiel auf das Vorhandensein von Mustern. Ein Gegenstück dazu sind deskriptive Verfahren, die primär der Berechnung statistischer Kennzahlen dienen. 1.4.3 Data Analytics Aber wie grenzt sich Data Analytics von Data Science ab? Am besten lässt sich das mit einer Metapher beschreiben: Würde man sich Data Science als Haus vorstellen, in welchem Daten analysiert werden würden, dann wäre Data Analytics nur ein bestimmter Raum in diesem Haus. Data Analytics ist ein konkretes Werkzeug, das von Data Science benutzt wird – es ist also viel spezifischer und hat ein ganz genaues Anwendungsszenario. Data Analytics ist insofern auch fokussierter, als Analytiker dabei ja ein bestimmtes Ziel vor Augen haben – nämlich eben genau jene Daten zu suchen, die sich miteinander in Beziehung setzen lassen. Oftmals wird diese Aufgabe auch automatisiert, um konkrete Informationen in den Daten zu finden. Data Analytics beschreibt das gezielte Durchkämmen von Daten, um jene relevanten Information zu finden, die von Unternehmen verwendet werden können, um bestimmte Ziele zu erreichen. Im Wesentlichen werden dabei bereits vorhandene Informationen, die schon im Datenbestand des Unternehmens sind, sortiert. Diese Informationen können dann verwendet werden, um Ereignisse in der Vergangenheit, Gegenwart oder Zukunft zu messen. Data Analytics schlägt eine Brücke von Erkenntnissen zu Auswirkungen, indem sie Trends und Muster mit den wahren Zielen des Unternehmens verbindet und tendenziell etwas geschäfts- und strategieorientierter als Data Science ist. Warum die Abgrenzung wichtig ist Die scheinbar vernachlässigbaren Unterschiede zwischen Data Science und Data Analytics können tatsächlich einen großen Einfluss auf ein Unternehmen haben. Experten beider Disziplinen erfüllen zunächst unterschiedliche Aufgaben und haben oft unterschiedliche Hintergründe. Die korrekte Verwendung der Begriffe hilft aber Unternehmen, die richtigen Personen für die ihnen gestellten Aufgaben einzustellen. Data Science und Data Analytics können genutzt werden, um verschiedene Dinge zu finden, und obwohl beide für Unternehmen nützlich sind, werden sie nicht in jeder Situation verwendet. Data Analytics wird häufig in Branchen wie Gesundheitswesen, Spieleindustrie und Reisen eingesetzt, während Data Science bei der Internetsuche und der digitalen Werbung weit verbreitet ist. 15 Data Science Data Science spielt auch eine wachsende und sehr wichtige Rolle bei der Entwicklung der künstlichen Intelligenz und des maschinellen Lernens. Viele Unternehmen verwenden einerseits Systeme, um große Datenmengen durchzusehen und verwenden andererseits Algorithmen, um Verbindungen in diesen großen Datenmengen zu finden. Ziel dabei ist, die Systeme mit Daten soweit zu trainieren, dass sie selbst Aufgaben lösen und Vorhersagen treffen können, die den Unternehmen am ehesten helfen, ihre Ziele zu erreichen. Maschinelles Lernen hat ein enormes Potenzial für viele Branchen und wird zweifellos eine große Rolle dabei spielen, wie Unternehmen in Zukunft geführt werden. Aus diesem Grund ist es wichtig, dass Unternehmen und Mitarbeiter den Unterschied zwischen Data Science und Data Analytics und die jeweiligen Einsatzgebiete kennen. Obwohl es Unterschiede zwischen beiden Disziplinen gibt, sind sowohl Data Science als auch Data Analytics wichtige Themen im Umgang mit Daten. Beide Begriffe sollten von Unternehmen genutzt und verstanden werden, wenn sie tatsächlich das gesamte Potential aus Daten schöpfen wollen. Data Science und Data Analytics verfolgen unterschiedliche Ziele. Während Data Science auf die Verknüpfung von Daten aus unterschiedlichen Quellen fokussiert, sucht Data Analytics nach Mustern in primär einer Datenquelle. 1.4.4 Business Intelligence Mit dem steigenden Volumen und der zunehmenden Komplexität der Daten waren immer mehr Unternehmen damit überfordert, Data Science in ihren Unternehmen zu etablieren. Es kam vermehrt die Nachfrage nach einfacheren Lösungen im Unternehmenseinsatz auf. Business Intelligence (BI) als weiteres verwandtes Thema zu Data Science adressiert einen bestimmten, vor allem unternehmerischen Verwendungszweck von Daten. Es ist wichtig, mit einigen grundlegenden Definitionen der beiden Begriffe zu beginnen und einen tieferen Blick auf die beiden verschiedenen (wenn auch eng miteinander verbundenen) Bereiche innerhalb Data Science zu werfen. Data Science, wie es in der Wirtschaft verwendet wird, ist an sich datengetrieben, wobei viele interdisziplinäre Wissenschaften zusammen angewendet werden, um Erkenntnisse und daraus zu folgernde Handlungsszenarien aus den verfügbaren Geschäftsdaten zu gewinnen, die typischerweise groß und komplex sind. Auf der anderen Seite hilft Business Intelligence (oder BI) den aktuellen Stand der Geschäftsdaten zu überwachen, um die historische Performance eines Unternehmens zu verstehen. 16 Data Science Kurz gesagt, während BI hilft, vergangene Daten zu interpretieren, kann Data Science die vergangenen Daten (Trends oder Muster) analysieren, um zukünftige Vorhersagen zu treffen. BI wird hauptsächlich für Reporting oder deskriptive Analysen verwendet, während Data Science eher für Vorhersagen (Predictive/Prescriptive Analytics) verwendet wird. Sowohl Data Science als auch BI konzentrieren sich auf Daten mit dem Ziel der Ergebnisverbesserung, was im Fall von Unternehmen Gewinnmargen, Kundenbindung oder die Erschließung neuer Märkte sein können. Beide Disziplinen sind in der Lage, Daten zu interpretieren und benötigen in der Regel technische Experten, um die gewonnenen (allerdings noch datenzentrierten) Ergebnisse in eine allgemeinverständliche Sprache zu übersetzen. In einem typischen Geschäftsumfeld haben allerdings Führungskräfte weder die Zeit noch die Motivation die hinter Data Science oder BI verborgenen technischen Details zu erlernen. Sie benötigen schnelle und verlässliche Systeme, um kritische Entscheidungen – gestützt auf Daten – schnell und gut treffen zu können. Sowohl für Business Intelligence als auch für Data Science ist mittlerweile eine Vielzahl von Systemen verfügbar, die Führungskräfte oder auch Experten der Fachabteilungen bei datenbasierten Entscheidungen unterstützen können. Der Hauptunterschied zwischen Data Science und Business Intelligence besteht darin, dass Business Intelligence zwar für die Verarbeitung statischer und hochstrukturierter Daten ausgelegt ist, Data Science aber auch komplexe dynamische Daten in höherer Frequenz und aus einer Vielzahl von Datenquellen verarbeiten kann. Während Business Intelligence also nur Daten in bestimmten Formaten verarbeiten kann, können Data Scie

Use Quizgecko on...
Browser
Browser