Big Data PDF
Document Details
Uploaded by AchievablePlateau
Deutsche Hochschule für angewandte Wissenschaften
Tags
Summary
This document introduces the concept of Big Data, highlighting the increasing volume of data generated globally. It covers the four key characteristics of Big Data, including volume, velocity, variety, and veracity, and explains how these factors shape the field. The document also touches upon the importance of Big Data in artificial intelligence applications.
Full Transcript
Big Data 1. Einführung Wegen des aktuell andauernden beispiellosen Wachstums der globalen Konnektivität und Vernetzung werden immer mehr Daten erzeugt. Das Tempo dieser der aktuell lebenden Generationen beschleunigt sich stetig. Das jährlich generierte bzw. replizierte Datenvolumen stieg von 64,2 Z...
Big Data 1. Einführung Wegen des aktuell andauernden beispiellosen Wachstums der globalen Konnektivität und Vernetzung werden immer mehr Daten erzeugt. Das Tempo dieser der aktuell lebenden Generationen beschleunigt sich stetig. Das jährlich generierte bzw. replizierte Datenvolumen stieg von 64,2 Zetta- byte im Jahre 2010 auf 103,66 Zettabyte in 2022 und wird mit 284,3 Zetta- byte für das Jahr 2027 in einem überproportionalen Anstieg prognostiziert. Zum Vergleich: Würde man jedes gesprochene Wort von jedem Menschen, der jemals auf dieser Erde gelebt hat, aufzeichnen und dokumentieren, so würde man ca. 42 Zettabyte Speicher benötigen. Das ist nicht einmal ¼ der für 2027 prognostizierten Datenmenge. Diese schiere Menge ist also das „Big“ in Big Data. Zum einen lässt sich also der Trend stetig anwachsender Datenmengen erkennen, anderseits lassen sich aber auch Trends im Bereich der Methodik zur Auswertung dieser Datensätze festhalten. Big Data kann für Einzelpersonen und Organisationen von großem Nutzen sein und neue Einblicke in viele Domänen ermöglichen, wie bspw. Smart Cities, für Healthcare-Anwendungen sowie in der Prozessoptimierung durch effizien- tere Ressourcennutzung und Prozessabläufe bis hin zu einem neuen Grad der Automatisierung mittels Künstlicher Intelligenz. 1 Viele Organisationen machen sich dieses Paradigma zu eigen und werden bei der Entscheidungsfindung, Produkt- und Dienstleistungsentwicklung so- wie bei der Interaktion mit Kundinnen, Mitarbeitern, Lieferanten und ande- ren Interessengruppen zunehmend datengesteuert. Social-Media-Plattfor- men sind großartige Beispiele dafür, wie Vermarkter heute auf ihre Kunden zugehen und den Bereich des Marketings revolutionieren. 2 1.1 Big Data als Grundlage der künstlichen Intelligenz Weiterhin lässt sich durch das Aufkommen von Big Data ein weiterer großer Trend erkennen: Künstliche Intelligenz. Dieser Trend geht mit dem wesent- lichen Trend des Datenaufkommens einher und hat in den vergangene Jah- ren viele neue Anwendungsfälle hervorgebracht. Dies wurde in der vorange- gangenen Unit „Künstliche Intelligenz“ bereits detailliert besprochen, sodass der Fokus in diesem Skript auf der Grundlage der beschleunigten Weiterent- wicklungen von KI-Anwendungen liegt: Big Data. 1 Vgl. Statista.de, 2023 2 Vgl. Hajkowicz et al., 2016 1 Big Data Neue Technologien ermöglichen es, diese sehr großen Datensätze mithilfe verschiedener Techniken und Architekturen zu speichern, zu verwalten und mittels Methoden der Künstlichen Intelligenz zu analysieren. Merksatz Die Informationen, die heute verfügbar sind, können bei der richtigen An- wendung dieser Informationen zur richtigen Zeit essenzielle Wettbewerbs- vorteile sichern! Daten entstehen heutzutage an den verschiedensten Stel- len. Egal ob Plattformen wie Social Media, Videostreaming oder durch Mes- sagingdienste, die Menge weltweit verfügbarer Daten wächst enorm. Aber Daten, die gerade wichtig für Entscheider innerhalb eines Unternehmens sind, entstehen eben nicht unbedingt nur in den sozialen Medien etc., son- dern vor allem auch in den tagtäglichen Geschäftsabläufen, die innerhalb von Unternehmen ablaufen. Durch weiter zunehmendes Wirtschaftswachs- tum und den Drang wettbewerbsfähig zu bleiben, sind Unternehmen dazu angehalten ihre Best Practices zunehmend gegenüber der Konkurrenz wei- ter auszubauen, um die jeweilige Marktposition halten und weiter stärken zu können. Durch dieses zunehmende Wachstum und den dadurch entste- henden Druck auf die internen Prozesse, sind Unternehmen mehr denn je dazu angehalten ihre Geschäftsprozesse effizient zu gestalten. In vielen Fällen werden über die Ausgestaltung dieser Effizienzsteigerung un- ternehmensweit Digitalisierungskampagnen gestartet. Diese tragen im We- sentlichen dazu bei, dass neue Daten in Folge der Ausführung von digitalen Prozessen entstehen. Letztlich profitieren somit auch die Unternehmen von einem zunehmenden Anstieg der Datenmenge, sofern sie diese für die rich- tigen Unternehmensentscheidungen einsetzen. Wenn es um Datenauswer- tungen im Allgemeinen oder auch im Big Data Bereich geht, haben die soge- nannten Data Scientists oft einige Methoden und Analysen in ihren Soft- ware-Werkzeugkisten. Dabei ist darauf zu achten, dass der Einsatz der richtigen Datenquelle gegen- über dem Einsatz einer großen Datenmenge vorzuziehen ist. Nicht jede An- wendung der Künstlichen Intelligenz bedarf einem sehr großen Datensatz. Oft reicht es auch aus, eine gezielte Datenquelle zum Einsatz zu bringen. So- mit ist es Unternehmen möglich, neue effizientere Produkte und Dienstleis- tungen ihren Endkunden anzubieten. 2 Big Data 1.2 Kriterien von Big Data – Eine Definition Big Data wird im Allgemeinen definiert als „ein Begriff, der große Mengen an schnellen, komplexen und variablen Daten beschreibt, die fortgeschrittene Techniken und Technologien erfordern, um die Erfassung, Speicherung, Ver- teilung, Verwaltung und Analyse der Informationen zu ermöglichen.“3 Große Datenmengen und deren Handhabung können durch Volumen, Viel- falt, Geschwindigkeit und Wahrhaftigkeit (die vier Vs) erklärt und dargestellt werden (siehe Abbildung 1):4 Volume: Datenmenge (Volume) - die Menge der erzeugten Daten: Diese Menge ist aufgrund der zunehmenden Anzahl z. B. der über das „Internet of Things“ verbundenen Datenquellen, ihrer höheren Auf- lösung sowie der Datentiefe explodiert. Die Herausforderung für KI- Anwendungen besteht darin, diese sehr große Datenmenge zu ver- arbeiten, zu analysieren und zu pflegen. Variety: Datenvielfalt (Variety) - die Heterogenität der Daten: Verur- sacht durch die Vielfalt der Datenquellen. Mehrere Datenquellen be- schreiben ein Ereignis und liefern unterschiedliche Datenformate in strukturierter oder sogar unstrukturierter Form. Diese Daten sind nicht auf Sensordaten beschränkt, sondern können z. B. auch das Ex- pertenwissen eines Maschinenbedieners sein. Die KI muss daher In- formationen aus verschiedenen Quellen mit unterschiedlichen Da- tentypen nutzen. Velocity: Geschwindigkeit (Velocity) – Geschwindigkeit: Die Ge- schwindigkeit, mit der Daten erzeugt werden, die derzeit in vielen Fällen in Echtzeit erfolgt. Für einige Anwendungen ist die Geschwin- digkeit der Datengenerierung entscheidend, da sie die Gültigkeit der Daten bedingt. Häufig führt dies zu einem Kompromiss zwischen der Geschwindigkeit der Datenerzeugung und ihrer Verarbeitung. Die La- tenzzeit zwischen Generierung und Verarbeitung ist ein wichtiger Faktor für KI-Anwendungen. Veracity: Datenqualität für Analysen (Analytics) - Wie oben beschrie- ben, ist ein KI-Algorithmus nur so leistungsfähig wie die Qualität der Daten, mit denen er gefüttert bzw. trainiert wird. Da Anwendungen, die auf Daten geringerer Qualität basieren, zu falschen Vorhersagen führen können, muss die KI das Problem der Datenqualität mildern, um weiterhin brauchbare Ergebnisse zu liefern. 3 Vgl. Mills et al., 2012 4 Vgl. ISO/IEC DIS 20546, Information technology – Big data – Overview and vocabulary 3 Big Data Data olu e Data elocit alierbar eit Anal se von von Daten Datenstrea s Kilob tes, eriodisch-, egab tes, chtzeitdaten igab tes, -verarbeitung Terab tes T eets, Accurate und ensordaten, inaccurate ideodaten, Daten etc. Data eracit Data ariet Datenqualit t für eterogenit t Anal sen der Daten Abbildung 1: 4V-Modell Big Data 4