Full Transcript

Einführung Big Data **Was ist Big Data? ** Der Begriff **„Big Data" **beschreibt eine** große Menge an Daten**. Unternehmen können die (un-)strukturierten Datenmengen sammeln, analysieren und daraus Schlüsse ziehen. So können sie **evidenzbasierte Entscheidungen **treffen. Die Daten können dabei ...

Einführung Big Data **Was ist Big Data? ** Der Begriff **„Big Data" **beschreibt eine** große Menge an Daten**. Unternehmen können die (un-)strukturierten Datenmengen sammeln, analysieren und daraus Schlüsse ziehen. So können sie **evidenzbasierte Entscheidungen **treffen. Die Daten können dabei **aus vielen Bereichen kommen**, wie beispielsweise aus Social Media, der Finanzindustrie oder dem Gesundheitswesen. Als Datenquellen kommen unter anderem Kredit- und Kundenkarten, aber auch vernetze Geräte wie Smartphones oder Smartwatches in Frage. Big Data, Big Data Definition, was ist big data, Big Data einfach erklärt, bigdata, definition big data, was bedeutet big data, big data bedeutung  direkt ins Video springen Bewertet werden die Daten nach dem sogenannten **3-V-Modell**: - - - Aber nicht nur die Daten selbst sind wichtig. Stattdessen kommt es viel mehr darauf an, was ein Unternehmen mit ihnen anfängt. **Big Data Chancen ** Weiß ein Unternehmen Big Data sinnvoll für sich zu nutzen, kann es sich einen großen **Wettbewerbsvorteil** sichern. Denn durch das Auswerten der gesammelten Daten können Unternehmen neue Erkenntnisse über ihre Arbeitsprozesse oder Nutzer gewinnen. Diese helfen, dabei: - - - - Im Folgenden sind ein paar konkrete Beispiele dazu aufgelistet. **Big Data Kritik ** Big Data stellt also eine große finanzielle Chance für Unternehmen dar. Trotzdem herrscht in der Gesellschaft eine allgemeine Skepsis gegenüber dem Thema. Denn bei der Datenanalyse gilt: je mehr und spezifischer die Daten, desto besser die Erkenntnisse. Deshalb sorgen sich viele Bürger um ihren **Datenschutz**. Oft liegt von den Nutzern kein ausdrückliches Einverständnis für die Verwendung der Daten vor. Außerdem gibt es für die User oft keine Transparenz über die Datenhandhabung. Sie wissen nicht, was mit ihren Daten passiert oder welche Unternehmen Zugriff darauf erhalten.  Somit kann Big Data auch einen** Eingriff in die Privatsphäre** bedeuten. Denn die Unternehmen können durch die Datenanalyse tiefe Einblicke in die Gewohnheiten und charakterlichen Züge jedes Einzelnen gewinnen. Deshalb fürchten sich viele Bürger vor einer **Überwachung**. Big Data wird dann oft als **Big Brother** wahrgenommen. Deshalb wurden staatliche Datenschutzregulierungen wie die **EU-Datenschutzgrundverordnung** **(DSGVO)** ins Leben gerufen. Sie sollen dafür sorgen, dass nur relevante und anonymisierte Daten gesammelt werden. Dennoch ist es für viele Unternehmen heutzutage unerlässlich, Big Data zu nutzen. Denn sonst steht ihre Wettbewerbsfähigkeit auf dem Spiel! **Big Data Strategie ** Um mit dem Marktwettbewerb der Industrie 4.0 mitzuhalten, bemühen sich viele Unternehmen um **Big Data Strategien**. Diese umzusetzen, ist aber nicht immer einfach. Denn die großen Datenmengen sind teilweise sehr unübersichtlich! Aber in diesen** 5 Schritten** lässt sich das „Datenchaos" in den Griff bekommen: 1. 2. 3. 4. 5. **CRISP- DM** Für die Nutzung von Big Data benötigt ein Unternehmen gute Systeme zur **Verwaltung großer Datenmengen**. Außerdem sollte es geeignete technische Plattformen für eine effiziente Verarbeitung besitzen. Aber das Sammeln und Verarbeiten von Daten ist nur die halbe Miete. Denn die Daten müssen auch **zielgerichtet analysiert** und bewertet werden können! Die strukturierte Auswertung dieser Daten wird auch **„Data-Mining"** genannt. \ Data Mining ist interdisziplinär und nutzt Erkenntnisse aus den Bereichen der **Informatik**, **Mathematik** und **Statistik**. Dabei wird unter anderem auch das [**maschinelle Lernen **](https://studyflix.de/informatik/machine-learning-4356) eingesetzt, um neue Trends und Muster ausfindig zu machen. Der **CRISP-DM** (**Cr**oss-**I**ndustry **S**tandard **P**rocess for **D**ata **M**ining) ist ein einheitlicher Standard für die Entwicklung von Data Mining Prozessen. Er hilft Unternehmen bei der Strukturierung ihrer Data Mining Projekte. Der CRISP-DM besteht aus** 6 Schritten**: 1. 2. 3. 4. 5. 6. Geschichte von Big data **Detailliertere Geschichte** Die folgenden Ausführungen sind etwas detaillierter: **Anfänge und Entwicklung** Die Ursprünge von Big Data reichen zurück in die Zeit vor der offiziellen Prägung des Begriffs. Bereits in den 1960er Jahren begannen Organisationen wie die NASA und grosse Unternehmen, enorme Datenmengen zu verarbeiten, die durch die damals neuen Computer- und Datenbanktechnologien möglich wurden. Der eigentliche Begriff „Big Data" und das Konzept dahinter formten sich jedoch erst mit der digitalen Revolution und der Verbreitung des Internets Ende der 1990er und Anfang der 2000er Jahre. **Der Begriff \"Big Data\"** „Big Data" wurde Anfang der 2000er Jahre als Fachbegriff eingeführt, um die explosionsartig anwachsenden Datenmengen zu beschreiben, die mit herkömmlichen Datenbanken und Werkzeugen nicht mehr effektiv verwaltet werden konnten. John Mashey, ein Computerwissenschaftler, ist einer der Schlüsselfiguren, die den Begriff popularisierten und die Herausforderungen sowie die Möglichkeiten dieser neuen Datenära in zahlreichen Vorträgen und Publikationen diskutierten. **Technologische Meilensteine** Ein wichtiger Meilenstein in der Geschichte von Big Data war die Entwicklung von Hadoop im Jahr 2006. Diese Open-Source-Plattform, basierend auf den Forschungen von Google zu MapReduce und dem Google File System, ermöglichte es Unternehmen, enorme Datenmengen auf kostengünstiger Standardhardware zu speichern und zu verarbeiten. Hadoop löste eine Innovationswelle aus und führte zur Entwicklung weiterer Big Data-Technologien wie NoSQL-Datenbanken, Apache Spark und spezialisierten Big Data-Analyseplattformen. **Big Data wird Mainstream** Mit der weiten Verbreitung von Smartphones und sozialen Medien in den 2010er Jahren wuchs die Menge der generierten Daten exponentiell. Firmen jeder Grösse erkannten, dass die Analyse grosser Datenmengen wertvolle Einsichten in Kundenverhalten, Betriebseffizienz und Markttrends liefern konnte. Big Data wurde zu einem zentralen Element vieler Geschäftsstrategien, und die Nachfrage nach Datenwissenschaftlern und spezialisierten Analytikern stieg stark an. **Heutige Bedeutung und Zukunftsaussichten** Heute ist Big Data allgegenwärtig und bildet die Grundlage für Entwicklungen im Bereich des maschinellen Lernens und der künstlichen Intelligenz. Es treibt Innovationen in sämtlichen Industriezweigen voran, von der Gesundheitsversorgung über das Finanzwesen bis zur Produktion. Die Zukunft von Big Data könnte in Technologien wie dem Internet der Dinge (IoT) und noch weiter fortgeschrittenen KI-Systemen liegen, die noch intelligentere, datengesteuerte Lösungen ermöglichen. Data Lake **Was ist ein Data Lake? ** Ein **Data Lake** (*deutsch: „Datensee"*) beschreibt in der Informatik einen sehr **großen Speicher**, in dem Daten in ihrem **Rohformat** gespeichert werden. Das bedeutet, dass ein Data Lake auch unstrukturierte Daten wie Bilder oder Videos aus den **verschiedensten Quellen** problemlos aufnehmen kann. ![Data Lake, Datalake, Data Lakes, Data Lake Definition, what is a data lake](media/image2.png)  direkt ins Video springen Data Lake Damit kann ein Data Lake einem Unternehmen einen großen **Wettbewerbsvorteil**verschaffen. **Beispiel: **Ein Unternehmen könnte in einem Data Lake all seine Verkaufstransaktionen analysieren. Dabei können Logdateien, Kundenmeinungen oder Daten aus Clickstreams und sozialen Medien mit einbezogen werden. So wird es leichter, personalisierte Werbung zu schalten oder Preise festzulegen. **Data Lake vs. Data Warehouse ** In Bezug auf die Speicherung großer Datenmengen ([**„Big Data" **](https://studyflix.de/informatik/big-data-4250)) fällt oft nicht nur der Begriff **Data Lake**, sondern auch **Data Warehouse**. Das liegt daran, dass Data Lakes und Data Warehouses ähnlich genutzt werden: - - Allerdings unterscheiden sie sich fundamental in ihren Konzepten und der Art der Datenspeicherung: - - Data Lake, Datalake, Data Lakes, Data Lake Definition, what is a data lake, Data Lake vs Data Warehouse, Data Warehouse vs Data Lake  direkt ins Video springen Data Lake vs Data Warehouse Hier findest du nochmal alle wichtigen Unterschiede auf einen Blick:   **Data Lake** **Data Warehouse** --------------------------------- ------------------------------------------------------------------------------------------------ ------------------------------------------------------------ **Datenstruktur** roh verarbeitet **Zweck der Daten** noch nicht festgelegt bekannt **Datenaufbereitung** erst, wenn die Daten benötigt werden vor der Ablage **Benutzer** [**[Data Scientists]**](https://studyflix.de/jobs/berufe/data-scientist-4321) Business-Anwender **Zugänglichkeit für Benutzer** komplex, Nutzer muss sich mit den unterschiedlichen Datenarten und ihren Beziehungen auskennen einfach, da strukturiertes Schema **Flexibilität** passt sich leicht an Veränderungen an durch definiertes und strukturiertes Schema nicht flexibel **Data Lakes: Chancen und Herausforderungen ** Aufgrund seiner flexiblen Eigenschaften bieten Data Lakes viele **Chancen** für ein Unternehmen: - - - - Aber bei all den **Chancen** gibt es auch einige **Herausforderungen**: - - - **Definition: Datensee (Data Lake) und Datensumpf** Ein **Data Lake** (*deutsch: Datensee*) ist in der Informatik ein Repository, das unstrukturierte Daten in ihrem Rohformat aufnimmt. Wenn keine regelmäßigen Datenqualitäts- und Data-Governance-Maßnahmen durchgeführt werden, wird er zu einem **Datensumpf**. \ In einem Datensumpf sind die Daten aufgrund fehlender Metadaten, gebrochener Beziehungen und mangelhafter Organisation nicht mehr sinnvoll für Analysen nutzbar. CRISP-DM **Was ist CRISP DM? ** Der **CRISP DM** ist ein einheitlicher Standard für die Entwicklung von Data Mining Prozessen und hilft Unternehmen bei der Strukturierung ihrer Projekte. Der Name CRISP-DM steht für **Cr**oss **I**ndustry** S**tandard **P**rocess for **D**ata **M**ining. Der Data Mining Standard wurde 1996 in Mitarbeit zahlreicher namhafter Konzerne entwickelt und wird von der EU gefördert. Er hat das **Ziel**, ein einheitliches Vorgehensmodell für Data Mining Projekte zu schaffen, das zudem branchenübergreifend nutzbar ist. Dabei ist eine Schritt-für-Schritt-Anleitung entstanden, die aus **6 Phasen** besteht. **Die 6 Phasen eines Data Mining Projekts ** Das CRISP DM Modell ermöglicht [**Data Scientists **](https://studyflix.de/jobs/berufe/data-scientist-4321) und [**Data Analysts **](https://studyflix.de/jobs/berufe/data-analyst-4194), ein Data Mining Projekt strukturierter und effizienter anzugehen. Es ist in folgende **6 Phasen** unterteilt: 1. 2. 3. 4. 5. 6. Allerdings handelt es sich bei dem CRISP DM Modell **nicht** um einen **einmaligen, linearen Durchlauf**! Denn je nach Ergebnissen der einzelnen Phasen kann es erforderlich sein, in eine frühere Phase zurückzuspringen oder die gleiche Phase noch einmal zu wiederholen. Außerdem kann die Gewichtung der einzelnen Phasen von Projekt zu Projekt variieren. Aufgrund dieses [**agilen Arbeitens **](https://studyflix.de/wirtschaft/agiles-arbeiten-3435)wird das CRISP DM Modell häufig nicht als ein Flussdiagramm, sondern als ein** iterativer Kreislauf** dargestellt: ![CRISP DM, CRISP-DM, CRISP Modell, CRISP DM Modell, Abaluf Crisp DM, Schema](media/image4.jpeg)  direkt ins Video springen Die 6 Phasen des CRISP DM Modells Im Folgenden wird jede der Phasen ausführlich beschrieben. **Phase 1: Business Understanding ** In der ersten Phase des CRISP-DM Modells geht es darum, ein **tieferes Geschäftsverständnis** zu entwickeln. Die betriebswirtschaftliche Problemstellung sollte präzise beschrieben werden. Anschließend sollten konkrete Ziele gesetzt werden.  - - - - **Phase 2: Data Understanding ** Die zweite Phase des CRISP DM Modell beschäftigt sich damit, ein **Datenverständnis** zu entwickeln. Sie beinhaltet unter anderem die Analyse und Bewertung der Datenqualität. Die Phase des CRISP-DM Modell besteht aus folgenden 4 Unterpunkten: - - - - **Phase 3: Data Preparation ** In der dritten Phase des CRISP-DM Modells geht es um die **Datenvorbereitung. **Durch Bereinigung auf Aufbereitung wird ein finaler Datensatz erstellt, der die Basis für die nächste Phase der Modellierung bildet. - - - - **Phase 4: Modeling ** In der vierten Phase des CRISP-DM Modells geht es darum, die **Daten zu modellieren**. In der Regel können hier mehrere Modellierungstechniken des Data Minings zum Einsatz kommen. Einige Techniken stellen dabei spezifische Anforderungen an die Daten. Deshalb ist es hier gut möglich, nochmal eine Phase im CRISP DM Modell zurückspringen zu müssen, um beispielsweise die Daten anders zu formatieren. - - - **Phase 5: Evaluation ** In der fünften Phase des CRISP-DM Modells geht es um die **Evaluierung der Modelle**. Die erstellten Datenmodelle sollten dazu exakt mit der Aufgabenstellung des Projekts abgeglichen werden. Sind die Modelle nicht ausreichend, sollte noch einmal in die vorherigen Phasen gesprungen werden. - - - **Phase 6: Deployment ** Die letzte Phase beschäftigt sich mit der **Bereitstellung der Ergebnisse**. Hier werden die gewonnen Erkenntnisse geordnet, zusammengefasst, visualisiert und dem Auftragsgeber präsentiert. Dieser hat nun die Möglichkeit, die Ergebnisse für sich zu nutzen und strategische Entscheidungen für sein Unternehmen zu treffen. **CRISP DM: Vor- und Nachteile** Das CRISP DM Modell ist unter Data Scientists eine der beliebtesten Herangehensweise für Data Mining Projekte. Die Gründe hierfür sind vielfältig: - - - Aber das CRISP DM Modell steht auch in der Kritik: - - **Datenmanagement Tools** Big Data erfordert robuste Lösungen für das Management und die Verarbeitung riesiger Datenmengen. Zwei der wichtigsten Systeme in diesem Bereich sind Hadoop und Apache Spark. **Hadoop** [[Hadoop]](https://hadoop.apache.org/docs/r1.2.1/index.html) ist ein Framework, das die Speicherung und Verarbeitung grosser Datenmengen auf Clustern von Standardhardware ermöglicht. Es basiert auf dem Hadoop Distributed File System (HDFS), das eine hohe Datenverfügbarkeit und Fehlertoleranz gewährleistet, indem es Daten auf mehrere Maschinen verteilt. Hadoop umfasst auch Tools wie MapReduce, das für die effiziente Datenverarbeitung und Analyse genutzt wird. **Apache Spark** [[Spark]](https://spark.apache.org/) wurde als eine schnellere und erweiterte Alternative zu Hadoop MapReduce entwickelt. Es ist bekannt für seine hohe Verarbeitungsgeschwindigkeit und seine Fähigkeit, komplexe Datenpipelines zu unterstützen. Wir gehen im nächsten Fach zu KI-Technologien und Praxiswerkzeugen auf Apache Spark ein. **Analytische Tools** Neben Datenmanagement-Tools benötigt Big Data auch spezialisierte analytische Software, um wertvolle Erkenntnisse aus Daten zu ziehen. Zu den Schlüsseltechnologien in diesem Bereich gehören R, Python mit Pandas und PySpark, und Google BigQuery. **R und Python ** [[R]](https://www.r-project.org/) und [[Python]](https://www.python.org/) sind führende Programmiersprachen für Datenanalyse und maschinelles Lernen. R ist besonders stark in statistischen Analysen, während Python durch Bibliotheken wie Pandas für Datenmanipulation und PySpark für die Arbeit mit grossen Datensätzen in einem Spark-Umfeld breite Anwendung findet. Diese Werkzeuge sind wegen ihrer Flexibilität, ihrer mächtigen Bibliotheken und ihrer aktiven Community sehr beliebt. Wir gehen im nächsten Fach zu KI-Technologien und Praxiswerkzeugen auf Teilbereiche von Python ein. **Google BigQuery** [[BigQuery]](https://cloud.google.com/bigquery/) ist ein Enterprise-Data-Warehouse von Google, das speziell für Big Data entwickelt wurde. Es ermöglicht superschnelle SQL-Abfragen auf grosse Datenmengen und ist vollständig in der Cloud gehostet, was bedeutet, dass Benutzer komplexe Abfragen durchführen können, ohne sich um die Infrastruktur kümmern zu müssen. BigQuery skaliert automatisch und kann Petabytes an Daten verarbeiten, was es zu einem mächtigen Tool für Unternehmen macht, die riesige Datensätze analysieren müssen. **Anwendungsfälle** Du hast im Einführungsvideo zu Big Data bereits einige Anwendungsfälle kennengelernt: - Direktmarketing - Betrug erkennen (Fraud Detection) Wir betrachten beispielhaft noch drei weitere mögliche Anwendungsfälle. **Gesundheitswesen** Im Gesundheitsbereich ermöglicht Big Data die Entwicklung von personalisierter Medizin, indem es umfangreiche Patientendaten analysiert. Durch die Auswertung von Genomsequenzen zusammen mit klinischen Daten können Ärztinnen und Ärzte massgeschneiderte Behandlungspläne erstellen, die auf die genetische Konstitution der einzelnen Patienten abgestimmt sind. Zudem helfen prädiktive Modelle, die auf Big Data basieren, Krankheitsverläufe und potenzielle Epidemien vorherzusagen, was präventive Massnahmen und eine bessere Ressourcenverteilung ermöglicht. **Einzelhandel** Im Einzelhandel verändert Big Data die Art und Weise, wie Unternehmen ihr Inventar verwalten und mit ihren Kunden interagieren. Durch die Analyse von Kaufmustern und Kundenfeedback können Einzelhändler den Lagerbestand optimieren und personalisierte Marketingstrategien entwickeln. Dies führt nicht nur zu einer effizienteren Lagerhaltung, sondern auch zu einer Steigerung der Kundenzufriedenheit und -bindung. **Verkehr** Big Data spielt eine entscheidende Rolle bei der Optimierung von Verkehrsflüssen und der Vorhersage von Verkehrsmustern. Verkehrsmanagement-Systeme nutzen Sensordaten und historische Verkehrsdaten, um Staus zu minimieren und die Verkehrsplanung zu verbessern. Dies führt zu effizienteren öffentlichen Verkehrsmitteln und einer Verringerung der Umweltbelastung durch reduzierten Kraftstoffverbrauch.

Use Quizgecko on...
Browser
Browser