Big Data PDF
Document Details
Uploaded by AchievablePlateau
Deutsche Hochschule für angewandte Wissenschaften
Tags
Summary
This document discusses aspects of Big Data, focusing on data privacy and security. It explores the implications of using and analyzing large datasets, emphasizing the importance of regulatory compliance. It also touches on digital asset management using Robo-advisors.
Full Transcript
Big Data vermeiden, bevor diese durch Prüfstellen und Aufsichtsbehörden entdeckt werden. Insbesondere die folgenden beiden Bereiche sind hierbei von zentraler Be- deutung:28 Die Einhaltung von regulatorischen Vorschriften dauerhaft zu kon- trollieren und sicherzustellen: wird...
Big Data vermeiden, bevor diese durch Prüfstellen und Aufsichtsbehörden entdeckt werden. Insbesondere die folgenden beiden Bereiche sind hierbei von zentraler Be- deutung:28 Die Einhaltung von regulatorischen Vorschriften dauerhaft zu kon- trollieren und sicherzustellen: wird ein Bezug zwischen den gelten- den Vorschriften und den Unternehmensprozessen und -daten her- gestellt, die davon betroffen sind, so lassen sich durch gezielte Über- wachung von Kennzahlen drohende Abweichungen frühzeitig erken- nen. Konsequente Prüfung aller Transaktionsdaten: die Prüfung von Transaktionen auf Besonderheiten, Auffälligkeiten und ihre Bedeu- tung für die Beeinflussung von Compliance-Risiken geschieht in der Praxis aktuell meist stichprobenartig und periodisch. Eine durchge- hende Prüfung aller Transaktionen kann hier zu mehr Transparenz führen, um die Anforderungen aufsichtsrechtlicher Meldeprozesse zu erfüllen. 3.6.3 Digitale Vermögensverwaltung mittels Robo-Advisor Robo-Advisor sind auf Algorithmen basierende Systeme, die automatisiert Trading- oder Anlagestrategien für den Finanzmarkt umsetzen, um in Pro- dukte wie Aktien und Anleihen zu investieren. Sie erledigen damit viele Auf- gaben, für die früher teure Finanzexperten erforderlich waren. Die Dienst- leistungen reichen von automatischem Rebalancing bis hin zur Steueropti- mierung und erfordern wenig bis keine menschliche Interaktion. Sie ermög- lichen es auch auf bestimmte Marktsituationen zu reagieren und beispiels- weise in einem Crash-Szenario automatisch eine Umschichtung von Vermö- gen in sichere Anlageklassen vorzunehmen. Mittels solcher Systeme lassen sich auch individuelle und beliebig komplexe Anlagestrategien automatisieren, die auf verschiedenen äußeren Bedingun- gen beruhen. So sind die Systeme in der Lage, Tausende von Variablen auf einmal zu betrachten, einschließlich demografischer Daten, Timing, histori- scher Trends, technischer Analyse, Fundamentalanalyse, Marktstimmung und mehr. Diese Daten können anschließend in Bezug auf die eigene Anla- gestrategie bewertet werden, sodass auf Basis der Analyse Handlungsemp- fehlungen abgeleitet und umgesetzt werden können werden. 28 Vgl. Valenta, 2019 29 Big Data 6. Datenschutzrechtliche Aspekte 6.1 Datenschutzrechtliche und Datenethik im Bereich Big Data Der Erfolg von Big Data in den vergangenen Jahren ist insbesondere getrie- ben von den Potentialen und Chancen, die sich durch die Nutzung der Daten ergeben. Eng verbunden mit der Fragen nach den technischen Möglichkei- ten zur Nutzung von Big Data sind aber auch datenschutzrechtliche sowie ethische Fragestellungen. Diese fanden in der allgemeinen Diskussion bis- lang vergleichsweise wenig Beachtung, rücken in den letzten Jahren aber vermehrt in den Fokus. Die Erstellung von Nutzerprofilen ermöglicht eine Personalisierung von Diensten und Anwendungen, die eine völlig neue Qua- lität erreicht: Big Data und die massenhafte Verarbeitung von Daten durch maschinelles Lernen und Verfahren der Künstlichen Intelligenz verstärken bereits seit Jahren bekannte Risiken, die aus der Sammlung, Verknüpfung und Analyse von Daten resultieren. Insbesondere fehlende Transparenz über die Effekte, die das Teilen von privaten Informationen und deren ma- schinelle Verarbeitung haben kann, hat dazu geführt, dass der Einzelne die Kontrolle über die Sammlung und Verwendung seiner persönlichen Daten verloren hat. In der Konsequenz wird es für den Einzelnen immer schwerer, von lernenden Algorithmen getroffene Entscheidung im Detail nachzuvoll- ziehen, zu hinterfragen und Einblicke in die implizit in den Daten vorhande- nen Annahmen zu erhalten. Transparenz ist aber eine zentrale Vorausset- zung, um mögliche Verzerrungen, die personalisierte Algorithmen haben könnten, zu analysieren und kritisch zu reflektieren, z. B. Verzerrungen, die zu einer Diskriminierung bestimmter Bevölkerungsgruppen führen.48 6.2 Klassifizierung von Datentypen Je nach Anwendungsfall und Datenquelle ergeben sich unterschiedliche Da- tentypen, die im Rahmen einer datenschutzrechtlichen Betrachtung berück- sichtigt werden müssen. Zu unterscheiden sich die Daten insbesondere danach, ob sie von einem Nut- zer explizit angegeben werden (z. B. Angaben zu demografischen Aspekten, seiner politischen Gesinnung oder seinem aktuellen Einkommen) oder auto- matisch erzeugt werden, während er einen Dienst nutzt (z. B. Zeitspanne, die ein Nutzer ein Bild betrachtet oder Mobilitätsdaten, die durch Mitführen eines Smartphons erzeugt werden). Ein weiteres Unterscheidungskriterium 48 Vgl. Gambs, 2019 77 Big Data betrifft die Eindeutigkeit, mit der diese Daten einem bestimmten Nutzer zu- geordnet werden können, ihn also gegenüber anderen Nutzern eindeutig identifizieren. Folgende Datentypen lassen sich unterscheiden:49 Inhalts-, Nutzer und Nutzungsdaten: hierzu zählen Daten, die eine eindeutige Identifikation eines Nutzers zulassen sowie Nutzungsda- ten (Wie oft und lange wurde z. B. ein Dienst genutzt) und die Inhalts- daten (bspw. Inhalt einer Mail, die über den Dienst versendet wird). Verhaltens- und Kontextdaten: hierunter fallen Daten, die aus der Nutzung von mit Sensorik ausgestatteten Geräten resultieren, bei- spielsweise Bewegungs- oder Beschleunigungsdaten, die zur Schritt- messung erhoben werden sowie der Kalorienverbrauch. Metadaten: bezeichnen Daten über Daten, welche die primären Da- ten um weitere Informationen ergänzen. Für das Beispiel der direk- ten Kommunikation per Instant Messaging fallen beispielsweise Me- tadaten an, wer wann mit wem Nachrichten ausgetauscht hat oder wie groß diese Nachrichten waren. Der Inhalt der Nachrichten selbst ist nicht Teil der Metadaten. Während Metadaten bereits sehr viele Rückschlüsse beispielsweise über das Kommunikations- oder Bewegungsverhalten von Personen zulassen, sind im Rahmen von Big-Data-Analysen häufig auch Auswertungen über Inhalts- und Verhaltensdaten von Interesse. Diese dringen allerdings noch wesentlich tie- fer in die Privatsphäre der Nutzer ein, weshalb sie einem besonderen daten- schutzrechtlichen Schutz unterliegen. Viele soziale Netzwerke (auch die als „Daten ra en“ be annten Dienste aceboo und hatsApp er öglichen beispielsweise eine Ende-zu-Ende-verschlüsselte Kommunikation zwischen ihren Nutzern. Dies bedeutet, dass der Inhalt von Nachrichten vom Betreiber des Dienstes nicht mitgelesen werden kann. Der Zugriff auf Metadaten bleibt allerdings bei dieser Form der Verschlüsselung weiterhin möglich. 6.3 Datenschutzrechtliche Herausforderungen Bei den eisten unter „Big Data“ zusa engefassten Daten handelt es sich um Informationen, die zumindest einen mittelbaren Bezug zu Einzelperso- nen sind, d. h. die durch die Interaktion einer Person mit einem technischen System erzeugt wurden. Die meisten Daten fallen bei der Nutzung von On- line-Diensten an, aber auch Interaktionen in der physischen Welt erzeugen digitale Datenpunkte. Hierzu gehören beispielsweise Mobilitätsdaten, 49 Vgl. Weyer et al., 2018 78 Big Data Gesundheits- und Genomdaten, soziale Netzwerke oder Daten, die von IoT- Geräten (Internet der Dinge) erfasst werden vgl. Kapitel „Ausgewählte Big- Data-Szenarien in der Praxis“. De entsprechend ist es ichtig anzuer en- nen, dass eine Verarbeitung dieser Daten immer auch die Privatsphäre der- jenigen Personen berührt, die an der Erzeugung dieser Daten beteiligt wa- ren.50 Der Autor Sébastien Gambs fasst vier zentrale datenschutzrechtliche Her- ausforderungen im Umgang mit Big Data wie folgt zusammen:51 Vergrößerung der Risiken für die Privatsphäre: bedingt durch die massive Zunahme der gesammelten Daten und der Möglichkeiten zur Verknüpfung bislang getrennter Datenbestände gibt es eine starke Tendenz zur Schaffung umfassend verknüpfter Datenquellen. Wiederverwendung von Daten: Explorative Analysen sind essenziell für die Nutzung von Potenzialen rund um Big Data, bedingten aber auch, dass bei der Sammlung der Daten noch nicht ultimativ fest- steht, welchem Analysezweck sie später dienen. Dementsprechend kann seitens der Nutzer auch nur eine allgemeine Zustimmung zur Datenverarbeitung gegeben werden. Feingranulare Rückschlüsse auf Personen: durch verbesserte Algo- rithmen können aus Daten heute wesentlich mehr und detailliertere Rückschlüsse auf dahinterstehende Personen abgeleitet werden als dies vor einigen Jahren noch der Fall war. Teilweise sind Informatio- nen ableitbar, die der Person selbst nicht bekannt sind, z. B. bezüglich ihres Gesundheitszustandes. Weitreichende Datenschutzverletzungen: sind Daten erst einmal of- fengelegt besteht keine sichere Möglichkeit, sie wieder zu entfernen oder ihre Verbreitung zu kontrollieren. Wenn diese Daten Eingang in die Trainingsphase von KI-Systemen gefunden haben, kann selbst das Löschen aller Kopien der Daten nicht verhindern, dass die enthalte- nen Informationen als Teil eines Lernalgorithmus weiter Verwen- dung finden. Beispiel: Google hat bereits im Jahr 2012 seine Datenschutzrichtlinien dahingehend geändert, dass eine gemeinsame Nutzung von Daten durch die verschiede- Beispiel nen Dienste des Unternehmens möglich wird. Zuvor durften Daten nur ge- trennt pro Dienst und unter der Regelung individueller Nutzungsbedingun- gen verarbeitet werden. 50 Vgl. Gambs, 2019 51 Vgl. Gambs, 2019 79 Big Data 6.4 Rechtliche Regelungen zum Datenschutz Die Einführung der Datenschutz-Grundverordnung (DSGVO) der Europäi- schen Union im Jahr 2018 gilt als Meilenstein zur Regelung der Verarbeitung personenbezogener Daten. Sie stellt den Schutz personenbezogener Daten innerhalb der EU sicher und regelt insbesondere unter welchen Vorausset- zungen eine Verarbeitung zulässig ist: a) „die betroffene Person hat ihre Einwilligung zu der Verarbeitung der sie betreffenden personenbezogenen Daten für einen oder mehrere bestimmte Zwecke gegeben; b) die Verarbeitung ist für die Erfüllung eines Vertrags, dessen Ver- tragspartei die betroffene Person ist, oder zur Durchführung vorver- traglicher Maßnahmen erforderlich, die auf Anfrage der betroffenen Person erfolgen; c) die Verarbeitung ist zur Erfüllung einer rechtlichen Verpflichtung er- forderlich, der der Verantwortliche unterliegt; d) die Verarbeitung ist erforderlich, um lebenswichtige Interessen der betroffenen Person oder einer anderen natürlichen Person zu schüt- zen; e) die Verarbeitung ist für die Wahrnehmung einer Aufgabe erforder- lich, die im öffentlichen Interesse liegt oder in Ausübung öffentlicher Gewalt erfolgt, die dem Verantwortlichen übertragen wurde; f) die Verarbeitung ist zur Wahrung der berechtigten Interessen des Verantwortlichen oder eines Dritten erforderlich, sofern nicht die In- teressen oder Grundrechte und Grundfreiheiten der betroffenen Per- son, die den Schutz personenbezogener Daten erfordern, überwie- gen, insbesondere dann, wenn es sich bei der betroffenen Person um ein Kind handelt.“ 52 Welche Konsequenzen die gesetzlichen Regelungen für Big-Data-Analysen hat, lässt sich insbesondere aus dem in Absatz 1 geregelten Grundsatzes der Zweckbindung erkennen, der zu den wichtigsten deutschen und europäi- schen Datenschutzprinzipien gehört. Er wendet sich gegen die unbegrenzte Verknüpfung von großen Datenmengen.53 Der Grundsatz dieser Zweckbindung umfasst, dass personenbezogene Daten nur für einen genau festgelegten, eindeutigen und rechtmäßigen Zweck er- hoben werden dürfen und später nicht für einen mit diesen Bestimmungen Merksatz unvereinbaren Zweck verarbeitet, werden dürfen. Der Datenproduzent 52 Art. 6 DSGVO Rechtmäßigkeit der Verarbeitung 53 Vgl. Culik, 2018 80 Big Data muss daher die betroffene Person bei der Erhebung der Daten über den Zweck informieren und diesen bei der Verarbeitung einhalten.54 Viele Big-Data-Anwendungen beruhen aber gerade auf der Verknüpfung von Daten, die aus unterschiedlichen Quellen, zu unterschiedlichen Zeiten, in un- terschiedlichen Kontexten und für unterschiedliche Zwecke erhoben wur- den. Die DSGVO stellt klar, dass das Ergebnis der Datenverarbeitung zu sta- tistischen Zwecken keine personenbezogenen Daten enthalten darf. Folglich sind viele Big-Data-Anwendungen nicht von der Ausnahme des Grundsatzes der Zweckbindung betroffen. 6.5 Vertrauen im Rahmen von Big-Data-Analysen Vertrauen stellt im Rahmen der Datenanalyse von Big Data eine wesentliche Bedingung dar, wobei verschiedene Phasen und Ebenen unterschieden wer- den können. Zum einen ist Vertrauen in System und Dienste notwendig, da- mit Nutzer überhaupt Daten mit diesen Teilen. Zum anderen ist ein Ver- trauen in die Daten selbst und die Ergebnisse, die aus der Analyse derselben erzielt werden. Schlussendlich muss auch das Vertrauen in die Arbeitsweise der verwendeten Algorithmen gegeben sein. 55 Vertrauen in Datenverarbeiter: Nutzer von datenverarbeitenden Anwendungen und sozialen Netzwerken sind sich oftmals nicht dar- über bewusst, welche Daten sie erzeugen und wie diese Daten ver- arbeitet werden können. Dieser Umstand ist oftmals in einem feh- lenden Verständnis des Geschäftsmodells der Dienste (z. B. kosten- freie Nutzung, Finanzierung über Werbung) oder der technischen Prozesse begründet. Ein Vertrauen darauf, dass Dienste verantwor- tungsvoll mit den Daten der Nutzer umgehen, ist essenziell, damit Nutzer dem Dienst nicht ihr Vertrauen entziehen und zu einem an- deren Anbieter wechseln. Vertrauen in maschinelle Lernverfahren: Die Komplexität von ma- schinellen Lernmodellen macht es schwierig, ihre Vorhersagen zu verstehen und zu erklären, was zu einem Mangel an Vertrauen füh- ren kann, wenn ihre Vorhersagen in einem Entscheidungsprozess verwendet werden, der einen erheblichen Einfluss auf Menschen hat. Dieser Themenkomplex wird als Erklärbarkeit (engl. Explainabi- lity) in der ML-Forschung diskutiert. Die Verwendung von neuronalen Netzen im Bereich des Deep Learning ist ein typisches Beispiel für Modelle, deren Arbeitsweise und Entscheidungsfindung nicht mehr 54 Vgl. Culik, 2018 55 Vgl. Weyer et al., 2018 81 Big Data nachvollziehbar ist und nur schwer interpretierbar ist. Während die Ergebnisse einer Deep-Learning-basierten Vorhersage häufig sehr gut sind, ist dies problematisch, da ein tiefes Vertrauen notwendig ist um den Mangel an Kontrolle auszugleichen, der aus diesem Um- stand folgt. Vertrauen in die Neutralität von Daten: Beim Training von Lernver- fahren auf einer Menge von Daten übernehmen die Algorithmen in den Daten zugrundeliegenden, impliziten Annahmen. Aufgrund ihrer Verbreitung in unserer Gesellschaft ist es wichtig zu untersuchen, in- wiefern Verzerrungen, die aus Big Data gelernt werden, die Arbeits- weise der Algorithmen beeinflussen. Verzerrungen können aus Über- oder Unterrepräsentationen von bestimmten Datenausprägungen resultieren und sind insbesondere in Hinblick auf die möglichen Risi- ken der Diskriminierung von Untergruppen der Bevölkerung rele- vant. Beispiel: Mit Hilfe eines experimentellen Software-Systems untersuchte Amazon, ob sich durch Künstliche Intelligenz eine große Zahl von Jobkandidaten automa- Beispiel tisiert anhand ihrer Lebensläufe auf einer Skala von einem bis fünf Sterne zu bewerten lassen. In den Tests fiel auf, dass das System die Kandidaten für Softwareentwickler-Jobs und andere technische Stellen nicht geschlechts- neutral bewertete. Der Grund hierfür war, dass das Modell Bewerber an- hand typischer Muster in ihren Lebensläufen bewertete. Als Trainingsgrund- lage wurden Lebensläufe verwendet, die das Unternehmen über einen Zeit- raum von zehn Jahren gesammelt hatte. Die meisten stammten von Män- nern, was die männliche Dominanz in der Tech-Industrie widerspiegelt. Folg- lich lernte das System implizit, männliche Kandidaten zu bevorzugen und Le- bensläufe geringer zu bewerten, die das Wort "Frauen" enthielten, wie z. B. "Kapitänin des Frauenschachclubs". Die Ergebnisse verbesserten sich auch nicht, als geschlechterspezifische Bezeichnungen explizit aus den Daten ent- fern wurden: so stufte das System Absolventen von zwei reinen Frauen-Col- leges herab, die den Namen der Schulen nicht genannt hatten. Geschlech- terspezifische Muster waren so tief in den Daten verborgen, dass nur ein neues Training der Modelle auf einem ausgewogenen Datensatz Abhilfe schaffen könnte. Das System wurde seitens Amazon eingestellt. 56 56 Vgl. Dastin, 2018 82