Document Details

AchievablePlateau

Uploaded by AchievablePlateau

Deutsche Hochschule für angewandte Wissenschaften

Tags

big data analysis statistics machine learning data science

Summary

This document provides an overview of big data concepts, including methods for analysis, statistics, and machine learning. It discusses different statistical approaches and concepts, showcasing their potential application in various domains.

Full Transcript

Big Data vermeiden, bevor diese durch Prüfstellen und Aufsichtsbehörden entdeckt werden. Insbesondere die folgenden beiden Bereiche sind hierbei von zentraler Be- deutung:28 Die Einhaltung von regulatorischen Vorschriften dauerhaft zu kon- trollieren und sicherzustellen: wird...

Big Data vermeiden, bevor diese durch Prüfstellen und Aufsichtsbehörden entdeckt werden. Insbesondere die folgenden beiden Bereiche sind hierbei von zentraler Be- deutung:28 Die Einhaltung von regulatorischen Vorschriften dauerhaft zu kon- trollieren und sicherzustellen: wird ein Bezug zwischen den gelten- den Vorschriften und den Unternehmensprozessen und -daten her- gestellt, die davon betroffen sind, so lassen sich durch gezielte Über- wachung von Kennzahlen drohende Abweichungen frühzeitig erken- nen. Konsequente Prüfung aller Transaktionsdaten: die Prüfung von Transaktionen auf Besonderheiten, Auffälligkeiten und ihre Bedeu- tung für die Beeinflussung von Compliance-Risiken geschieht in der Praxis aktuell meist stichprobenartig und periodisch. Eine durchge- hende Prüfung aller Transaktionen kann hier zu mehr Transparenz führen, um die Anforderungen aufsichtsrechtlicher Meldeprozesse zu erfüllen. 3.6.3 Digitale Vermögensverwaltung mittels Robo-Advisor Robo-Advisor sind auf Algorithmen basierende Systeme, die automatisiert Trading- oder Anlagestrategien für den Finanzmarkt umsetzen, um in Pro- dukte wie Aktien und Anleihen zu investieren. Sie erledigen damit viele Auf- gaben, für die früher teure Finanzexperten erforderlich waren. Die Dienst- leistungen reichen von automatischem Rebalancing bis hin zur Steueropti- mierung und erfordern wenig bis keine menschliche Interaktion. Sie ermög- lichen es auch auf bestimmte Marktsituationen zu reagieren und beispiels- weise in einem Crash-Szenario automatisch eine Umschichtung von Vermö- gen in sichere Anlageklassen vorzunehmen. Mittels solcher Systeme lassen sich auch individuelle und beliebig komplexe Anlagestrategien automatisieren, die auf verschiedenen äußeren Bedingun- gen beruhen. So sind die Systeme in der Lage, Tausende von Variablen auf einmal zu betrachten, einschließlich demografischer Daten, Timing, histori- scher Trends, technischer Analyse, Fundamentalanalyse, Marktstimmung und mehr. Diese Daten können anschließend in Bezug auf die eigene Anla- gestrategie bewertet werden, sodass auf Basis der Analyse Handlungsemp- fehlungen abgeleitet und umgesetzt werden können werden. 28 Vgl. Valenta, 2019 29 Big Data 5. Methoden 5.1 Einfache statistische Verfahren Viele der nachfolgend vorgestellten Konzepte aus den Bereichen der Künst- lichen Intelligenz und des maschinellen Lernens basieren auf Statistik und werden im entsprechenden Kurs, sowie in Data Science genauer behandelt. Dennoch sollen die Grundprinzipien auch hier kurz erläutert werden, da sie die methodische Grundlage zur Analyse im Bereich Big Data darstellen. Sta- tistischen Methoden erlauben eine Analyse der Struktur von Daten und ih- ren Beziehungen untereinander um Zusammenhänge und Gesetzmäßigkei- ten zu beschreiben. Ein ausgeprägtes Verständnis statistischer Methoden und grundlegender Konzepte zur Verteilung von Daten und ihrer Repräsen- tativität und Aussagekraft ist für die Anwendung von KI-Verfahren rund um Big Data hilfreich. Es ermöglicht zum einen, die Verfahren effektiv einzuset- zen und beispielsweise die notwendige Datengrundlage zu bewerten und so auszuwählen, dass sinnvolle Ergebnisse erzielt werden. Zum anderen erlaubt es die Interpretation und das Ziehen der richtigen Schlüsse aus den erzielten Ergebnissen. In diesem Abschnitt wird daher eine knappe Zusammenfassung von grundlegenden statistischen Konzepten dargestellt, die für das Ver- ständnis von KI- und Machine-Learning-Verfahren hilfreich sind. 5.1.1 Statistische Grundbegriffe Im Rahmen von statistischen Analysen werden in der Regel Daten analysiert, die zu bestimmten Untersuchungsobjekten (zum Beispiel durch Beobach- tung) festgestellt wurden. In diesem Zusammenhang sind einige Grundbe- griffe wichtig, um Aussagen über die Daten treffen zu können und sie in Be- zug auf ihre Ausprägung zu beurteilen. Merkmalsträger sind Objekte, zu denen Daten erfasst werden, bspw. Patienten, die unter einer bestimmten Krankheit leiden. Merkmale bzw. statistische Variablen beschreiben die Aspekte der Merkmalsträger, die untersucht werden; für eine Gruppe von Patien- ten könnten z. B. Geschlecht, Alter und körperliche Verfassung erho- ben werden. Merkmalsausprägung bzw. Werte definieren die verschiedenen Möglichkeiten, die ein definiertes Merkmal annehmen kann, bspw. ann das er al eschlecht die Auspr gungen „ eiblich“, „ nn- lich“ und „diverse“ anneh en. 55 Big Data verwendet werden, die z. B. auch in der Meteorologie oder im Marketing zur Preisfindung eingesetzt werden, um Ursache-Wirkungs-Modelle zu erstel- len. Korrelationen werden in der Praxis über Korrelationskoeffizienten angege- ben, die ein Maß für die Stärke eines Zusammenhangs zwischen zwei statis- tischen Merkmalen darstellen. Ein Korrelationskoeffizient kann Werte zwi- schen -1 und 1 annehmen, wobei ein Wert von 0 bedeutet, dass kein Zusam- menhang zwischen den beiden Merkmalen besteht. Ein Wert von +1 gibt ei- nen starken positiven Zusammenhang an, das bedeutet, dass sich die beiden Merkmale wertmäßig in die gleiche Richtung bewegen, d. h. nimmt Wert a zu, so nimmt auch Wert b zu. Ein Wert von -1 zeigt dagegen an, dass sich die beiden Merkmale gegenläufig verhalten, d. h. nimmt a einen größeren Wert an, so nimmt b einen kleineren Wert an. Das bekannteste Maß für die Kor- relation ist die Pearson-Produkt-Moment-Korrelation. Sie wird in der Regel it de griechischen Buchstaben ρ rho abge ürzt und ist selbst die rund- lage für viele andere Korrelationskoeffizienten. 5.2 Maschinelles Lernen und Künstliche Intelligenz 5.2.1 Methoden der Künstlichen Intelligenz Künstliche Intelligenz (KI) kann auf unterschiedliche Arten definiert werden, bis heute ist selbst unter Experten keine klare und eindeutige Definition vor- handen. KI ist ein Zweig der Informatik, der sich mit Modellen und Systemen beschäftigt, die mit menschlicher Intelligenz assoziiert werden, wie bspw. das Lernen von Dingen und das logische Denken. Man spricht von KI, wenn eine Maschine kognitive Funktionen wie Mustererkennung, Lernen und Problemlösungsfähigkeiten nachahmt. Zusammenfassend zeigt sich in vier Grundfähigkeiten - Wahrnehmen, Ver- stehen, Handeln und Lernen. Im Vergleich zu früheren Entwicklungen zeichnet das heutige Verständnis des Begriffs "Künstliche Intelligenz" ein differenzierteres Bild von den Poten- zialen und Möglichkeiten der KI. Grundsätzlich kann zwischen sogenannter starker KI und schwacher KI unterschieden werden:35 Starke KI zielt darauf ab, die allgemeine menschliche Intelligenz zu imitieren. Dazu gehören alle Fähigkeiten des Menschen von der Wahrnehmung, dem Denken und der Kommunikation bis hin zum 35 Vgl. Buxmann & Schmidt, 2019 60 Big Data Die Grundgesamtheit definiert die Menge aller potenziellen Merk- malsträger, im Patientenbeispiel sind dies alle Menschen, die an der betreffenden Krankheit leiden. Eine Teilgesamtheit ist ein Ausschnitt der Grundgesamtheit, z. B. alle Patienten einer bestimmten Nationalität. Eine Stichprobe ist eine bestimmte Art der Teilgesamtheit, die für eine Untersuchung verwendet wird; bspw. könnte eine Zufallsstich- probe von 200 Patienten aus Deutschland als Untersuchungsstich- probe bestimmt werden. Statistische Merkmale lassen sich in Bezug auf das Skalenniveau unterschei- den, auf dem sie gemessen werden. Das Skalenniveau gibt an, welche Ver- gleiche zwischen den Daten möglich sind und welche Kennzahlen berechnet werden können. Grundlegend werden vier verschiedene Skalenniveaus un- terschieden: Nominalskalen mit Ausprägungen, die eindeutig unterscheidbar sind, aber nicht in eine bestimmte Reihenfolge gebracht werden kön- nen; Beispiele hierfür sind Namen, Farben oder Kategorien wie Reli- gionen oder Geschlechter. Ordinalskalen mit Ausprägungen, zwischen denen eine natürliche Rangfolge existiert, deren Abstände aber nicht interpretiert werden können; Beispiele hierfür sind Schulnoten von 1 bis 6. Intervallskalen bei denen Abstände zwischen den Ausprägungen sinnvoll interpretiert werden können, die aber keinen natürlichen Nullpunkt besitzen. In der Folge können keine Verhältnisse im Sinne von „x ist doppelt so groß ie “ besti t erden; ein Beispiel ist die Temperaturskala in Grad Celsius. Kardinalskalen oder metrische Skalen besitzen einen natürlichen Nullpunkt und erlauben daher auch Verhältnisoperationen; ein Bei- spiel ist die Temperaturskala in Grad Kelvin. Statistische Merkmale sind ein weit verbreitetes Konzept der deskriptiven Statistik und werden oft zu Beginn einer Datenanalyse eingesetzt, um die Charakteristika des Datensatzes zu beleuchten. Sie beschreiben Eigenschaf- Merksatz ten zur Verteilung von Date, z. B. Mittelwert, Quartile und vieles mehr. Um die Verteilung von Daten zu beschreiben, werden in der deskriptiven Statistik Lagemaße als Maßzahlen verwendet. Sie geben an, in welchem Be- reich sich Daten befinden und lassen Schlüsse bezüglich ihrer Struktur zu. Zu den wichtigsten Parametern gehören die folgenden: 56 Big Data eigenständigen Bewusstsein, der Entwicklung eigener Interessen und Ziele und dem selbstständigen Erlernen neuer Fähigkeiten. Schwache KI konzentriert sich auf klar abgegrenzte Anwendungsbe- reiche, statt die menschliche Intelligenzleistung als Ganzes nachzu- bilden. Charakteristisch für solche Systeme ist, dass sie in der Regel kein tiefes Verständnis für eine Problemlösung haben, d.h. sie kön- nen nicht erklären, warum sie zu einem bestimmten Ergebnis kom- men und verfolgen somit keine eigenständigen Ziele. Alle heutigen KI-Systeme werden dem Teilgebiet der schwachen KI zuge- rechnet und bieten spezialisierte Lösungen für klar umgrenzte Problemstel- lungen. Zum Themenbereich KI zählen eine Vielzahl von Konzepten, Metho- Merksatz den und Algorithmen, die ihre Ursprünge in verschiedenen wissenschaftli- chen Disziplinen haben. Maßgeblich verantwortlich für den KI-Trend der letzten Jahre ist insbesondere das maschinelle Lernen (engl. Machine Lear- ning, kurz: ML) und dort vor allem Deep Learning, das als Oberbegriff für die Generierung von Wissen aus Erfahrungswerten steht. Abbildung 3 zeigt die logischen Zusammenhänge der thematisierten Wis- sensgebiete. Der Bereich Machine Learning kann wiederum in verschiedene Teilgebiete aufgegliedert werden, wovon das sogenannte Representational Learning mit Deep Learning einen wesentlichen Bereich ausmacht. Künstliche Intelligenz achine earning epresenta on earning Deep earning Abbildung 3: Bereiche der Künstlichen Intelligenz und des maschinellen Lernens In den nachfolgenden Abschnitten werden die verschiedenen Bereiche des maschinellen Lernens detaillierter betrachtet. Einen detaillierten Einblick finden Sie im Skript Künstliche Intelligenz. 61 Big Data Arithmetisches Mittel: häufig auch als Durchschnitt oder empiri- scher Mittelwert bezeichnet wird das arithmetische Mittel berech- net, indem alle beobachteten Werte aufsummiert und durch die An- zahl der Beobachtungen geteilt werden. Das arithmetische Mittel ist nicht robust gegenüber Ausreißern, d. h. Extremwerte mit sehr ho- hen oder niedrigen erten „verzerren“ das ittel, auch enn diese Extremwerte insgesamt sehr selten auftreten. Median: der Median begrenzt den Einfluss von Extremwerten in den Daten und wird daher als robustes Lagemaß bezeichnet. Er wird be- stimmt, indem alle beobachteten Werte sortiert werden und als Me- dian derjenige Werte ermittelt wird, der die Daten so teilt, dass eine Hälfte unterhalb und die andere oberhalb des Medians liegt. Modus: der Modus gibt an, welcher beobachtete Werte am häufigs- ten auftritt und wird durch Zählen aller einzelnen Beobachtungs- werte ermittelt. Maximum: als Maximum wird der größte beobachtete Wert bezeich- net. Minimum: als Minium wird der kleinste beobachtete Wert bezeich- net. Quartile: ein Quantil – häufig auch als p-Quantil angegeben – trennt die Daten so in zwei Teile, dass p% der Daten unterhalb und (1-p) % oberhalb des Quantils liegen. Das 25 %-Quantil (auch unteres Quartil genannt) teilt den Datensatz dementsprechend in einen Teil der un- teren 25 % und einen Teil der oberen 75 % ein. Analog dazu verhält es sich mit dem 75 %-Quantil (auch oberes Quartil genannt); der Me- dian entspricht dem 50 % Quartil. Eine wichtige Unterscheidung wird zwischen statistischen Variablen und Zu- fallsvariablen getroffen. Während die Werte statistischer Variablen durch eine Stichprobe aus einer Grundgesamtheit bestimmt werden und damit der deskriptiven Statistik zugerechnet werden, beschreiben Zufallsvariablen das Auftreten von möglichen Merkmalen oder eine bestimmte Anzahl möglicher Merkmale anhand eines Zufallsexperiment. Über Wahrscheinlichkeitsvertei- lungen kann das Auftreten der Werte eine Zufallsvariable bestimmt werden. 5.1.2 Wahrscheinlichkeitsverteilungen Wahrscheinlichkeiten können als die prozentuale Verteilung für den Eintritt eins bestimmten Ereignisses (die Werte einer Zufallsvariable) definiert wer- den. Die werden üblicherweise im Bereich von 0 bis 1 angegeben. Die 0 be- deutet hierbei das sichere Nicht-Eintreten eines Falles und die 1 das sichere 57 Big Data 5.2.2 Maschinelles Lernen im Überblick Wie im vorherigen Kapitel dargestellt bezeichnet der Begriff Maschinelles Lernen einen Teilbereich der KI, der sich mit der Ableitung von Mustern aus großen Datenbeständen befasst. Machine Learning ist als etabliertes Gebiet der Wissenschaft ein integraler Bestandteil der Informatik und ist wiederum in verschiedene Teilbereiche gegliedert, welche sich mit der Anwendung für bestimmte Anwendungsgebiete (z. B. Computer Vision oder Natural Langu- age Processing) oder die theoretische Betrachtung von ML-Methoden (z. B. numerische Analysen, Wahrscheinlichkeitstheorie) beschäftigen.36 achine earning bezeichnet die „auto atisch“ enerierung von issen aus Erfahrung, die in Form von großen Datenmengen kodifiziert sind. Durch die Erstellung von sogenannten ML-Modellen werden Computer in die Lage Merksatz versetzt, Muster und Gesetzmäßigkeiten in Daten zu erkennen. Basierend darauf können wiederum eigenständig Lösungen für spezifische Problem- stellungen entwickelt werden. 5.2.3 Anwendungsfälle für maschinelles Lernen Die Potentiale von Machine-Learning-Anwendungen lassen sich am besten anhand von Beispielen illustrieren. Die nachfolgenden Darstellungen orien- tieren sich dazu an den in Kapitel 2 vorgestellten Praxisszenarien. Digitale Assistenten: Persönliche digitale Assistenten in Smartpho- nes oder als Smart Speaker wie Apple Siri, Amazon Alexa oder Google Assistant sind die wahrscheinlich am weitesten verbreiteten Anwen- dungen von Machine Learning im Alltag vieler Menschen. Einer re- präsentativen Umfrage des deutschen Marktforschungsunterneh- mens Splendid Research aus dem Jahr 2019 zufolge haben bereits 60% einen Sprachassistenten benutzt.37 Zu den meistgenutzten un tionen gehören die Beant ortung von uchanfragen „ ie lange ar Barac Oba a r sident der U A?“ , die er altung von Kalendereintr gen „ rstelle für n chste oche ontag u 13:00 Uhr ein eeting it Christian und alerie“ und Auskünfte zum Wet- ter „Brauche ich heute ittag einen egenschir ?“. ur Beant or- tung von Fragen verarbeiten maschinellen Lernalgorithmen die Spracheingabe, um Wörter zu verstehen und auszusprechen sowie Zusammenhänge im Kontext des Benutzers aufzulösen: im Meeting- Beispiel uss das ste issen, elche ersonen it „Christian 36 Vgl. Russell, & Norvig, 2016 37 Vgl. splendid-research.com, o.J. 62 Big Data Eintreten dieses Falls. Eine Wahrscheinlichkeitsverteilung ist also eine Ver- teilung, die die Wahrscheinlichkeiten aller möglichen Werte für das Eintre- ten eines Ereignisses darstellt. Gleichverteilung Die Gleichverteilung ist eine der einfachsten Verteilungen und unterscheidet sich nach der Ausprägung der verteilten Daten in die diskrete und stetige Gleichverteilung. Die diskrete Gleichverteilung beschreibt ein Zufallsexperiment mit n ver- 1 schiedenen Ausgängen, die alle gleichhäufig mit der Wahrscheinlichkeit 𝑛 auftreten. Beispiele hierfür sind der Wurf eines (fairen) Würfels mit sechs möglichen Ausgängen und gleicher Wahrscheinlichkeit. Bei der stetigen Gleichverteilung sind ebenfalls alle Ausgänge des betrach- teten Zufallsexperimentes gleich wahrscheinlich, allerdings stammen die Werte aus einem Intervall [𝑎, 𝑏] mit der gleichen Dichte. Normalverteilung Eine Normalverteilung (auch Gauß-Verteilung) ist eine der wichtigsten Ver- teilungen in der Statistik. Sie ist eindeutig durch ihren Mittelwert und ihre Standardabweichung definiert. Der Mittelwert verschiebt die Verteilung räumlich und die Standardabweichung steuert die Verteilung. Der Hauptun- terschied zu anderen Verteilungen (z. B. Poisson-Verteilung) ist, dass die Standardabweichung in allen Richtungen gleich ist. Bei der Gauß-Verteilung sind also der Mittelwert und die Verteilung der Daten bekannt, d. h., ob sie über einen weiten Bereich verteilt sind oder ob sie stark auf wenige Werte konzentriert sind. Zufallsvariablen, deren Werte überwiegend innerhalb eines bestimmten Be- reichs liegen und nur wenige Ausreißer nach oben und unten zeigen, sind meist annähernd normalverteilt. Beispiele für das Vorkommen von Normal- verteilungen in der Natur sind die Körpergröße oder die Intelligenz bei Men- schen. Poisson-Verteilung Eine Poisson-Verteilung ähnelt der Normalverteilung, jedoch mit einem zu- sätzlichen Faktor, der sogenannten "Schiefe". Bei geringer Schiefe hat die Poisson-Verteilung die Form einer Normalverteilung und besitzt eine stark homogene Verteilung der Werte in alle Richtungen. Bei hoher Schiefe hinge- gen ist die Verteilung der Daten in verschiedene Richtungen unterschiedlich; in der einen Richtung werden die Daten sehr weit gestreut sein und in der anderen sehr konzentriert. 58 Big Data und alerie“ ge eint sind, u die inladung orre t vorzubereiten. Aus bislang unbekannten Wörtern und dem Feedback der Nutzer zu den gegebenen Antworten werden die Systeme permanent aktuali- siert und verbessert. Personalisierung von Diensten: Ein weiteres wichtiges Einsatzfeld von Machine Learning liegt im Bereich der Produkt- und Werbeper- sonalisierung. Bei Netflix, Amazon und Facebook orientieren sich die Empfehlungen für neue Inhalte an den bisherigen Suchaktivitäten und Verhaltensweisen der Nutzer. Mittels Machine Learning werden Vorlieben von Kundinnen erlernt und mit denen anderer Kundinnen verglichen, um zielgerichtete, individualisierte Produkt- oder Hand- lungsempfehlungen für jede Kundin im richtigen Zeitpunkt geben zu können. Klassische Beispiele sind die von Amazon bekannten Pro- du te pfehlungen für ver andte Arti el “Kunden, die dieses ro- du t aufen, auften auch…” und die pfehlung einer neuen erie auf Netflix, die zum Geschmack des Nutzers passt. Die Fast-Food- Kette McDonalds experimentiert mit einer Erweiterung dieses Prin- zips auf die physische Welt, in dem in einem Drive-In zu Testzwecken Kameras mit Bilderkennung eingesetzt werden, um Fahrzeuge und Kundinnen wiederzuerkennen und mit individualisierten Menüvor- schlägen zu begrüßen.38 Predictive Maintenance: Klassische Wartungsmodelle von industri- ellen Maschinen sind in den meisten Fällen nach Zeitpunkten (z. B. jährliche Wartung) oder nach festen Intervallen (z. B. nach 3.000 ge- druckten Seiten) definiert. Dieses Vorgehen bildet den Verschleiß von Maschinenbestandteilen und damit den tatsächlichen War- tungsbedarf aber nur unzureichend ab und führt in der Praxis zu un- nötigen Service-Terminen und Ressourcenverschwendung. Gleich- zeitig fallen plötzlich auftretende Störfälle durch das definierte War- tungsraster und können nicht verhindert werden. Mittels Machine Learning lassen sich sogenannte prädiktive Wartungsmodelle (engl. Predictive Maintenance) umsetzen, welche durch die Überwachung von Sensordaten Abweichungen zwischen normalem und aufälligem Verhalten von Maschinen erkennen und so frühzeitig auf drohende Probleme hinweisen können. Wartungseinsätze können somit be- darfsorientiert durchgeführt werden, um eine effektivere Nutzung der Anlagen zu ermöglichen. 38 Vgl. Yaffe-Bellany, 2019 63 Big Data Die Possion-Verteilung wird auch als "Verteilung der seltenen Ereignisse" be- zeichnet und eignet sich beispielsweise für die Modellierung der folgenden Szenarien: Anzahl der Ereignisse innerhalb einer bestimmten Zeiteinheit (z. B. Anzahl der eingehenden Telefonanrufe in einem Call-Center inner- halb einer Stunde oder Anzahl der Kundinnen in einem Supermarkt innerhalb einer Stunde) Anzahl der Objekte auf einer bestimmten Fläche (z. B. Anzahl der Maulwurfshügel auf einem Hektar) oder in einem bestimmten Volu- men (z. B. Anzahl der Bakterien in einem Liter Flüssigkeit). 5.1.3 Korrelationen Mit einer Korrelation wird die Stärke eines statistischen Zusammenhangs zwischen zwei Variablen gemessen. Bei einer positiven Korrelation gilt: "je größer Variable A desto größer Variable B" oder umgekehrt, bei einer nega- tiven Korrelation: "je kleiner Variable A desto kleiner Variable B" oder um- gekehrt. Wird ein solcher Zusammenhang beobachtet bedeutet dies nicht zwangsläufig, dass wir wissen, ob eine Variable mit dem Auftreten der ande- ren ursächlich zusammenhängt. Eine Korrelation impliziert keine Kausalität im Sinne einer ursächlichen Beziehung. Eine starke Korrelation kann auf eine Kausalität hinweisen, allerdings kön- nen auch andere Erklärungsmuster existieren. Der Zusammenhang könnte auf einem reinen Zufall beruhen, bei dem die Variablen scheinbar zusam- menhängen, aber es gibt keine zugrunde liegende Beziehung in den Daten gibt. Weiterhin könnte eine dritte, nicht erhobene und damit unentdeckte Variable existieren, welche die Beziehung stärker (oder schwächer) erschei- nen lässt, als sie tatsächlich ist. Ein Beispiel: Ein Beispiel für einen solchen Zusammenhang ist die positive Korrelation zwi- schen der Zahl in einer Stadt angesiedelten Störche und der Zahl Neugebore- ner: je mehr Störche angesiedelt sind, desto mehr Menschen werden gebo- Beispiel ren. Während dieser Zusammenhang eindeutig beobachtet werden kann, be- steht kein ursächlicher Zusammenhang, d.h. es gibt nicht mehr Babys, weil mehr Störche angesiedelt sind. Stattdessen ist die dritte, nicht erfasste Vari- able Beziehungen von Menschen zueinander verantwortlich für das Auftre- ten erhöhter Geburtenzahlen. Korrelationen sind in der Praxis wichtig, weil eine korrelative Beziehung In- formationen darüber liefern kann, wie sich die Werte von Variablen in Ab- hängigkeit von anderen verhalten. So können sie für Vorhersagemodelle 59 Big Data 5.2.4 Typen des maschinellen Lernens Maschinelle Lernansätze können für eine große Bandbreite an unterschied- lichen Anwendungsszenarien eingesetzt werden. In Abhängigkeit der Ziel- setzung und der vorliegenden Daten ergeben verschiedene Anforderungen an die infrage kommenden Methoden. Ein essenzielles Unterscheidungskri- terium ist die Existenz einer sogenannten Zielvariable, für die eine Vorher- sage getroffen werden soll; in diesem Fall sind Beispiele in Form von Lernda- ten notwendig, aus denen ein Vorhersagemodell abgeleitet werden kann (überwachtes Lernen). Die Ausprägungen der Zielvariable wird anschließend zwischen kontinuierlichem Wert (z. B. alle Werte zwischen -60 und +60 als breites Intervall für alle möglichen Temperaturwerte in Zentraleuropa) und kategorialen Werten (z. B. Spam/kein Spam) unterschieden. Anhand dieser Entscheidungskriterien ergibt sich eine Menge möglicher Verfahren, die zur Anwendung kommen können. Liegen keine Zielvariablen vor betritt man den Bereich des unüberwachten Lernens, für den andere Methoden zur Verfü- gung stehen. Nachfolgende Abbildung gibt einen Überblick über die Kategorien des ma- schinellen Lernens (erste Gliederungsebene) und gliedert diese nach der Ausprägung der Zielvariablen (zweite Gliederungsebene), beispielhaften Methoden (dritte Gliederungsebene) sowie beispielhaften Anwendungsbe- reichen (vierte Gliederungsebene). s n s n n ber achtes ernen Unüber achtes ernen Teilüber achtes ernen erst r endes ernen Kon nuierliche Kategoriale Kategoriale Keine Keine ielvariable Kategoriale ielvariable ielvariable ielvariable ielvariable ielvariable egression Klassi a on Clustering Assozia on Klassi a on Clustering Klassi a on Kontrolle reis- pa - Kunden- aren orb- Test- pur ndung ar e ng- Autono es vorhersage r ennung lassi a on anal sen Klassi a on it -Daten op ierung ahren Abbildung 4: Übersicht zu Kategorien des maschinellen Lernens, i. A. a. Fumo (2017) Im nachfolgenden Abschnitt werden die vier grundsätzlichen Kategorien ma- schineller Lernverfahren erläutert (oberste Ebene der Grafik). 1. Überwachtes Lernen: Beim überwachten Lernen erhält ein Algorith- mus eine bestimmte Eingabe und eine entsprechende Ausgabe und leitet während des sogenannten Trainingsprozesses eigenständig Muster ab, die von einer Eingabe zur gewünschten Ausgabe führen. 64 Big Data weggelassen wird: Die Aktivierungsfunktion ist dabei entscheidend. So diese erfüllt ist, wird der Wert komplett weitergegeben, das bedeutet, das keine Abstufung des Ausgabewertes ermittelt wird. Beim Aufbau von mehrschichtigen Netzen werden verschiedene Architektu- ren oder Topologien unterschieden: Vollständig verbunden: Alle Neuronen aus einer Schicht sind mit al- len Neuronen der direkt folgenden Schicht verbunden. Rekurrent: Neuronen einer Schicht können über rückwärtsgerich- tete (rekurrente) Kanten mit Neuronen einer vorhergehenden Schicht verbunden werden; das Netz ist somit mit einem Gedächtnis ausgestattet, da Ausgaben von versteckten Neuronen als Eingaben in das Netz zurückfließen. Abkürzungen (engl. Shortcuts): Neuronen können nicht nur mit Neu- ronen der unmittelbar folgenden Schicht verbunden sein, sondern auch mit Neuronen von später folgenden Schichten. Die konkrete Wahl einer Netztopologie hängt vom jeweiligen Anwendungs- fall ab und hat maßgeblichen Einfluss auf das erzielte Ergebnis. Eine umfas- sende Übersicht verschiedener Topologien und relevanter Use Cases hat das Asimov Institute online zusammengestellt.45 5.3 Überwachte Lernverfahren Überwachtes Lernen verfolgt das Ziel, aus einer Menge von Beispieldaten eine möglichst gute Abbildung von Eingabewerten auf Ausgabewerten zu er- lernen, bspw. Emailnachricht zu bestimmen, ob es sich um Spam handelt oder nicht. In der Trainingsphase lernt ein Algorithmus hierbei eine mathe- matische Funktion, um aus gegebenen Paaren von Eingaben die richtige Aus- gabe zu finden.46 Überwachte Lernverfahren verarbeiten während der Lernphase eine große Zahl an Paaren aus Eingabewerten und korrekten Ausgabewerten, die durch menschliche Experten bereitgestellt wurden. Es ist also zu jedem Eingabe- Merksatz wert bekannt, welche Ausgabe erwartet wird. Durch iteratives Vorgehen mit verschiedenen Eingaben und Ausgaben wird die Fähigkeit trainiert, Assoziationen zwischen Eingabe- und Ausgabewerten herzustellen, die dann auf neue Daten außerhalb der Beispiele aus dem Trai- ningssatz angewendet werden können. Eine häufige Aufgabe für 45 Vgl. Van Veen, 2016 46 Vgl. Russell, & Norvig, 2016 69 Big Data Generell werden diese Verfahren häufig zu Klassifikation von Objek- ten eingesetzt, etwa im Kontext der Bildverarbeitung, um Bilder zu analysieren und Objekte auf diesen Bildern zu finden. Das über- wachte Lernen wird im Detail im Abschnitt „ ber achte ernverfah- ren“ vorgestellt. Weiter unten gehen wir noch auf Anwendungsfel- der ein.39 2. Unüberwachte Lernverfahren: Unüberwachte Lernen bezeichnet Methoden, die verwendet werden, wenn für einen Eingabedatensatz keine entsprechenden Ausgabedatensätze verfügbar sind und das primäre Ziel darin besteht, in dem vorhandenen Datensatz Mustern zu identifizieren. Eine beliebte Methode ist zum Beispiel das Clus- tering. Es ist insofern "unüberwacht", weil die Ausgabe nicht anhand von gewünschten Ausgabewerten überprüft oder mit den Erwartun- gen abgeglichen werden kann. Zum Beispiel kann das Clustering von Kundendaten eine ganz neue, separate Kundengruppe aufdecken, die vorher nicht bekannt war. Der Abschnitt „Unüberwachte Verfah- ren“ geht detaillierter auf unüber achtes ernen und seine An en- dungsfälle ein. Auch im Bereich des unüberwachten Lernens werden weiter unten Anwendungsfelder besprochen. 40 3. Teilüberwachtes Lernen: In einer Vielzahl Anwendungsfällen liegen Daten ohne Beispielausprägungen vor. Die Erzeugung dieser wäre mit einem zu großen Aufwand verbunden. In diesen Fällen hat es sich als praktische Verfahrensweise erwiesen, einen geringen Teil dieser Daten zu extrahieren und diesen mit Ergebnisvariablen zu versehen (also zu labeln). Gemeinsam mit den ungelabelten Daten werden diese Datensätze dann verwendet und davon ausgegangen, dass nahe beieinanderliegende Datensätze das gleiche Label aufweisen würden. Somit können dann auch die fehlenden Labels erzeugt wer- den.41 4. Verstärkendes Lernen: nennt sich Reinforcement Learning und zielt darauf ab, durch Interaktion mit dem Umwelt Beobachtungen abzu- leiten und daraus Rückschlüsse über die Wirkweise zu erhalten. Der Agent lernt dabei so lange aus der Beobachtung dieser Umwelt, bis er eine ausreichend große Bandbreite aller möglichen Bedingungen erfasst hat. Dabei greift der Algorithmus auf eine Belohnungsfunk- tion zurück, um das beobachtete Verhalten mit dieser Funktion zu maximieren oder ein gegebenes Risiko minimieren. Durch diese Funktion erhält der Algorithmus direktes Feedback, ob und wie gut 39 Vgl. Russell, & Norvig, 2016 40 Vgl. Akerkar & Sajja, 2016 41 Vgl. Russell, & Norvig, 2016 65 Big Data überwachtes Lernen ist die Klassifizierung von Texten oder Bildern. Auch hier ist es notwendig, die erwartete Ausgabe für jede Eingabe zu kennen. Am Beispiel der Bilderkennung ist muss so für jedes Bild bekannt, welche Ob- jekte darauf zu sehen sind. Alle Bilder der Trainingsmenge werden anschlie- ßend von den Algorithmen verarbeitet um Zusammenhänge zwischen Cha- rakteristiken des Bildes (z. B. enthaltenen Kanten, Farben, sich wiederholen- den Mustern) und der Ausgabe (z. B. Baum, Katze, Auto) zu bestimmen (A- kerkar & Sajja (2016), S. 53). Am Ende ist ein trainiertes Modell entstanden, welches jede Eingabe den vorliegenden Klassen zuordnen kann. Wenn alle möglichen Ausgaben vorab bekannt sind, funktioniert dieser Algorithmus am besten. Die Ausgaben müssen dabei so vorliegen, dass sie konkret benannt und interpretiert wer- den können. Schließlich kann als Output nur die Klasse ausgegeben werden, die während der Trainingsphase dem Modell bekannt war. Auch völlig neue Objekte werden daher in eine der vorhandenen Klassen einordnet werden. Soll das Modell um eine neue Klasse erweitert werden ist eine Wiederholung des Trainingsprozesses notwendig. Anwendungsbereiche: Zu den typischen Anwendungsfällen für überwachte Lernverfahren zählen die folgenden Beispiele: Bild- und Objekterkennung, z. B. Erkennung von Personen auf Bildern Gesichtserkennung auf Smartphones Dynamische Preisanpassungen, z. B. bei Airlines Dokumentenerkennung, z. B. automatisierte Rechnungsverarbei- tung Antragsprüfung, z. B. Bewertung von Kreditanträgen Kundenmanagement, z. B. Churn-Analyse zur Vorhersage von dro- hendem Kündigungsverhalten Qualitätskontrolle, z. B. optische Inspektion von Fertigungsteilen in der industriellen Produktion Methodenübersicht: Zu den gängigen Algorithmen für überwachtes Lernen zählen die folgenden Verfahren: lineare Regression logistische Regression künstliche neuronale Netze lineare Diskriminanzanalyse Entscheidungsbäume Bayes'sche Logik Support Vector Machine (SVM) Random Forest 70 Big Data oder schlecht sein Verhalten ist in Bezug auf die zuvor definierte Zie- lerreichung (etwa ein möglichst sauberes Zimmer zu erhalten als Be- lohnungsfunktion eines Saugroboters: Abzug wenn er sich nur im Kreis dreht, Bonus wenn er alle Flächen reinigt). 42 Bei Problemen, bei denen verstärkendes Lernen verwendet wird, entscheidet der Agent, welche Aktion aufgrund seines aktuellen Zu- stands am besten ist. Wenn diese Entscheidungsschritte wiederholt werden, kann das Problem als ein Markov-Entscheidungsprozess mo- delliert werden. In der Trainingsphase geht der Algorithmus wie folgt vor: Der Agent beobachtet den Ausgangszustand. Die Aktion des Agenten wird ausgeführt – unter Verwendung der Entscheidungsfunktion und der damit verbundenen Ziel- setzung. Der Agent enthält entweder eine Belohnung oder negativen Wert, nachdem die Aktion ausgeführt wurde. Speicherung der Zustands-Aktions-Paar-Information in Bezug auf eine erreichte Belohnung. Diese Schritte werden wiederholt, bis eine gewünschte Qualität er- reicht ist oder durch weitere Versuche keine Steigerung mehr er- reicht werden kann. Typische Anwendungsszenarien sind beispiels- weise die Erstellung von KI-Systemen zur Beherrschung von Spielen wie Go. Aufgrund der Komplexität des Spiels ist die alleinige Verwen- dung von Trainingsdaten nicht zielführend. 5.2.5 Neuronale Netze: Aufbau und Funktion Vorbemerkung und Historie Künstliche neuronale Netze sind dem menschlichen Gehirn nachempfun- dene, informationsverarbeitende Systeme. Sie stellen einen der ältesten Forschungszweige der künstlichen Intelligenz dar. Insbesondere in der Infor- matik, aber auch in den Ingenieurwissenschaften, ist die Nachahmung zent- raler menschlicher kognitiver Leistungen ein häufig verfolgtes Ziel, weshalb bereits in den Anfangsjahren der KI-Forschung Algorithmen auf Basis neuro- naler Netze entwickelt wurden. 42 Vgl. Akerkar & Sajja, 2016 66 Big Data Die beiden nachfolgenden Kapitel gehen auf Entscheidungsbäume als Bei- spiel für einen Klassifikationsalgorithmus sowie auf lineare und logistische Regressionsmodelle ein. 5.4 Unüberwachte Verfahren 5.4.1 Anwendungsbereiche und Methodenübersicht Methoden für Unüberwachtes Lernen kommen zum Einsatz, wenn für einen gegebenen Eingabedatensatz keine Ausgabedatensätze verfügbar sind, d. h. wenn keine Zielvariable existiert für die ein konkreter Wert als Beispiel defi- niert werden kann. Das primäre Ziel unüberwachter Lernverfahren besteht darin, in einem vor- handenen Datensatz nach Mustern zu suchen und bislang unbekannte Struk- turen abzuleiten. Merksatz In diesem Rahmen wird häufig das Clustering (z. B. das Clustern von Kunden- daten als Grundlage dafür, völlig neue Kundengruppen zu finden) als Me- thode verwendet. Hierbei erzeugt ein Algorithmus für eine Dateneingabe ein statistisches Modell, welches die Eingaben beschreibt und erkannte Katego- rien und Beziehungen enthält. Jeder Datenpunkte wird somit eine eine der erkannten Kategorien eingeteilt, die durch charakteristische Muster unter- schieden werden. Diese Muster werden vom Algorithmus selbstständig er- mittelt und müssen nicht in einer Trainingsphase festgelegt werden. Die An- zahl der Kategorien kann je nach Verfahren entweder vorab durch den An- wender definiert werden oder wird vom Algorithmus eigenständig be- stimmt. Diese Methode wird deshalb, als unüberwacht definiert, weil zu den Eingabewerten keine Ausgabewerte (Labels) vorhanden sind und damit keine Vergleichswerte vorliegen.47 Beachten Sie, dass Methoden des unüberwachten nicht für Anwendungs- fälle des überwachten Lernens eingesetzt werden können. Sollen beispiels- weise für das Problem der Spam-Erkennung verschiedene E-Mail-Nachrich- ten als "Spam" oder "kein Spam" klassifiziert werden, wird dies mit über- wachten Lernmethoden nur gelingen, wenn für beide Klassen Beispiele vor- liegen. Die unüberwachte Lernmethoden kann keine Bewertung "Spam" oder "kein Spam" automatisch zu vergeben, da es kein klar definiertes Qua- litätsmaß gibt, das zwischen diesen beiden Klassen differenzieren könnte. Durch unüberwachte Methoden lässt sich allerdings eine Gruppierung von ähnlichen E-Mail-Nachrichten vornehmen, sodass private Nachrichten mit 47 Vgl. Akerkar & Sajja, 2016 71 Big Data Beispiel: Neuronale Netze können für beide Lernsysteme (unüberwachtes und über- wachtes maschinelles Lernen) eingesetzt werden. Typische Anwendungsbe- Beispiel reiche umfassen z. B. Mustererkennung und Klassifizierung, das Lösen von Optimierungsproblemen oder die Vorhersage von Parametern basierend auf einer gegebenen Eingabe. Perzeptronen-Modell Allgemein sind neuronale Netze Systeme zur Verarbeitung von Daten durch maschinelles Lernen, die sich grob an der Funktionsweise biologischer neu- ronaler Netze in den Gehirnen von Tieren orientieren. Eine grundlegende Form der Modellierung künstlicher neuronaler Netze ist das Perzeptronen- Modell. Dieses hat in den 1960er Jahren seinen Ursprung und beschreibt ein mathematisches Modell eines neuronalen Netzes. Ein solches Netz in seiner elementarsten Form besteht aus nur einem einzigen künstlichen Neuron exakt einer Ausgangsfunktion, verknüpft mit mehreren Eingängen, wie in Abbildung 5 dargestellt).43 Abbildung 5: Darstellung eines einfachen Perzeptrons, i. A. a. Akerkar & Sajja (2016) Abbildung 5 zeigt die grundlegenden Elemente des einfachen Perzeptrons: In diesem Beispiel gibt es 3 Eingänge 𝑥 1 , 𝑥 2 , 𝑥 3 als Inputvariablen von Eingabewerten, die im Neuron wiederum weiterverarbeitet werden. Jedem Eingang 𝑥 1 , 𝑥 2 , 𝑥 3 ist eine eigene Gewichtung 𝑤1 ,... , 𝑤𝑛 ∈ ℝ zugeordnet. Hierdurch wird der Einfluss eines Eingabewertes auf die Verarbeitung bestimmt. Die Eingangsfunktion 𝜌 = ∑𝑛𝑖=1 𝑤𝑖 𝑥𝑖, welche die gewichtete Summe der n Eingabewerte berechnet und den ersten Verarbeitungsschritt innerhalb des Neurons darstellt 43 Vgl. Scherer, 1997 67 Big Data hoher Wahrscheinlichkeit in einer anderen Kategorie landen als Werbung zu Finanzprodukten. Anwendungsbereiche: Zu den typischen Anwendungsfällen für unüber- wachte Lernverfahren zählen die folgenden Beispiele: Kundensegmentierung zur Identifikation verschiedener Kundengrup- pen, um gezielte Marketing- und Geschäftsstrategien aufzubauen Genetik, z. B. zum Clustern von DNA-Mustern für spätere Analysen Empfehlungssysteme (engl. Recommender Systems) zur Gruppie- rung von Nutzern mit ähnlichen Sehgewohnheiten, um ähnliche In- halte zu empfehlen Betrugserkennung, z. B. zur Erkennung ungewöhnlicher Nutzungs- muster bei Kreditarten Anomalieerkennung, z. B. bei der Überwachung von Netzwerkver- kehr und Zugriffsmustern auf IT-Systeme zur Identifikation von Cy- ber-Angriffen Predictive Maintenance, z. B. zur Erkennung defekter mechanischer Teile bei industriellen Produktionsmaschinen Methodenübersicht: Zu den gängigen Algorithmen für überwachtes Lernen zählen die folgenden Verfahren: Clustering und Segmentierung (z. B. k-means, hierarchical clustering, DBSCAN, OPTICS algorithm) Anomalieerkennung (z. B. Local Outlier Factor, Isolation Forest) Assoziationsanalysen (z. B. Apriori, AIS, FPGrowth) Datenkomprimierung und Dimensionsreduktion (z. B. Principal Com- ponent Analysis (PCA), Random Forests/Ensemble Trees, Low Vari- ance Filter) künstliche neuronale Netze Die beiden nachfolgenden Kapitel gehen auf die Funktionsweise des k-me- ans-Verfahrens als Beispiel für einen Clustering-Algorithmus ein. 5.4.2 Assoziationsanalyse und A-priori-Verfahren Problemstellung Assoziationsalgorithmen stellen eines der zentralen Konzepte im Bereich des unüberwachten Lernens für das Auffinden von häufig zusammenauftreten- den Elementen in Datenmengen dar. Sie werden daher insbesondere zur so- genannten Warenkorbanalyse verwendet, um zu identifizieren, welche Pro- dukte häufig gemeinsam gekauft werden und auf diesen Erkenntnissen 72 Big Data Die Aktivierungsfunktion 𝜑(𝜌, 𝜃), mit deren Hilfe aus der gewichte- ten Summe als Ergebnis der Eingangsfunktion sowie des Schwellen- wertes der Ausgabewert o des Neurons berechnet wird Die Informationsverarbeitung unter Verwendung neuronaler Netze erfolgt auf Grundlage des oben vorgestellten Modells. Innerhalb der Eingangs- schicht werden die Eingangsdaten in Form von numerischen Werten erfasst und anschließend über die Gewichtung der jeweiligen Eingänge als Werte an Eingangsfunktion weitergegeben. Das Ergebnis der Eingabefunktion wird dann an die Aktivierungsfunktion weitergegeben, wo es zu einer Aktivierung führen kann. Für diesen Fall wird der Ausgabewert weitergereicht, da der Ausgang des Perzeptrons aktiviert wird. Neben diesem stark vereinfachten Modell werden übelicherweise deutlich komplexere Perzeptronen-Modelle verwendet. Diese fassen mehrere einfa- che Perzeptronen zu einem Netz in verschiedenen Schichten zusammen, wie im folgenden Abschnitt erläutert. Mehrschichtige Netze Durch die Verwendung einer Vielzahl von Neuronen entstehen sogenannte mehrschichtige Perzeptronen, die in Schichten angeordnet sein können. Mehrschichtige Perzeptronen haben neben einer Ein- und Ausgabeschicht mindestens eine zusätzliche "verdeckte" Schicht, die für die eigentliche Be- rechnung zwischen Eingabe und Ausgabe verantwortlich zeichnet. 44 Abbildung 6: Aufbau eines mehrschichtigen Perzeptrons, i. A. a. Buxmann & Schmidt (2019) Die Ausgabe eines Neurons stellt in mehrschichtigen neuronalen Netzen die die Eingabe für ein Neuron in der folgenden Schicht dar. Beachten Sie, dass die Ausgabe eines Wertes immer entweder vollständig ist oder vollkommen 44 Vgl. Kruse et al., 2015 68 Big Data beispielsweise gezielte Empfehlungen aussprechen zu können. Dazu werden sogenannte Assoziationsregeln erstellt, die als "Wenn-Dann"-Anweisungen die Wahrscheinlichkeit des gemeinsamen Auftretens von Datenelementen in großen Datenbeständen widerspiegeln. Am Beispiel der Warenkorbanalyse können Assoziationsregeln in der folgen- den Form dargestellt: "Wenn ein Kunde Produkt X und Y kauft, dann wird er mit hoher Wahrscheinlichkeit auch Produkt Z kaufen". Damit können Fragen beantwortet werden wie "Wenn ein Kunde Produkt X kauft, wie hoch ist die Wahrscheinlichkeit, dass er auch Produkt Y kauft". Ein berühmtes Beispiel beschreibt dieses Phänomen sehr anschaulich. Beispiel: Durch die Analyse einer großen Anzahl von Warenkörben und die Kombina- tion mit demografischen Informationen über die Kunden kam ein Einzelhänd- Beispiel ler zu der Erkenntnis, dass Männer zwischen 30 und 40 Jahren am liebsten samstags Bier und Windeln kaufen. Daher entschied man sich, das Bier am Wochenende in der Babyabteilung zu platzieren, was zu einer massiven Um- satzsteigerung führte. Auch wenn die Richtigkeit dieser modernen Legende nicht mit hundertprozentiger Sicherheit bewiesen werden kann, so zeigt sie doch deutlich die mögliche Tragweite solcher Erkenntnisse. Neben der Untersuchung von Warenkörben wird die Ableitung von Assozia- tionsregeln auch für medizinische Datensätze verwendet, um Zusammen- hänge zwischen auftretenden Symptomen und Krankheitsbildern aufzude- cken. Ebenfalls können die Erfolgsraten von Medikamenten mit Nebenwir- kungen in Beziehung gesetzt und ausgewertet werden. Bildung und Effektivität von Assoziationsregeln Der Prozess der Erstellung von Assoziationsregeln wird als Assoziationsregel- Mining (engl. association rule mining) bezeichnet. Dabei wird ein Datensatz von Transaktionen (im Beispiel der Warenkorbanalyse sind das einzelne Be- stellvorgänge) nach häufig auftretenden Wenn-Dann-Mustern durchsucht. Abbildung 7: Beispielhafte Assoziationsregeln und Itemsets 73 Big Data Assoziationsregeln werden aus sogenannten Itemsets berechnet, die aus zwei oder mehr Items bestehen. Wenn Regeln aus der Analyse aller mögli- chen Itemsets gebildet werden, könnte es so viele Regeln geben, dass die Regeln wenig Aussagekraft haben. Daher werden Assoziationsregeln in der Regel aus Regeln gebildet, die in den Daten gut repräsentiert sind und einen bestimmten Schwellenwert hinsichtlich ihrer Anzahl überschreiten. Aus die- sem Grund gibt es verschiedene Maße, um die Effektivität von Assoziations- regeln zu bewerten. Die Unterstützung (engl. support) gibt an, wie oft eine bestimmte Re- gel in einem Datensatz vorkommt. Dies wird normalerweise als Pro- zentsatz der Gesamtzahl der Datensätze angegeben. Die Konfidenz (engl. confidence) bezieht sich auf die Häufigkeit, mit der eine bestimmte Regel in der Praxis tatsächlich zutrifft. Wenn z. B. eine Regel sehr häufig in einem Datensatz vorkommt, sich aber viel seltener bewahrheitet, können sich die beiden Maße deutlich unter- scheiden. In diesem Fall würde man von hoher Unterstützung bei geringer Konfidenz sprechen. Umgekehrt kann eine Regel auch selten innerhalb eines Datensatzes vorkommen, aber in der Praxis sehr oft angewendet werden. In diesem Fall würde man von einer hohen Konfidenz bei geringer Unterstüt- zung sprechen. Die Ausprägung beider Maße hängt sehr individuell von dem verwendeten Datensatz ab. In der Praxis ist es wichtig, dass der Datensatz repräsentativ für die Daten ist, die später bei der Anwendung der Regeln zu erwarten sind. Die Maße helfen also, Kausalitäten von Korrelationen zu unterscheiden und die praktische Relevanz einer Zuordnungsregel zu bewerten. Das dritte Maß Lift kombiniert die beiden Werte von Unterstützung und Konfidenz. Es gibt an, wie hoch der Konfidenzwert für die Regel den Erwartungswert übersteigt und zeigt die allgemeine Bedeutung einer Regel an. Zusammenfassend sind die folgenden Definitionen wichtig für das Verständ- nis von Assoziationsregel-Algorithmen: Assoziationsregel: Bsp. {X → Y} besagt, dass Y ein Korb ist, enn X auch Teil des Korbes ist Itemset: Bsp. {X,Y} ist eine Darstellung der Liste aller Elemente, die die Assoziationsregel bilden Unterstützung: Prozentualer Anteil der Transaktionen, die die Item- set enthalten Konfidenz: Wahrscheinlichkeit des Auftretens von {Y}, wenn {X} vor- handen ist Lift: Verhältnis der Konfidenz zur Basiswahrscheinlichkeit des Auftre- tens von {Y} 74 Big Data A-priori-Verfahren Apriori ist ein Algorithmus zum Mining gemeinsamer Itemsets und zum Ler- nen von Assoziationsregeln auf Transaktionsdaten. Dazu werden häufig vor- kommende Assoziationen zwischen Attributen und Werten identifiziert. Der Algorithmus erhält die folgenden Werte als Eingaben: Die Datenbank D Die minimale Unterstützung supmin Die minimale Konfidenz confmin Die Beziehung zwischen allen Itemsets und den häufigen Itemsets ist in der folgenden Abbildung visualisiert. esa t enge aller Ite sets u ge Ite sets upport sup in Abbildung 8: Veranschaulichung von häufigen Itemsets in Bezug auf alle Itemsets Zur Ableitung von Assoziationsregeln arbeitet der Algorithmus in zwei Schrit- ten: (1) Identifizierung von häufigen Itemsets und (2) Generierung von Asso- ziationsregeln. 1. Zunächst werden die häufigen Item-Sets aus der Menge aller Item- sets erzeugt. Die Menge aller Itemsets besteht aus der Potenzmenge der einzelnen Elemente im Datensatz. Wenn bspw. 5 Elemente im Datensatz {Brot, Butter, Ei, Milch, Gemüse, Joghurt} vorhanden sind, ergeben sich die folgenden Elementmengen: {Brot}, {Butter}, {Brot, Butter}, {Brot, Butter, Milch}, usw. Die Suche nach häufigen Itemsets beginnt mit den einelementigen Mengen (d. h. den einzelnen Items) und wird iterativ um Mengen mit 2 Elementen, 3 Elementen, usw. erweitert. Diese Erweiterung wird bis zu n-elementigen Mengen fort- gesetzt, bis keine Itemsets mit ausreichender Unterstützung mehr gefunden werden. Dazu wird in jeder Iteration eine Menge von Kan- didatensets erstellt und dann jedes Set m auf die Eigenschaft 75 Big Data support(m) ≥ minsup geprüft. Wenn keine neuen Sets mehr gefun- den werden können, hält der Algorithmus an und gibt die gefunde- nen Sets zurück. Diese zurückgegebene Menge enthält alle häufigen Itemsets und dient als Eingabe für den zweiten Schritt des Algorith- mus. 2. Anschließend werden Assoziationsregeln auf der Basis der identifi- zierten häufigen Itemsets generiert. Wie im ersten Schritt arbeitet das Verfahren iterativ und beginnt mit möglichst einelementigen Re- geln, die in jeder Iteration um weitere Elemente erweitert werden. Für jede gefundene Regel r prüft der Algorithmus, ob ihre Konfidenz größer ist als die definierte minimale Konfidenz: confidence(r) ≥ min- conf. Wenn diese Bedingung erfüllt ist, wird die Regel in der nächsten Iteration erweitert. Wenn die Bedingung nicht zutrifft, wird die Regel aus der Kandidatenmenge entfernt. Sobald die Kandidatenmenge leer ist, wird der Algorithmus beendet, und die Regelgenerierung ist abgeschlossen. Durch Anwendung der beiden oben beschriebenen Schritte wird eine Menge von Assoziationsregeln erstellt, die sowohl die Bedingung der minimalen Un- terstützung als auch der minimalen Konfidenz erfüllt. Die Anzahl der ermit- telten Regeln variiert in Abhängigkeit von den für minsup und minconf definier- ten Werten. Für die Ableitung von Geschäftsentscheidungen kann der gene- rierte Regelsatz gezielt nach denjenigen Regeln sortiert werden, die den höchsten Support aufweisen, da davon ausgegangen werden kann, dass diese Regeln auch in Zukunft (unter der Annahme, dass der gewählte Trai- ningsdatensatz repräsentativ für die Situation ist) am häufigsten vorkom- men werden. 76

Use Quizgecko on...
Browser
Browser