Big Data und KI 5

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

Welche Aussage beschreibt nicht korrekt den Unterschied zwischen Nominal- und Ordinalskalen?

  • Nominalskalen erlauben die Unterscheidung von Ausprägungen, Ordinalskalen zusätzlich die Anordnung.
  • Beispiele für Nominalskalen sind Farben, während Schulnoten Beispiele für Ordinalskalen sind.
  • Bei Ordinalskalen existiert eine natürliche Rangfolge, die bei Nominalskalen fehlt.
  • Ordinalskalen haben immer einen definierten Nullpunkt, den Nominalskalen nicht haben. (correct)

Bei welcher der folgenden Skalen ist es nicht sinnvoll, das Verhältnis zweier Messwerte zu bilden?

  • Metrische Skala
  • Kardinalskala
  • Verhältnisskala
  • Intervallskala (correct)

Warum ist das arithmetische Mittel nicht robust gegenüber Ausreißern?

  • Weil das arithmetische Mittel nur für Nominalskalen geeignet ist.
  • Weil Ausreißer die Anzahl der Beobachtungen stark erhöhen.
  • Weil Ausreißer das Skalenniveau der Daten verändern.
  • Weil Ausreißer die Summe der beobachteten Werte unverhältnismäßig beeinflussen. (correct)

Ein Forscher möchte die Kundenzufriedenheit messen. Er verwendet eine Skala von 1 (sehr unzufrieden) bis 7 (sehr zufrieden). Welches Skalenniveau liegt vor?

<p>Ordinalskala (D)</p> Signup and view all the answers

Welche der folgenden Operationen ist bei einer Intervallskala nicht zulässig?

<p>Aussage, dass ein Wert doppelt so groß ist wie ein anderer (C)</p> Signup and view all the answers

Warum ist die Auswahl einer geeigneten Stichprobe wichtig für eine Untersuchung?

<p>Um die Repräsentativität der Ergebnisse für die Grundgesamtheit sicherzustellen. (A)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten den Unterschied zwischen deskriptiver und schließender Statistik?

<p>Deskriptive Statistik beschreibt die Eigenschaften einer Stichprobe, während schließende Statistik Schlussfolgerungen über die Population zieht. (D)</p> Signup and view all the answers

In einer Studie werden die Körpergrößen von 1000 Erwachsenen gemessen. Welches Skalenniveau liegt vor?

<p>Kardinalskala (C)</p> Signup and view all the answers

Was ist das Hauptziel beim Einsatz von verstärkendem Lernen in Bezug auf die Belohnungsfunktion?

<p>Die zuvor definierte Zielerreichung zu maximieren. (D)</p> Signup and view all the answers

Wie modelliert man ein Problem, bei dem verstärkendes Lernen verwendet wird und Entscheidungen wiederholt getroffen werden?

<p>Als Markov-Entscheidungsprozess. (A)</p> Signup and view all the answers

Welche Information wird typischerweise während der Trainingsphase beim verstärkenden Lernen gespeichert?

<p>Die Zustands-Aktions-Paar-Information in Bezug auf eine erreichte Belohnung. (B)</p> Signup and view all the answers

Warum ist die alleinige Verwendung von Trainingsdaten bei komplexen Spielen wie Go nicht zielführend?

<p>Weil die Anzahl der möglichen Spielzustände zu gross ist. (B)</p> Signup and view all the answers

Was ist die grundlegende Inspiration für künstliche neuronale Netze?

<p>Das menschliche Gehirn. (D)</p> Signup and view all the answers

In welchen Bereichen finden neuronale Netze typischerweise Anwendung?

<p>Sowohl in unüberwachtem als auch in überwachtem maschinellen Lernen. (A)</p> Signup and view all the answers

Welche Aussage beschreibt am besten die Rolle des Agenten beim bestärkenden Lernen?

<p>Der Agent entscheidet, welche Aktion aufgrund seines aktuellen Zustands am besten ist. (D)</p> Signup and view all the answers

Was ist ein wesentlicher Vorteil neuronaler Netze in Bezug auf Lernsysteme?

<p>Sie können sowohl für unüberwachtes als auch für überwachtes maschinelles Lernen eingesetzt werden. (C)</p> Signup and view all the answers

Welchen Vorteil bietet Predictive Maintenance im Vergleich zu traditionellen Wartungsmodellen?

<p>Früherkennung drohender Probleme durch Überwachung von Sensordaten und bedarfsorientierte Wartung. (D)</p> Signup and view all the answers

Wie individualisiert McDonalds laut Text seine Dienstleistungen durch den Einsatz von Bilderkennung?

<p>Durch das Anbieten von individualisierten Menüvorschlägen basierend auf der Erkennung von Fahrzeugen und Kundinnen. (C)</p> Signup and view all the answers

Welches Kriterium ist entscheidend bei der Auswahl eines maschinellen Lernansatzes für ein spezifisches Anwendungsszenario?

<p>Die Existenz einer Zielvariable, für die eine Vorhersage getroffen werden soll, und die Verfügbarkeit von Lerndaten. (D)</p> Signup and view all the answers

Welchen Nachteil haben traditionelle Wartungsmodelle im Hinblick auf den tatsächlichen Wartungsbedarf von Maschinen?

<p>Sie berücksichtigen den Verschleiß von Maschinenbestandteilen nicht ausreichend. (A)</p> Signup and view all the answers

Wie können Machine-Learning-Modelle zur Predictive Maintenance beitragen?

<p>Durch die Vorhersage von Maschinenausfällen basierend auf Sensordaten und die Optimierung von Wartungsplänen. (D)</p> Signup and view all the answers

Welches der folgenden Beispiele stellt eine Anwendung von Produktempfehlungen basierend auf Kundendaten dar?

<p>Ein Online-Shop, der Kunden &quot;Produkte, die Sie interessieren könnten&quot; basierend auf ihren bisherigen Käufen anzeigt. (D)</p> Signup and view all the answers

Was ist ein wesentliches Merkmal des überwachten Lernens im Kontext von Machine Learning?

<p>Es verwendet eine Zielvariable, für die eine Vorhersage getroffen werden soll, und benötigt Lerndaten. (A)</p> Signup and view all the answers

Welches Problem kann durch den Einsatz von Predictive Maintenance gelöst werden?

<p>Die Ineffizienz traditioneller Wartungsmodelle, die zu unnötigen Service-Terminen und plötzlich auftretenden Störfällen führen können. (A)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten, wie der Median als Lagemaß funktioniert?

<p>Er teilt die sortierten Daten in zwei Hälften, wobei eine Hälfte unterhalb und die andere oberhalb des Wertes liegt. (C)</p> Signup and view all the answers

Warum wird der Median als ein 'robustes' Lagemaß bezeichnet?

<p>Weil er unempfindlich gegenüber extremen Werten im Datensatz ist. (C)</p> Signup and view all the answers

Was unterscheidet ein Quantil von anderen Lagemaßen wie Median oder Modus?

<p>Ein Quantil teilt die Daten in spezifische Prozentsätze auf, während Median und Modus einzelne, typische Werte darstellen. (A)</p> Signup and view all the answers

Was ist ein wesentlicher Unterschied zwischen der diskreten und der stetigen Gleichverteilung?

<p>Die diskrete Gleichverteilung beschreibt Zufallsexperimente mit einer begrenzten Anzahl gleichwahrscheinlicher Ausgänge, während die stetige Gleichverteilung Werte aus einem Intervall mit gleicher Dichte beschreibt. (B)</p> Signup and view all the answers

Welche Aussage beschreibt die Eigenschaften einer Normalverteilung amzutreffendsten?

<p>Eine Normalverteilung ist eindeutig durch ihren Mittelwert und ihre Standardabweichung definiert. (D)</p> Signup and view all the answers

Wie verhält sich das 25%-Quantil (unteres Quartil) zu den restlichen Daten?

<p>25% der Daten liegen unterhalb und 75% oberhalb des Quantils. (D)</p> Signup and view all the answers

Was ist der Hauptunterschied zwischen einer statistischen Variable und einer Zufallsvariable?

<p>Statistische Variablen werden aus Stichproben einer Population gewonnen, während Zufallsvariablen mögliche Ergebnisse eines Zufallsexperiments beschreiben. (C)</p> Signup and view all the answers

Wie beeinflusst die Standardabweichung eine Normalverteilung?

<p>Sie steuert die Breite der Verteilung, also wie weit die Daten gestreut sind. (D)</p> Signup and view all the answers

Welchen Vorteil bietet die Warenkorbanalyse durch Assoziationsregeln im Einzelhandel?

<p>Hilft bei der Identifizierung von Produkten, die oft zusammen gekauft werden, um gezielte Empfehlungen auszusprechen. (A)</p> Signup and view all the answers

Wie werden Assoziationsregeln typischerweise formuliert?

<p>Als 'Wenn-Dann'-Anweisungen, die die Wahrscheinlichkeit des gemeinsamen Auftretens von Datenelementen beschreiben. (D)</p> Signup and view all the answers

Unter welcher Bedingung ähnelt eine Poisson-Verteilung einer Normalverteilung?

<p>Bei geringer Schiefe. (B)</p> Signup and view all the answers

Wie wird die Wahrscheinlichkeit des Eintretens eines Ereignisses typischerweise angegeben?

<p>Als Wert zwischen 0 und 1, wobei 0 das sichere Nichteintreten und 1 das sichere Eintreten bedeutet. (C)</p> Signup and view all the answers

Die Poisson-Verteilung wird oft als 'Verteilung der seltenen Ereignisse' bezeichnet. Welches der folgenden Szenarien wäre am besten durch eine Poisson-Verteilung modellierbar?

<p>Die Anzahl der Tippfehler auf einer Seite eines Buches. (A)</p> Signup and view all the answers

Welches Problem kann entstehen, wenn Assoziationsregeln aus der Analyse aller möglichen Itemsets gebildet werden?

<p>Es könnten so viele Regeln entstehen, dass sie wenig Aussagekraft haben. (A)</p> Signup and view all the answers

Was stellt eine Wahrscheinlichkeitsverteilung dar?

<p>Die Wahrscheinlichkeiten für alle möglichen Werte einer Zufallsvariable. (C)</p> Signup and view all the answers

In welchen Bereichen, neben der Warenkorbanalyse, finden Assoziationsregeln Anwendung?

<p>In medizinischen Datensätzen, um Zusammenhänge zwischen Symptomen und Krankheitsbildern aufzudecken. (C)</p> Signup and view all the answers

Welchen Vorteil bietet die Kenntnis der Verteilung von Daten, wie z.B. durch eine Normalverteilung, bei der Analyse von Big Data?

<p>Es hilft, Muster zu erkennen, Ausreißer zu identifizieren und geeignete statistische Modelle anzuwenden. (D)</p> Signup and view all the answers

Angenommen, eine Zufallsvariable beschreibt das Ergebnis eines Würfelwurfs. Welche Aussage über die Wahrscheinlichkeitsverteilung ist korrekt?

<p>Die Wahrscheinlichkeitsverteilung zeigt für jede Zahl von 1 bis 6 eine Wahrscheinlichkeit von etwa 16.67%. (D)</p> Signup and view all the answers

Angenommen, Sie modellieren die Anzahl der Kunden, die pro Stunde eine Website besuchen. Welche Verteilung wäre am wahrscheinlichsten geeignet, wenn die durchschnittliche Besucherzahl pro Stunde niedrig ist und zufällig schwankt?

<p>Eine Poisson-Verteilung. (C)</p> Signup and view all the answers

Was versteht man unter dem Begriff 'Association Rule Mining'?

<p>Den Prozess der Erstellung von Assoziationsregeln. (B)</p> Signup and view all the answers

Warum ist es wichtig, die 'Schiefe' bei der Analyse einer Poisson-Verteilung zu berücksichtigen?

<p>Die Schiefe gibt Einblick, ob die Verteilung der Daten in verschiedene Richtungen unterschiedlich ist, was die Interpretation beeinflusst. (D)</p> Signup and view all the answers

Was sind 'Itemsets' im Kontext von Assoziationsregeln?

<p>Gruppen, die aus zwei oder mehr Items bestehen und zur Berechnung von Assoziationsregeln verwendet werden. (C)</p> Signup and view all the answers

Ein Supermarkt platziert aufgrund einer Warenkorbanalyse Windeln neben Bier. Welches Ziel verfolgt er damit hauptsächlich?

<p>Die Impulskäufe von Kunden zu steigern, die beide Produkte wahrscheinlich zusammen kaufen. (D)</p> Signup and view all the answers

Welche Aussage beschreibt am besten die Bedeutung von demografischen Informationen im Zusammenhang mit der Warenkorbanalyse?

<p>Demografische Daten ermöglichen es, das Kaufverhalten verschiedener Kundengruppen zu segmentieren und gezielter anzusprechen. (D)</p> Signup and view all the answers

Flashcards

Mittelwert

Der Durchschnittswert, der durch extrem hohe oder niedrige Werte verzerrt werden kann.

Median

Der Wert, der einen Datensatz in zwei Hälften teilt, wobei eine Hälfte unterhalb und die andere oberhalb liegt. Robust gegen Ausreißer.

Modus

Der Wert, der in einem Datensatz am häufigsten vorkommt.

Maximum

Der größte beobachtete Wert in einem Datensatz.

Signup and view all the flashcards

Minimum

Der kleinste beobachtete Wert in einem Datensatz.

Signup and view all the flashcards

Quantil

Ein Wert, der einen Datensatz so teilt, dass p% der Daten unterhalb und (1-p)% oberhalb liegen.

Signup and view all the flashcards

Statistische Variable

Werte, die aus einer Stichprobe einer Grundgesamtheit stammen.

Signup and view all the flashcards

Zufallsvariable

Beschreibt das Auftreten möglicher Ergebnisse eines Zufallsexperiments.

Signup and view all the flashcards

Gleichverteilung

Eine einfache Verteilung, die in diskrete und stetige Varianten unterteilt ist.

Signup and view all the flashcards

Diskrete Gleichverteilung

Zufallsexperiment mit n Ausgängen, die alle die gleiche Wahrscheinlichkeit (1/n) haben.

Signup and view all the flashcards

Stetige Gleichverteilung

Alle Ausgänge im betrachteten Intervall [a, b] sind gleich wahrscheinlich (gleiche Dichte).

Signup and view all the flashcards

Normalverteilung

Eine wichtige Verteilung, die durch Mittelwert und Standardabweichung definiert ist.

Signup and view all the flashcards

Mittelwert (Normalverteilung)

Verschiebt die Normalverteilung auf der x-Achse.

Signup and view all the flashcards

Standardabweichung (Normalverteilung)

Steuert die Streuung der Normalverteilung.

Signup and view all the flashcards

Poisson Verteilung

Ähnelt der Normalverteilung, hat aber einen zusätzlichen Faktor, die 'Schiefe'.

Signup and view all the flashcards

Schiefe (Poisson)

Bei geringer ist die Verteilung homogen. Bei hoher Schiefe ist die Verteilung der Daten ungleich.

Signup and view all the flashcards

Stichprobe

Ein Teil der Grundgesamtheit, der für eine Untersuchung ausgewählt wurde.

Signup and view all the flashcards

Skalenniveau

Unterscheiden statistische Merkmale nach Messbarkeit und Vergleichbarkeit der Daten.

Signup and view all the flashcards

Nominalskala

Merkmale sind unterscheidbar, aber nicht ordnungsfähig (z.B. Namen, Farben).

Signup and view all the flashcards

Ordinalskala

Merkmale haben eine natürliche Rangfolge, aber Abstände sind nicht interpretierbar (z.B. Schulnoten).

Signup and view all the flashcards

Intervallskala

Abstände sind interpretierbar, aber kein natürlicher Nullpunkt (z.B. Temperatur in °C).

Signup and view all the flashcards

Kardinalskala (Metrisch)

Besitzen einen natürlichen Nullpunkt, daher sind Verhältnisoperationen möglich (z.B. Temperatur in Kelvin).

Signup and view all the flashcards

Statistische Merkmale

Beschreiben Eigenschaften zur Verteilung von Daten (z.B. Mittelwert, Quartile).

Signup and view all the flashcards

Lagemaße

Geben an, in welchem Bereich sich Daten befinden (z.B. Mittelwert).

Signup and view all the flashcards

Arithmetisches Mittel

Summe aller Werte geteilt durch die Anzahl der Werte.

Signup and view all the flashcards

Verstärkendes Lernen

Ein Ansatz, bei dem ein Agent lernt, Entscheidungen zu treffen, um eine Belohnung zu maximieren.

Signup and view all the flashcards

Markov-Entscheidungsprozess

Ein mathematisches Modell zur Entscheidungsfindung in Situationen, in denen Ergebnisse teilweise zufällig und teilweise unter der Kontrolle eines Entscheidungsträgers liegen.

Signup and view all the flashcards

Trainingsphase (verstärkendes Lernen)

Der Agent beobachtet den Ausgangszustand, führt eine Aktion aus, erhält eine Belohnung/Strafe und speichert die Zustands-Aktions-Paar-Information.

Signup and view all the flashcards

Künstliche neuronale Netze

Informationsverarbeitende Systeme, die dem menschlichen Gehirn nachempfunden sind.

Signup and view all the flashcards

Anwendung neuronaler Netze

Sie können für überwachtes und unüberwachtes maschinelles Lernen eingesetzt werden

Signup and view all the flashcards

Zielerreichung

Die Definition von gutem oder schlechtem Verhalten in Bezug auf ein zuvor definiertes Ziel. (Belohnungsfunktion)

Signup and view all the flashcards

Speicherung der Zustands-Aktions-Paar-Information

Das Speichern der Zustands-Aktions-Paar-Information in Bezug auf eine erreichte Belohnung.

Signup and view all the flashcards

Aktion des Agenten

Die Aktion des Agenten wird ausgeführt – unter Verwendung der Entscheidungsfunktion und der damit verbundenen Zielsetzung.

Signup and view all the flashcards

Produktempfehlungen (verwandte Artikel)

Produktempfehlungen basierend auf dem Verhalten anderer Kunden, z.B. "Kunden, die dieses Produkt kauften, kauften auch...".

Signup and view all the flashcards

Individualisierte Menüvorschläge

Einsatz von Kameras mit Bilderkennung im Drive-In, um Kunden zu identifizieren und personalisierte Menüvorschläge zu machen.

Signup and view all the flashcards

Prädiktive Wartung

Ein Wartungsansatz, der Maschinendaten nutzt, um den tatsächlichen Wartungsbedarf vorherzusagen und unnötige Service-Termine zu vermeiden.

Signup and view all the flashcards

Erkennung von Anomalien

Überwachen von Sensordaten, um Abweichungen vom normalen Maschinenverhalten zu erkennen und drohende Probleme frühzeitig zu erkennen.

Signup and view all the flashcards

Effektivere Anlagennutzung

Ermöglicht bedarfsorientierte Wartungseinsätze, um eine effektivere Nutzung von Anlagen zu gewährleisten.

Signup and view all the flashcards

Überwachtes Lernen

Ein Ansatz, bei dem Modelle aus Lerndaten abgeleitet werden, um Vorhersagen für eine Zielvariable zu treffen.

Signup and view all the flashcards

Zielvariable

Ein entscheidendes Kriterium für die Auswahl eines Machine-Learning-Verfahrens.

Signup and view all the flashcards

Zielvariable (im überwachten Lernen)

Eine Variable, deren Wert vorhergesagt werden soll, wobei Beispiele in Form von Lerndaten erforderlich sind.

Signup and view all the flashcards

Warenkorbanalyse

Eine Analyse, die identifiziert, welche Produkte oft zusammen gekauft werden.

Signup and view all the flashcards

Assoziationsregeln

"Wenn-Dann"-Anweisungen, die die Wahrscheinlichkeit des gemeinsamen Auftretens von Datenelementen widerspiegeln.

Signup and view all the flashcards

Assoziationsregel-Mining

Der Prozess der Erstellung von Assoziationsregeln in einem Datensatz.

Signup and view all the flashcards

Itemsets

Eine Sammlung von zwei oder mehr Items, aus denen Assoziationsregeln berechnet werden.

Signup and view all the flashcards

Beispiel für eine Assoziationsregel in der Warenkorbanalyse

Wenn ein Kunde Produkt A und B kauft, kauft er wahrscheinlich auch Produkt C.

Signup and view all the flashcards

Nutzen von Assoziationsregeln

Erkenntnisse über Kundenpräferenzen führen zu gezielten Empfehlungen und Umsatzsteigerung.

Signup and view all the flashcards

Anwendung von Assoziationsregeln im medizinischen Bereich

Aufdecken von Zusammenhängen zwischen Symptomen und Krankheitsbildern.

Signup and view all the flashcards

Datenbasis Warenkorbanalyse

Die Analyse einer großen Anzahl von Warenkörben und die Kombination mit demografischen Informationen über die Kunden

Signup and view all the flashcards

Study Notes

Methoden

Einfache statistische Verfahren

  • Viele Konzepte aus künstlicher Intelligenz und maschinellem Lernen basieren auf Statistik.
  • Das Verständnis von Grundprinzipien ist essentiell für die Analyse im Bereich Big Data.
  • Statistische Methoden ermöglichen die Analyse von Datenstrukturen und Beziehungen und das Beschreiben von Zusammenhängen.
  • Ein ausgeprägtes Verständnis statistischer Methoden ist hilfreich für die Anwendung von KI-Verfahren.
  • Es ermöglicht die effektive Nutzung, Bewertung und Auswahl von Datengrundlagen, um sinnvolle Ergebnisse zu erzielen.
  • Interpretation und Schlussfolgerungen aus Ergebnissen werden ermöglicht.
  • Es wird eine Zusammenfassung von statistischen Konzepten dargestellt.

Statistische Grundbegriffe

  • Daten werden analysiert, die zu bestimmten Untersuchungsobjekten (z. B. durch Beobachtung) festgestellt wurden.
  • Es folgt eine Erläuterung wichtiger Grundbegriffe:
  • Merkmalsträger sind Objekte, zu denen Daten erfasst werden (z.B. Patienten).
  • Merkmale bzw. statistische Variablen beschreiben die Aspekte der Merkmalsträger (z.B. Geschlecht, Alter).
  • Merkmalsausprägung bzw. Werte definieren die verschiedenen Möglichkeiten, die ein Merkmal annehmen kann (z.B. „weiblich“, „männlich").
  • Die Grundgesamtheit definiert die Menge aller potenziellen Merkmalsträger.
  • Eine Teilgesamtheit ist ein Ausschnitt der Grundgesamtheit.
  • Eine Stichprobe wird für eine Untersuchung verwendet.

Skalenniveau

  • Statistische Merkmale lassen sich in Bezug auf das Skalenniveau unterscheiden.
  • Das Skalenniveau gibt an, welche Kennzahlen berechnet werden können.
  • Vier verschiedene Skalenniveaus:
  • Nominalskalen: Ausprägungen, die unterscheidbar sind, aber nicht in eine Reihenfolge gebracht werden können (z. B. Namen, Farben).
  • Ordinalskalen: Ausprägungen mit natürlicher Rangfolge, deren Abstände aber nicht interpretiert werden können (z. B. Schulnoten).
  • Intervallskalen: Abstände zwischen Ausprägungen sind sinnvoll, aber es gibt keinen natürlichen Nullpunkt (z. B. Temperatur in Grad Celsius).
  • Kardinalskalen: Haben einen natürlichen Nullpunkt und erlauben Verhältnisoperationen (z. B. Temperatur in Grad Kelvin).
  • Statistische Merkmale sind ein Konzept der deskriptiven Statistik.
  • Sie werden zu Beginn einer Datenanalyse eingesetzt, um die Charakteristika des Datensatzes zu beleuchten (z. B. Mittelwert, Quartile).
  • Lagemaße werden verwendet, um die Verteilung von Daten zu beschreiben.
  • Wichtige Parameter:
    • Arithmetisches Mittel wird berechnet, indem alle Werte aufsummiert und durch die Anzahl der Beobachtungen geteilt werden; nicht robust gegenüber Ausreißern.
  • Median begrenzt den Einfluss von Extremwerten in den Daten, indem die Daten so geteilt werden, dass eine Hälfte unterhalb und die andere oberhalb liegt.
  • Modus gibt an, welcher Wert am häufigsten auftritt.
  • Maximum ist der größte beobachtete Wert.
  • Minimum ist der kleinste beobachtete Wert.
  • Quartile trennen die Daten so in zwei Teile, dass p% der Daten unterhalb und (1-p) % oberhalb des Quantils liegen (z.B. entspricht der Median dem 50%-Quantil).
  • Statistische Variablen werden durch eine Stichprobe aus einer Grundgesamtheit bestimmt.
  • Zufallsvariablen beschreiben das Auftreten von möglichen Merkmalen anhand eines Zufallsexperiments.
  • Wahrscheinlichkeitsverteilungen bestimmen das Auftreten der Werte einer Zufallsvariable.
  • Wahrscheinlichkeiten werden üblicherweise im Bereich von 0 bis 1 angegeben.

Wahrscheinlichkeitsverteilungen

  • Wahrscheinlichkeiten können als die prozentuale Verteilung für den Eintritt eines bestimmten Ereignisses definiert werden.
  • Eine Wahrscheinlichkeitsverteilung stellt die Wahrscheinlichkeiten aller möglichen Werte für das Eintreten eines Ereignisses dar.
  • Die Gleichverteilung ist eine der einfachsten Verteilungen und wird in diskrete und stetige unterschieden.
  • Die diskrete Gleichverteilung beschreibt ein Zufallsexperiment mit n verschiedenen Ausgängen, die alle gleich wahrscheinlich auftreten.
  • Bei der stetigen Gleichverteilung sind ebenfalls alle Ausgänge des betrachteten Zufallsexperimentes gleich wahrscheinlich, stammen allerding aus einem Intervall.
  • Eine Normalverteilung (Gauß-Verteilung) ist eindeutig durch ihren Mittelwert und ihre Standardabweichung definiert.
  • Der Mittelwert verschiebt die Verteilung räumlich, und die Standardabweichung steuert diese.
  • Im Gegensatz zur Poisson-Verteilung, ist die Standardabweichung in allen Richtungen ist gleich Standardabweichung.
  • Zufallsvariablen sind meist annähernd normalverteilt, wenn Werte überwiegend innerhalb eines bestimmten Bereichs liegen.
  • Eine Poisson-Verteilung ähnelt der Normalverteilung, jedoch mit dem zusätzlichen Faktor, der sogenannten Schiefe.
  • Bei geringer Schiefe hat die Poisson-Verteilung hat die Form einer Normalverteilung . Bei hoher Schiefe hingegen ist die Verteilung der Daten in verschiedene Richtungen unterschiedlich.
  • Die Possion-Verteilung wird auch als "Verteilung der seltenen Ereignisse" bezeichnet und eignet sich beispielsweise für die Modellierung der folgenden Szenarien
    • Anzahl der Ereignisse pro Zeiteinheit (z. B. Anrufe im Call-Center pro Stunde)
    • Anzahl der Objekte Fläche (z. B. Bakterien in einem Liter Flüssigkeit)

Korrelationen

  • Mit einer Korrelation wird die Stärke eines statistischen Zusammenhangs zwischen zwei Variablen gemessen.
  • Positive Korrelation: "je größer Variable A desto größer Variable B".
  • Negative Korrelation: "je kleiner Variable A desto kleiner Variable B".
  • Eine Korrelation impliziert keine Kausalität im Sinne einer ursächlichen Beziehung.
  • Eine starke Korrelation kann auf Kausalität hinweisen, allerdings können auch andere Erklärungsmuster existieren.
  • Korrelationen sind wichtig, weil eine korrelative Beziehung Informationen darüber liefern kann, wie sich die Werte von Variablen in Abhängigkeit von anderen verhalten.
  • Korrelationen werden über Korrelationskoeffizienten angegeben, die ein Maß für die Stärke eines Zusammenhangs zwischen zwei statistischen Merkmalen darstellen.
  • Ein Korrelationskoeffizient kann Werte zwischen -1 und 1 annehmen, wobei 0 keinen Zusammenhang bedeutet.
  • Der griechische Buchstabe p (rho) steht für die Pearson-Produkt-Moment-Korrelation.

Maschinelles Lernen und Künstliche Intelligenz

  • Künstliche Intelligenz (KI) kann auf unterschiedliche Arten definiert werden, aber bis heute ist selbst unter Experten keine klare und eindeutige Definition vorhanden.
  • KI ist ein Zweig der Informatik, der sich mit Modellen und Systemen beschäftigt, die mit menschlicher Intelligenz assoziiert werden.
  • KI ahmt kognitive Funktionen wie Mustererkennung, Lernen und Problemlösungsfähigkeiten nach.
  • Zusammenfassend zeigt sich KI in vier Grundfähigkeiten - Wahrnehmen, Verstehen, Handeln und Lernen.
  • Es kann zwischen sogenannter starker Kl und schwacher Kl unterschieden werden
    • Starke KI zielt darauf ab, die allgemeine menschliche Intelligenz zu imitieren.
    • Schwache KI konzentriert sich auf klar abgegrenzte Anwendungsbereiche.
  • Alle heutigen KI-Systeme werden dem Teilgebiet der schwachen Kl zugerechnet und bieten spezialisierte Lösungen für klar umgrenzte Problemstellungen.
  • Maßgeblich verantwortlich für den KI-Trend der letzten Jahre ist insbesondere das maschinelle Lernen (engl. Machine Learning, kurz: ML) und dort vor allem Deep Learning.
  • Der Bereich Machine Learning kann wiederum in verschiedene Teilgebiete aufgegliedert werden. Eines davon ist das sogenannte Representational Learning mit Deep Learning.

Maschinelles Lernen im Überblick

  • Maschinelles Lernen (ML) bezieht sich auf einen Teilbereich der KI, der sich mit der Ableitung von Mustern aus großen Datenbeständen befasst.
  • ML ist als etabliertes Gebiet der Wissenschaft.
  • Es kann zur Anwendung für bestimmte Anwendungsgebiete oder zur theoretische Betrachtung dienen.
  • Machine Learning bezeichnet die „automatische“ Generierung von Wissen aus Erfahrung, die in Form von großen Datenmengen kodifiziert sind.
  • ML-Modelle werden verwendet, damit Computer Muster und Gesetzmäßigkeiten in Daten erkennen und Lösungen für spezifische Problemstellungen entwickeln.

Anwendungsfälle für maschinelles Lernen

  • Digitale Assistenten in Smartphones oder als Smart Speaker (Apple Siri, Amazon Alexa oder Google Assistant) werden immer beliebter
  • Funktionen: Beantwortung von Suchanfragen, Verwaltung von Kalendereinträgen und Auskünfte zum Wetter.
  • Maschinelle Lernalgorithmen verarbeiten die Spracheingabe, um Wörter zu verstehen und auszusprechen.
  • Personalisierung von Diensten ist ein weiteres wichitiges Beispiel.
  • Netflix, Amazon und Facebook verwenden bisherigen Suchaktivitäten und Verhaltensweisen zur Empfehlung von Produkten .
  • Machine Learning wird verwendet, um Vorlieben von Kunden zu erlernen und diese mit anderen zu vergleichen.
  • McDonalds experimentiert mit Kameras mit Bilderkennung, um Fahrzeuge und Kundinnen wiederzuerkennen
  • Predictive Maintenance: Klassische Wartungsmodelle sind meist zeitbasiert.
  • Machine Learning ermöglicht die Umsetzung von prädiktiven Wartungsmodellen (engl. Predictive Maintenance).
  • Durch Überwachung von Sensordaten werden Abweichungen erkannt, um frühzeitig auf Probleme hinzuweisen.
  • Wartungseinsätze können bedarfsoriertiert geplant werden.

Typen des maschinellen Lernens

  • Maschinelle Lernansätze können für eine große Bandbreite an Anwendungsszenarien eingesetzt werden.
  • Abhängig von Zielsetzung und vorliegenden Daten ergeben sich Anforderungen an die Methoden.
  • Ein Unterscheidungskriterium ist die Existenz einer sogenannten Zielvariable.
  • Die Ausprägungen der Zielvariable wird zwischen kontinuierlichem Wert (Temperaturwerte in Zentraleuropa) und kategorialen Werten (Spam/kein Spam) unterschieden.
  • Liegen keine Zielvariablen vor, betritt man den Bereich des unüberwachten Lernens.

Vier Grundsätzliche Kategorien maschineller Lernverfahren

  • Überwachtes Lernen:
    • Ein Algorithmus erhält eine bestimmte Eingabe und eine entsprechende Ausgabe.
    • Während des Trainingsprozesses werden Muster abgeleitet, die von einer Eingabe zur gewünschten Ausgabe führen
  • Unüberwachte Lernverfahren:
    • Methoden, die verwendet werden, wenn für einen Eingabedatensatz keine entsprechenden Ausgabedatensätze verfügbar sind.
    • Das primäre Ziel ist es, in dem vorhandenen Datensatz Muster zu identifizieren.
    • Z. B. Clustering
  • Teilüberwachtes Lernen:
    • Verfahren, wenn Daten ohne vollständig ohne Beispielsausprägungen vorliegen
    • Ein geringer Teil ist extrahiert und wird mit Ergebnisvariablen zu versehen.
  • Es wird davon ausgegangen, dass Datensätze mit ähnlicher Lage das gleiche Label haben
  • Verstärkendes Lernen (Reinforcement Learning):
    • Interaktion mit der Umwelt generiert Beobachtungen.
    • Agent lernt aus der Beobachtung der Umwelt.
    • Algorithmus greift auf eine Belohnungsfunktion zurück.
    • Algorithmus erhält direktes Feedback, ob und wie gut/schlecht sein Verhalten ist.
    • Algorithmus versucht die vordefinierte Zielerreichung zu maximieren
  • Ablauf des Trainingsphase:
    • Der Agent beobachtet den Ausgangszustand.
    • Die Aktion des Agenten wird ausgeführt – unter Verwendung der Entscheidungsfunktion.
    • Der Agent erhält entweder eine Belohnung oder negativen Wert Speicherung der Zustands-Aktions-Paar-Information in Bezug auf die erreichte Belohnung

Neuronale Netze: Aufbau und Funktion

  • Künstliche neuronale Netze sind dem menschlichen Gehirn nachempfundene, informationsverarbeitende Systeme.
  • Sie stellen einen der ältesten Forschungszweige der künstlichen Intelligenz dar.
  • Neuronale Netze können für unüberwachtes und überwachtes maschinelles Lernen eingesetzt werden.
  • Typische Anwendungsbereiche: Mustererkennung und Klassifizierung, das Lösen von Optimierungsproblemen oder die Vorhersage von Parametern basierend auf einer gegebenen Eingabe.
  • Neuronale Netze sind Systeme zur Verarbeitung von Daten durch maschinelles Lernen.
  • Eine grundlegende Form der Modellierung künstlicher neuronaler Netze ist das Perzeptronen-Modell.
  • Ein solches Netz in seiner elementarsten Form besteht aus einem einzigen künstlichen Neuron exakt einer Ausgangsfunktion, verknüpft mit mehreren Eingängen
  • Elemente:
    • Eingänge X1, X2, X3 als Inputvariablen
    • Jedem Eingang X1, X2, X3 ist eine eigene Gewichtung W₁,...,Wn ∈ R zugeordnet.
    • Eingangsfunktion ρ = ∑=1 Wixi (gewichtete Summe der Eingabewerte)
  • Aktivierungsfunktion φ(ρ, θ) berechnet über die gewichtete Summe, das Ergebnis der Eingangsfunktion und den Schwellenwert der Ausgabewert o des Neurons Die Informationsverarbeitung erfolgt auf Grundlage des oben in Form von numerischen Werten erfasster Eingangsdaten.

Mehrschichtige Netze

  • Durch die Verwendung einer Vielzahl von Neuronen entstehen sogenannte mehrschichtige Perzeptronen.
  • Mehrschichtige Perzeptronen haben neben einer Ein- und Ausgabeschicht mindestens eine zusätzliche "verdeckte" Schicht.
  • Die Ausgabe eines Neurons stellt in mehrschichtigen neuronalen Netzen die die Eingabe für ein Neuron in der folgenden Schicht dar.
  • Die Aktivierungsfunktion ist dabei entscheidend.
  • Beim Aufbau von mehrschichtigen Netzen werden verschiedene Architekturen oder Topologien unterschieden:
    • Vollständig verbunden: Alle Neuronen aus einer Schicht sind mit allen Neuronen der direkt folgenden Schicht verbunden.
    • Rekurrent: Neuronen einer Schicht können über rückwärtsgerichtete (rekurrente) Kanten mit Neuronen einer vorhergehenden Schicht verbunden werden.
  • Das Netz ist somit mit einem Gedächtnis ausgestattet.
  • Abkürzungen (engl. Shortcuts): Neuronen können nicht nur mit Neuronen der unmittelbar folgenden Schicht verbunden sein, sondern auch mit Neuronen von später folgenden Schichten.
  • Die konkrete Wahl einer Netztopologie hängt vom jeweiligen Anwendungsfall ab und hat maßgeblichen Einfluss auf das erzielte Ergebnis.

Überwachte Lernverfahren

  • Überwachtes Lernen verfolgt das Ziel, aus einer Menge von Beispieldaten eine gute Abbildung von Eingabewerten auf Ausgabewerten zu erlernen.
  • In der Trainingsphase lernt ein Algorithmus hierbei eine mathematische Funktion.
  • Überwachte Lernverfahren verarbeiten während der Lernphase eine große Zahl an Paaren aus Eingabewerten und korrekten Ausgabewerten.
  • Durch iteratives Vorgehen mit verschiedenen Eingaben und Ausgaben wird die Fähigkeit trainiert, Assoziationen zwischen Eingabe- und Ausgabewerten herzustellen
  • Anwendungsbereiche:
    • Klassifizierung von Texten oder Bildern
    • Bild- und Objekterkennung
    • Gesichtserkennung auf Smartphones
    • Dokumentenerkennung
    • Antragsprüfung
    • Qualitätskontrolle
  • Methodenübersicht:
    • lineare Regression
  • logistische Regression
  • künstliche neuronale Netze
  • lineare Diskriminanzanalyse
  • Entscheidungsbäume
  • Bayes'sche Logik
  • Random Forest

Unüberwachte Verfahren

Anwendungsbereiche und

  • Methodenübersicht
    • Unüberwachtes Lernen wird verwendet, wenn keine Ausgabedatensätze verfügbar sind.
  • Das primäre Ziel ist, in einem vorhandenen Datensatz nach Mustern zu suchen und bislang unbekannte Strukturen abzuleiten.
  • Z. B. Clustering
  • Ein Algorithmus erzeugt ein statisches Modell, welches die Eingaben, Kategorien und Beziehungen beschreibt.
  • Die Anzahl der Kategorien kann entweder vorab oder vom Algorithmus definiert werden
  • Die Eingabewerten haben keine Labels
  • Beispiele:
    • (k-means, hierarchical clustering,
  • Anomalieerkennung
  • Assoziationsanalysen
  • künstliche neuronale Netze
  • k-means-Verfahren wird zur Funktionsweise von Algorithmus ein.

Assoziationsalgorithmen und A-priori-Verfahren

  • Assoziationsalgorithmen stellen eines der zentralen Konzepte im Bereich des unüberwachten Lernens dar.
  • Sie werden zu sogenannten Warenkorbanalyse verwendet
    • Anwendungsbeispiele: Erstellung von gezielten Empfehlungen Erkennung von Zusammenhängen zwischen auftretenden Symptomen und Krankheitsbildern in Datensätzen

Bildung und Effektivität von Assoziationsregeln

  • Der Prozess der Erstellung von Assoziationsregeln wird als Assoziationsregel-Mining (engl. association rule mining) bezeichnet.
  • Dabei wird ein Datensatz von Transaktionen (im Beispiel der Warenkorbanalyse sind das einzelne Bestellvorgänge) nach Wenn-Dann-Mustern durchsucht.
  • Assoziationsregeln werden aus sogenannten Itemsets berechnet.
  • Es gibt verschiedene Maße, um die Effektivität von Assoziationsregeln zu bewerten
    • Unterstützung (engl. support) gibt an, wie oft eine Regel in einem Datensatz vorkommt (Prozentsatz der Gesamtzahl). Konfidenz (engl. confidence) bezieht sich auf die Häufigkeit, mit der eine Regel in der Praxis tatsächlich zutrifft
  • Lift kombiniert die Werte von Unterstützung und die Konfidenz

A-priori-Verfahren

  • Apriori ist ein Algorithmus zum Mining gemeinsamer Itemsets und zum Lernen von Assoziationsregeln auf Transaktionsdaten.

  • Eingaben Datenbank minimale Unterstützung

  • minimale Konfidenz

  • Ablauf zur Ableitung eines Assoziationsregeln (1) Identifizierung von häufigen Itemsets (2) Generierung von Assoziationsregeln

Zunächst werden die häufigen Item-Sets aus der Menge aller Item-sets erzeugt. Anschließend werden Assoziationsregeln auf der Basis der identifizierten häufigen Itemsets generiert.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Big Data und KI 1
29 questions

Big Data und KI 1

AchievablePlateau avatar
AchievablePlateau
Big Data und KI 2
29 questions

Big Data und KI 2

AchievablePlateau avatar
AchievablePlateau
Big Data und KI 3
48 questions

Big Data und KI 3

AchievablePlateau avatar
AchievablePlateau
Big Data und KI 6
48 questions

Big Data und KI 6

AchievablePlateau avatar
AchievablePlateau
Use Quizgecko on...
Browser
Browser