Automatische Spracherkennung: Neuronale Netze - Kapitel 8/9

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Welche Aussage beschreibt am besten das Ziel des maschinellen Lernens?

  • Das Erstellen von Systemen, die menschliches Verhalten exakt nachahmen können.
  • Das Lernen aus Daten, um optimale Entscheidungen zu treffen oder Vorhersagen zu machen. (correct)
  • Das explizite Programmieren von intelligenten Systemen.
  • Die Entwicklung von Systemen, die ausschließlich auf vorgegebenen Algorithmen basieren.

Welche der folgenden Anwendungen ist KEIN typisches Beispiel für den Einsatz von maschinellem Lernen?

  • Bild- und Spracherkennung
  • Manuelle Dateneingabe in Tabellenkalkulationen (correct)
  • Empfehlungssysteme
  • Autonome Fahrzeuge

Welche Art des maschinellen Lernens verwendet Belohnungen aus Interaktionen mit der Umgebung, um zu lernen?

  • Halbüberwachtes Lernen
  • Überwachtes Lernen
  • Unüberwachtes Lernen
  • Verstärkungslernen (correct)

Was ist ein Hauptmerkmal von tiefen neuronalen Netzen (DNNs) im Vergleich zu traditionellen Algorithmen?

<p>Sie passen sich mithilfe von maschinellem Lernen an Aufgaben an. (C)</p> Signup and view all the answers

In welchem Bereich werden tiefe neuronale Netze (DNNs) zunehmend eingesetzt und übertreffen oft menschliche Fähigkeiten?

<p>Spracherkennung (D)</p> Signup and view all the answers

Was ist die Hauptfunktion von Aktivierungsfunktionen in neuronalen Netzen?

<p>Die Einführung von Nichtlinearität, um komplexere Muster zu lernen. (C)</p> Signup and view all the answers

Welche zwei Eigenschaften sind besonders nützlich für Aktivierungsfunktionen?

<p>Differenzierbarkeit und Beschränkung des Wertebereichs (D)</p> Signup and view all the answers

Warum ist Differenzierbarkeit eine wichtige Eigenschaft von Aktivierungsfunktionen?

<p>Um den Gradientenabstieg für das Training zu ermöglichen. (A)</p> Signup and view all the answers

Welche Art von Aktivierungsfunktion wird häufig im Ausgangslayer für Klassifikationsaufgaben verwendet, um eine Verteilungsdichtefunktion nachzubilden?

<p>Softmax (C)</p> Signup and view all the answers

Wozu dient die Beschränkung des Wertebereichs am Ausgang einer Aktivierungsfunktion?

<p>Um die Stabilität des Trainings zu erhöhen. (C)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt den Zweck des Validation Sets beim Training eines neuronalen Netzes am besten?

<p>Es wird verwendet, um den Fortschritt zu überwachen und die freien Parameter zu tunen. (C)</p> Signup and view all the answers

Welche Art von Datensatz wird verwendet, um die endgültige Leistung eines trainierten neuronalen Netzes zu bewerten?

<p>Test Set (D)</p> Signup and view all the answers

Was passiert typischerweise, wenn während des Trainings festgestellt wird, dass keine weitere Verbesserung der Performance auf dem Validierungsdatensatz erzielt wird?

<p>Das Training wird abgebrochen. (A)</p> Signup and view all the answers

Welche der folgenden Optionen sind typische Anpassungen, die vorgenommen werden, wenn die Leistung eines neuronalen Netzes auf dem Validierungsdatensatz nicht gut genug ist?

<p>Veränderung der Netztopologie, Kostenfunktion oder Parameteradaption. (B)</p> Signup and view all the answers

Welche Aussage beschreibt am besten die Rolle der Kostenfunktion beim Training eines neuronalen Netzes?

<p>Sie misst die Genauigkeit der Klassifikation oder Approximation des Netzes. (D)</p> Signup and view all the answers

Warum ist die Differenzierbarkeit der Kostenfunktion wichtig für das Training neuronaler Netze?

<p>Um den Gradientenabstieg zur Minimierung des Fehlers zu ermöglichen. (A)</p> Signup and view all the answers

Welche der folgenden Kostenfunktionen ist am besten für Regressionsaufgaben geeignet?

<p>Mittlerer quadratischer Fehler (A)</p> Signup and view all the answers

Welche der folgenden Kostenfunktionen ist am besten für Klassifikationsaufgaben mit Softmax-Ausgangsschicht geeignet?

<p>Kreuzentropie (C)</p> Signup and view all the answers

Was ist das Hauptziel des Gradientenabstiegs beim Training neuronaler Netze?

<p>Die Minimierung der Kostenfunktion durch Anpassung der Netzwerkparameter. (C)</p> Signup and view all the answers

Was ist die grundlegende Idee hinter dem Backpropagation-Algorithmus?

<p>Die iterative Anpassung der Netzwerkparameter basierend auf dem Gradienten der Kostenfunktion. (C)</p> Signup and view all the answers

Welche zwei Hauptphasen umfasst der Backpropagation-Algorithmus?

<p>Forward Propagation (Vorwärtsrechnung) und Backward Propagation (Rückwärtsrechnung) (B)</p> Signup and view all the answers

Was ist das Ziel der Forward Propagation Phase im Backpropagation-Algorithmus?

<p>Die Berechnung der Ausgabe des neuronalen Netzes für eine gegebene Eingabe. (B)</p> Signup and view all the answers

Was geschieht in der Backward Propagation Phase des Backpropagation-Algorithmus?

<p>Der Gradient der Kostenfunktion wird berechnet und zurückpropagiert, um die Gewichte anzupassen. (D)</p> Signup and view all the answers

Warum ist es wichtig, die Berechnung des Gradienten für Klassifikations-DNNs zu verstehen?

<p>Um eine effiziente Anpassung der Parameter während des Trainings zu ermöglichen. (D)</p> Signup and view all the answers

Was ist das Ziel, wenn der Gradient der Kostenfunktion berechnet wird?

<p>Auffinden der Richtung des steilsten Abstiegs der Kostenfunktion. (A)</p> Signup and view all the answers

Was ist die Kettenregel im Kontext des Backpropagation-Algorithmus?

<p>Eine Methode zur Ableitung zusammengesetzter Funktionen, um den Gradienten durch das Netzwerk zu propagieren. (C)</p> Signup and view all the answers

Stichastic Gradient Descent (SGD) ist ein Verfahren zur Beschleunigung des Trainings. Was ist die grundlegende Idee?

<p>Den Gradientenabstieg nicht auf komplettem Trainingsdatensatz anzuwenden, sondern sukzessive für viele, kleine Untermengen des Trainingssetz (Batches). (A)</p> Signup and view all the answers

Nennen Sie ein Beispiel für eine Situation, in der das Vorliegen von Daten, an denen ein Parameter auf zwei Pfaden oder mehr wirkt, berücksichtigt werden muss.

<p>Wenn Backpropagation eingesetzt wird. (C)</p> Signup and view all the answers

Was ist der Parametervektor?

<p>W = [w01, w02... w_NA-1NA]T (D)</p> Signup and view all the answers

Was ist kein Vorteil von DNNs (Deep Neural Networks)?

<p>Hervorragende Interpretierbarkeit der Ergebnisse (A)</p> Signup and view all the answers

Die Neuronen im menschlichen Gehirn...

<p>ca. 20 Watt Energiebedarf für 10^18 Ops/sec. (C)</p> Signup and view all the answers

Welche Aussage über die Aktivierungsfunktion ist falsch?

<p>Sie hat keinen Einfluss auf die Differenzierbarkeit. (D)</p> Signup and view all the answers

Welche Art von Lernen wird verwendet, wenn ein Algorithmus Muster in Daten ohne vorgegebene Labels erkennen soll?

<p>Unüberwachtes Lernen (B)</p> Signup and view all the answers

Wann werden DNNs mit Reinforcement Learning eingesetzt?

<p>In der Regelungstechnik. (B)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten den Nutzen des maschinellen Lernens?

<p>Es ermöglicht intelligenten Systemen, aus Daten zu lernen, ohne explizit programmiert zu werden. (C)</p> Signup and view all the answers

In welchen der folgenden Bereiche werden tiefe neuronale Netze (DNNs) typischerweise eingesetzt?

<p>In komplexen Bereichen wie Spracherkennung, Lippenlesen und Gesichtserkennung. (C)</p> Signup and view all the answers

Beim Training eines neuronalen Netzes, was ist der Zweck der Aufteilung der Daten in Trainings-, Validierungs- und Testdatensätze?

<p>Um die Generalisierungsfähigkeit des Modells zu beurteilen und eine Überanpassung zu vermeiden. (C)</p> Signup and view all the answers

Was ist der Hauptnachteil beim Verwenden des mittleren quadratischen Fehlers (Mean Square Error) als Kostenfunktion für Klassifikationsaufgaben?

<p>Er ist besser für Regressionsaufgaben geeignet und nicht ideal für Klassifikation. (A)</p> Signup and view all the answers

Warum ist die Kreuzentropie eine gut geeignete Kostenfunktion für Klassifikationsaufgaben mit Softmax-Ausgangsschicht?

<p>Sie ist informations theoretisch gut motiviert und gut geeignet für Softmax-Ausgänge. (A)</p> Signup and view all the answers

Was ist das Ziel des Gradientenabstiegs beim Training von DNNs?

<p>Die Minimierung der Kostenfunktion durch Anpassung der Parameter. (D)</p> Signup and view all the answers

Was ist die Kettenregel im Zusammenhang mit dem Backpropagation-Algorithmus?

<p>Eine Regel zur Berechnung der Ableitung einer zusammengesetzten Funktion, die im Backpropagation verwendet wird, um Gradienten durch das Netzwerk zu propagieren. (D)</p> Signup and view all the answers

Was ist die Hauptidee hinter Stochastic Gradient Descent (SGD)?

<p>Den Gradienten nur für einen zufälligen Teil des Datensatzes zu berechnen, um das Training zu beschleunigen. (C)</p> Signup and view all the answers

Was ist beim Backpropagation Algorithmus ein Parametervektor?

<p>Eine Zusammenstellung aller Gewichte und Bias-Werte im neuronalen Netz. (A)</p> Signup and view all the answers

Was ist der Ansatz beim überwachten Lernen?

<p>Das Lernen anhand von Beispielen mit vorgegebenen Ausgängen (Labels). (A)</p> Signup and view all the answers

Welchen Vorteil bieten tiefe neuronale Netze (DNNs) gegenüber flachen neuronalen Netzen?

<p>Sie können komplexere Funktionen und Zusammenhänge in den Daten modellieren. (B)</p> Signup and view all the answers

Welche Aussage beschreibt den Zweck des Validierungsdatensatzes beim Training eines neuronalen Netzes am besten?

<p>Er wird verwendet, um die Generalisierungsfähigkeit des Modells während des Trainings zu überwachen und eine Überanpassung zu vermeiden. (A)</p> Signup and view all the answers

Eine der Strategien mit denen ein Modell besser für unbekannte Daten generalisiert ist Regularisierung. Welche gehört NICHT zu den Regularisierungsmethoden?

<p>Backpropagation. (C)</p> Signup and view all the answers

Wozu dient die Begrenzung des Wertebereichs am Ausgang einer Aktivierungsfunktion in neuronalen Netzen?

<p>Um die Stabilität des Trainings zu verbessern und Ausreißer zu vermeiden. (A)</p> Signup and view all the answers

In welcher Phase des Backpropagation-Algorithmus werden die Ausgaben des neuronalen Netzes mit den tatsächlichen Werten verglichen?

<p>In der Backward Propagation Phase. (D)</p> Signup and view all the answers

Was ist das besondere an tiefem Reinforcement Learning?

<p>Es kombiniert Reinforcement Learning, Belohnungen aus Interaktionen mit der Umgebung, mit der Fähigkeit von DNNs komplexe Muster zu erkennen. (D)</p> Signup and view all the answers

Warum ist Differenzierbarkeit eine wichtige Eigenschaft von Aktivierungsfunktionen in neuronalen Netzen?

<p>Um den Backpropagation-Algorithmus anzuwenden und die Gewichte des Netzwerks zu aktualisieren. (A)</p> Signup and view all the answers

Welche Aufgabe hat eine Aktivierungsfunktion?

<p>Sie führen eine nichtlineare Transformation der Eingabe durch und ermöglichen es dem Netzwerk, komplexe Beziehungen zu modellieren. (A)</p> Signup and view all the answers

Welche Aussage beschreibt am besten die Beziehung zwischen Trainingsdaten, Validierungsdaten und Testdaten?

<p>Trainingsdaten werden zum Trainieren verwendet, Validierungsdaten zur Feinabstimmung, und Testdaten zur Bewertung. (A)</p> Signup and view all the answers

Was ist die Hauptfunktion der Forward Propagation im Backpropagation-Algorithmus?

<p>Durchlaufen des Netzes von der Eingabe zur Ausgabe, um eine Vorhersage zu erhalten. (D)</p> Signup and view all the answers

Flashcards

Maschinelles Lernen (ML)

Ein Teilgebiet der künstlichen Intelligenz, das es Systemen ermöglicht, aus Daten zu lernen.

Überwachtes Lernen

Eine Art des maschinellen Lernens, bei der der Algorithmus anhand von Beispielen mit vorgegebenen Ausgängen lernt.

Unüberwachtes Lernen

Eine Art des maschinellen Lernens, bei der der Algorithmus Muster in Daten ohne vorgegebene Labels identifiziert.

Verstärkungslernen

Eine Art des maschinellen Lernens, die durch Belohnungen aus Interaktionen mit der Umgebung lernt.

Signup and view all the flashcards

Tiefe neuronale Netze (DNN)

Neuronale Netze mit vielen Schichten, die durch maschinelles Lernen an Aufgaben angepasst werden.

Signup and view all the flashcards

Aktivierungsfunktion

Eine Funktion, die in neuronalen Netzen verwendet wird, um eine nichtlineare Transformation der Eingabe zu erzeugen.

Signup and view all the flashcards

Eigenschaften von Aktivierungsfunktionen

Zwei nützliche Eigenschaften von Aktivierungsfunktionen: Differenzierbarkeit und Beschränkung des Wertebereichs.

Signup and view all the flashcards

Training Set

Ein Datensatz, der zum Trainieren eines neuronalen Netzes verwendet wird.

Signup and view all the flashcards

Validation Set

Ein Datensatz, der zur Fortschrittskontrolle und für das Tuning freier Parameter verwendet wird.

Signup and view all the flashcards

Test Set

Ein Datensatz, der zum Bewerten der Performance eines trainierten neuronalen Netzes verwendet wird.

Signup and view all the flashcards

Kostenfunktion

Eine Funktion, die misst, wie gut ein neuronales Netz eine Klassifikationsaufgabe löst.

Signup and view all the flashcards

Gradientenabstieg

Ein iterativer Optimierungsalgorithmus zur Minimierung einer Kostenfunktion. Nützlich beim Training und wichtig für die Differenzierbarkeit.

Signup and view all the flashcards

Backpropagation

Berechnung des Gradienten der Kostenfunktion bezüglich der Gewichte eines neuronalen Netzes.

Signup and view all the flashcards

Stochastic Gradient Descent (SGD)

Eine Variante des Gradientenabstiegs, die auf zufälligen Teilmengen des Trainingsdatensatzes basiert.

Signup and view all the flashcards

Forward propagation

Vorwärtsrechnung - DNN durchrechnen für aktuelle Eingabe.

Signup and view all the flashcards

Study Notes

  • Die Präsentation befasst sich mit den Grundlagen der automatischen Spracherkennung und gibt eine Einführung in neuronale Netze (Kapitel 8-9).
  • Die Präsentation wurde von Prof. Dr.-Ing. Dorothea Kolossa am 17. Dezember 2024 gehalten und stammt von der FG Elektronische Systeme der Medizintechnik (mtec).

Überblick

  • Einführung
  • DNN-Strukturen vol. 1
  • DNN-Training

Maschinelles Lernen

  • Maschinelles Lernen (ML) ist ein Teilgebiet der künstlichen Intelligenz (KI).
  • Maschinelles Lernen ermöglicht es, intelligente Systeme zu entwickeln, deren Verhalten aus Daten und Zielvorgaben gelernt wird, anstatt explizit programmiert zu werden.
  • Das Ziel ist es, aus Daten zu lernen, um optimale Entscheidungen zu treffen oder Vorhersagen zu machen.

Anwendungsbeispiele für Maschinelles Lernen

  • Bild- und Spracherkennung.
  • Mensch-Maschine-Interaktion in natürlicher Sprache (Chatbots, Large Language Models - LLMs).
  • Empfehlungssysteme.
  • Autonome Fahrzeuge.
  • Vorhersagemodelle in verschiedenen Branchen.

Arten von Maschinellem Lernen

  • Überwachtes Lernen: Algorithmen lernen anhand von Beispielen mit vorgegebenen Ausgängen (Labels).
  • Unüberwachtes Lernen: Algorithmen identifizieren Muster in Daten ohne vorgegebene Labels.
  • Halbüberwachtes Lernen: Nur wenige Labels werden benötigt, die bei aktivem Lernen vom Nutzer erfragt werden.
  • Verstärkungslernen: Algorithmen lernen durch Belohnungen aus Interaktionen mit der Umgebung.

Tiefe Neuronale Netze (DNN)

  • Tiefe neuronale Netze (Deep Neural Networks - DNN) werden ebenfalls mit Hilfe maschinellen Lernens an ihre Aufgaben angepasst.
  • Alle vier genannten Arten des Lernens können je nach Aufgabe zum Einsatz kommen.
  • DNNs erzielen regelmäßig hohe Erfolgsraten und übertreffen die menschliche Leistung in Bereichen wie Spracherkennung, Lippenlesen, Gesichtserkennung und standardisierten Universitäts- und Jura-Aufnahmetests.

Beispiel für Verstärkungslernen

  • In der Regelungstechnik werden DNNs zunehmend mit Reinforcement Learning eingesetzt.
  • DNNs können menschliche Gegner in Spielen oft leicht schlagen.

Biologisches Vorbild Neuron

  • Ein biologisches Neuron besteht aus Soma (Zellkörper), Dendriten, Axon, Axonhügel, Myelin, Synapse und Axonterminal.
  • Das menschliche Gehirn enthält etwa 10^11 Neuronen und 10^14 Synapsen, was zu einer höheren Konnektivität als in Supercomputern führt.
  • Der Energiebedarf des Gehirns beträgt ca. 20 Watt für 10^18 Operationen pro Sekunde (statt MW).

Erste DNN-Struktur: Multi-Layer Perzeptron (MLP)

  • Die Netztopologie eines Multi-Layer Perzeptrons (MLP) besteht aus mehreren Schichten, einschließlich Eingangs-, Ausgangs- und verborgenen Schichten.

Einzelneuron

  • Ein Einzelneuron im MLP führt eine gewichtete Summe der Eingänge und eine Aktivierungsfunktion aus, um den Ausgang zu erzeugen.
  • Es entspricht der Formel: nN = fa(1, x1, x2 ...xD) * (bN, w1N, ..., wDN)
  • Die Formel kann auch geschrieben werden als: nN = fa((w0N,w1N, ..., wDN) mit w0N = bN

Aktivierungsfunktionen

  • Für Aktivierungsfunktionen sind zwei Eigenschaften nützlich: Differenzierbarkeit und Beschränkung des Wertebereichs am Ausgang.
  • Beispiele für Aktivierungsfunktionen der Schichten 1... A-1: tansig (Hyperbolic Tangent Sigmoid Transfer Function), elliotsig (Elliot Symmetric Sigmoid Transfer Function), logsig (Logarithmic Sigmoid Transfer Function).
  • Eine recheneffiziente Aktivierungsfunktion ist die Rectified Linear Unit (ReLU).

Aktivierungsfunktion des Ausgangslayers

  • Im Ausgangslayer soll eine Verteilungsdichtefunktion nachgebildet werden, wenn es sich um ein Netz zur Klassifikation handelt, d.h.: Summe(nAi) = 1 und n,A! >= 0 für alle i.
  • Das lässt sich mit der Softmax-Funktion erreichen: p(k = j\nA-1) = exp (wTj. nA-1) / (Summe(exp (wm .nA-1))
  • Hier können die Logits definiert werden: zj = wTj. nA-1
  • Das vereinfacht die Gleichung für den Softmax-Layer: ^p(k = j \ n^A-1) = e^zj / (Summe(exp(zm)))

Binäre Klassifikation

  • Bei binärer Klassifikation kann die Sigmoid-Funktion verwendet werden: p(k = 0|nA-1) = 1 / (1 + exp(-wT. nA-1))
  • p(k = 1|nA-1) = 1 − p(k = 0|nA-1)

Trainingsprozess eines DNNs

  • Zunächst werden Daten für die Anwendung gefunden oder gesammelt.
  • Die Daten werden in drei Teil-Datensätze eingeteilt:
    • Training Set: Zum Training des Neuronalen Netzes.
    • Validation Set: Zur Fortschrittskontrolle und für das Tuning freier Parameter.
    • Test Set: Zum Bewerten der Performance am Schluss.
  • Der Ablauf des Trainings kann anhand der Performance auf Trainings- und Validierungsdaten verfolgt werden.

Kostenfunktionen

  • Die Kostenfunktion misst die Klassifikationsgüte oder Approximationsgenauigkeit des Netzes und ist wichtig für die Differenzierbarkeit im Training.
  • Beispiele:
    • Mittlerer quadratischer Fehler (Mean square error): Gut für Regressionsaufgaben, nicht für Klassifikation.
    • Klassifikationsfehler (Classification error): Misst Güte der Klassifikation, aber differenzierbare Approximation benötigt.
    • Kreuzentropie (Cross entropy): Sehr gut geeignet für Klassifikation mit Softmax-Ausgangsschicht & informationstheoretisch gut motiviert; Bei binären Problemen wird die Kreuzentropie oft als "binäre Kreuzentropie" bezeichnet.

Gradientenabstieg

  • Der Grundgedanke dahinter ist der Gradientenabstieg, definiert durch den Parametervektor w = [w01 , w02 ... wANA], sodass wneu = w - η * (deltaC/delta01,..., deltaC/delta wA-1NA)).
  • Bzw. mit i als Iterationsindex: wi+1 = wi - η (deltaC/ delta w01,..., deltaC/ delta wA-1NA))
  • Die Formel benötigt die Lernrate η und vor allem den Gradienten.

Gradient der Kostenfunktion

  • Die Definition dafür lautet: delta/ delta wkij C(w) = delta/ delta wkij Summe(c(xn,k,w)) = Summe (delta/ delta wkij c(xn,w)) = Summe(delta/ delta wkij -log p^(kn/ xn,w))

Kettenregel

  • Die Kettenregel besagt: [f(g(z))]' = f'(g(z)) * g'(z)
  • Damit ist dann f =-log(), g = p^() und f' =-1/()

Backpropagation

  • Ziel der Backpropagation: Berechnung von delta/delta wAij nAkn
  • Lösung: 2 Phasen:
  • Phase 1: Forward propagation
  • Phase 2: Backpropagation
  • Abschließend das Berechnen der Werte.
  • Gradientenabstieg: Gradienten auf großen Trainingsdaten zu bestimmen ist sehr langwierig und trifft evtl. auf lokale Optima.
  • Stochastic Gradient Descent (SGD): Man vermeidet es, in lokalen Optima hängebzubleiben.
  • Anwedung: Der Gradient wird zufällig und verfälscht.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Use Quizgecko on...
Browser
Browser