Automatische Spracherkennung: Hidden-Markov-Modell - Kapitel 10/11

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Welche Aussage beschreibt am besten die Eignung von tiefen neuronalen Netzen (DNNs) im Kontext der Spracherkennung?

  • DNNs eignen sich hervorragend zur Approximation komplexer Funktionen und werden durch maschinelles Lernen an Aufgaben angepasst. (correct)
  • DNNs erfordern keine Anpassung durch maschinelles Lernen, da sie von Natur aus optimal für alle Klassifikationsprobleme sind.
  • DNNs sind besonders gut geeignet für die exakte Nachbildung einfacher, linearer Funktionen.
  • DNNs sind primär für die Klassifikation diskreter Datenpunkte konzipiert und weniger für kontinuierliche Sprachsignale.

Wie schätzen Netze, die für Klassifikationen eingesetzt werden, typischerweise ihren Ausgang?

  • Durch die zufällige Zuweisung einer Klasse basierend auf einem vordefinierten Wahrscheinlichkeitsbereich.
  • Durch die Schätzung einer Verteilungsdichte über alle Klassen. (correct)
  • Durch die direkte Ausgabe einer einzelnen, binären Entscheidung für jede Klasse.
  • Durch die Berechnung eines Mittelwerts aller möglichen Klassenzugehörigkeiten.

Was ist das Hauptziel des Trainings eines DNN im Überblick?

  • Die Anpassung der Netzwerkparameter mithilfe von Trainingsdaten, um die Kostenfunktion zu minimieren. (correct)
  • Die Validierung der Netzwerkarchitektur durch zufällige Dateneingaben.
  • Die Maximierung der Komplexität des Netzwerks, um eine möglichst breite Aufgabenabdeckung zu erreichen.
  • Die manuelle Anpassung der Netzwerkparameter durch einen Experten.

Welche Aussage beschreibt am besten den Zweck der Validierung während des Trainings eines DNN?

<p>Die Validierung dient dazu, die Leistung des Netzwerks auf unabhängigen Daten zu bewerten und eine Überanpassung zu vermeiden. (C)</p> Signup and view all the answers

Warum ist die direkte Klassifikation zur Transkription einer Zeitreihe ungeeignet?

<p>Weil die zeitlichen Grenzen der Ausgangssequenz unbekannt sind, was zu einer kombinatorischen Explosion der Möglichkeiten führt. (B)</p> Signup and view all the answers

Was ist die Hauptidee hinter hybriden DNN/HMM-Modellen in der Spracherkennung?

<p>Die Kombination von DNNs für die Merkmalsextraktion und HMMs für die Klassifikation, um eine verbesserte Transkription einer Zeitreihe zu erreichen. (D)</p> Signup and view all the answers

Welche Rolle spielt die Pfadsuche in hybriden DNN/HMM-Modellen?

<p>Sie dient dazu, die wahrscheinlichste Abfolge akustischer Einheiten zu finden, die einen zulässigen Satz oder gültige Worte ergibt. (D)</p> Signup and view all the answers

Was sind Markov-Ketten (erster Ordnung)?

<p>Stochastische Zustandsraummodelle mit einer zeit- und wertdiskreten Zustandsgröße. (B)</p> Signup and view all the answers

Wie wird die Übergangswahrscheinlichkeit in einer Markov-Kette formal definiert?

<p>$a_{ij} = P(X_{t+1} = j | X_t = i)$ (B)</p> Signup and view all the answers

Was beschreibt die Matrix A in Bezug auf Markov Ketten?

<p>A ist die Übergangsmatrix, die die Wahrscheinlichkeiten für Übergänge zwischen Zuständen enthält. (B)</p> Signup and view all the answers

Was charakterisiert Hidden-Markov-Modelle (HMMs) im Vergleich zu regulären Markov-Modellen?

<p>HMMs beinhalten zusätzlich Beobachtungswahrscheinlichkeiten, da der Zustand selbst nicht sichtbar ist. (A)</p> Signup and view all the answers

Wie wird die Beobachtungswahrscheinlichkeit $b_i(o)$ in einem HMM definiert?

<p>$b_i(o) = P(O_t = o | X_t = i)$ (B)</p> Signup and view all the answers

Was sind die Hauptvorteile der Verwendung diskreter Verteilungsdichten in Beobachtungswahrscheinlichkeiten von HMMs?

<p>Sie sind recheneffizient. (C)</p> Signup and view all the answers

Was sind die typischen Bestandteile eines Gauß'schen Mischungsmodells, das in HMMs zur Modellierung kontinuierlicher Beobachtungswahrscheinlichkeiten verwendet wird?

<p>Mischungsgewichte, Mittelwerte und Kovarianzmatrizen. (A)</p> Signup and view all the answers

Welchen Vorteil bieten neuronal geschätzte Verteilungsdichten im Kontext von HMMs?

<p>Sie ermöglichen die direkte Modellierung von Beobachtungen ohne Annahmen über deren Verteilung. (C)</p> Signup and view all the answers

Was wird als Parametersatz $\lambda$ in einem Hidden-Markov-Modell (HMM) bezeichnet?

<p>Die Menge der Übergangswahrscheinlichkeiten, initialen Wahrscheinlichkeiten und Beobachtungswahrscheinlichkeiten: $\lambda = {A, B, \Pi}$ (D)</p> Signup and view all the answers

Warum sind Links-Rechts-Topologien in HMMs für Wortmodelle von Interesse?

<p>Sie sind besonders gut geeignet für die Modellierung von sequenziellen Daten, bei denen die zeitliche Reihenfolge wichtig ist, wie bei Sprache. (B)</p> Signup and view all the answers

Was ist ein wesentliches Merkmal des klassischen Verbund-HMMs für die Verbundworterkennung?

<p>Es beinhaltet direkte Transitionen vom Wortende zu jedem Wortanfang, was zu vielen Transitionen führt. (D)</p> Signup and view all the answers

Was ist der Zweck eines "Glue-State" in einem Verbund-HMM?

<p>Eine Verbindung zwischen Wortmodellen, um weniger Transitionen zu ermöglichen, aber die Algorithmen müssen angepasst werden. (C)</p> Signup and view all the answers

Welches der folgenden Probleme adressieren HMMs?

<p>Das Training, die Evaluation und die Decodierung (d.h. das Finden der wahrscheinlichsten Zustandssequenz) von Modellen. (A)</p> Signup and view all the answers

Was ist das Ziel des Dekodierungsproblems in HMMs??

<p>Die beste oder wahrscheinlichste Zustandssequenz zu ermitteln. (C)</p> Signup and view all the answers

Wie wird das Dekodierungsproblem formal beschrieben?

<p>$[i_1^<em>, i_2^</em>, ..., i_T^*] = \operatorname{argmax} P(i_1, i_2, ..., i_T, o_1 ... o_T | \lambda)$ (D)</p> Signup and view all the answers

Warum ist die explizite Berechnung der optimalen Zustandssequenz in einem HMM ineffizient?

<p>Weil die Anzahl der möglichen Zustandssequenzen exponentiell mit der Länge der Sequenz wächst. (A)</p> Signup and view all the answers

Welchen Vorteil bietet der Viterbi-Algorithmus gegenüber der expliziten Berechnung bei der Dekodierung von HMMs?

<p>Er reduziert die Anzahl der benötigten Multiplikationen durch dynamische Programmierung. (C)</p> Signup and view all the answers

Was wird im Viterbi-Algorithmus gespeichert?

<p>Die Wahrscheinlichkeit der wahrscheinlichsten Sequenz bis zu einem bestimmten Zeitpunkt und den besten Vorgängerzustand. (B)</p> Signup and view all the answers

Was ist die Aufgabe des Backtracking-Schritts im Viterbi-Algorithmus?

<p>Die Ermittlung der optimalen Zustandssequenz durch Rückverfolgung der besten Vorgängerzustände. (B)</p> Signup and view all the answers

Welche der folgenden Operationen wird durch die Verwendung logarithmischer Rechnungen im Viterbi-Algorithmus ersetzt?

<p>Multiplikation wird durch Addition ersetzt. (A)</p> Signup and view all the answers

Welchen Vorteil bietet die Verwendung logarithmischer Rechnungen im Viterbi-Algorithmus?

<p>Sie minimiert numerische Probleme, insbesondere Underflow. (A)</p> Signup and view all the answers

Wie können Probleme bei der Implementierung der Logarithmusfunktion, wie z.B. log(0), behandelt werden?

<p>Indem die Eingabe in log limitiert wird, z.B. log(0) ≈ log(e), oder stattdessen eine große negative Zahl gewählt wird. (B)</p> Signup and view all the answers

Welche Aussage beschreibt am besten, wie hybride DNN/HMM-Modelle die Vorteile von DNNs und HMMs kombinieren?

<p>HMMs werden verwendet, um die Struktur der Aufgabenstellung menschenlesbar zu beschreiben, während DNNs flexibel trainierbar sind, um die Aufgabenstellung optimal zu erfüllen. (A)</p> Signup and view all the answers

Welchen Vorteil bieten HMMs in hybriden Systemen in Bezug auf die Struktur der Aufgabenstellung?

<p>Sie können die Struktur der Aufgabenstellung menschenlesbar beschreiben. (C)</p> Signup and view all the answers

Welche Eigenschaft von DNNs wird in hybriden Systemen besonders genutzt, um die jeweilige Aufgabenstellung optimal zu erfüllen?

<p>Ihre Flexibilität, die es ermöglicht, sie mittels Backpropagation so zu trainieren, dass sie die jeweilige Aufgabenstellung optimal erfüllen. (D)</p> Signup and view all the answers

Warum ist die Modellierung von Beobachtungswahrscheinlichkeiten in HMMs wichtig?

<p>Sie verbinden die Zustände des HMMs mit den beobachteten Daten, wodurch die Wahrscheinlichkeit einer Zustandsfolge angesichts der Beobachtungen berechnet werden kann. (C)</p> Signup and view all the answers

Welchen Vorteil bietet die Verwendung von Links-Rechts-Topologien in HMMs für die Spracherkennung?

<p>Sie spiegeln die zeitliche Natur der Sprache wider, indem sie einen fortschreitenden Übergang durch die Phoneme eines Wortes modellieren. (D)</p> Signup and view all the answers

Was ist das Hauptproblem, das der Viterbi-Algorithmus im Kontext von HMMs löst?

<p>Die Suche nach der wahrscheinlichsten Sequenz von Zuständen für eine gegebene Beobachtungssequenz in einem HMM. (D)</p> Signup and view all the answers

Warum ist Backtracking ein notwendiger Schritt im Viterbi-Algorithmus?

<p>Um die optimale Zustandssequenz zu rekonstruieren, nachdem die wahrscheinlichsten Pfade zu jedem Zeitpunkt identifiziert wurden. (C)</p> Signup and view all the answers

Wie wird die Initialisierung im Viterbi-Algorithmus durchgeführt?

<p>Durch Berechnung der Wahrscheinlichkeit des ersten Zustands basierend auf der initialen Zustandsverteilung und der Beobachtungswahrscheinlichkeit der ersten Beobachtung. (B)</p> Signup and view all the answers

Bei der Anwendung des Viterbi-Algorithmus, was repräsentiert die Variable $\Psi_t(i)$?

<p>Der wahrscheinlichste Vorgängerzustand für Zustand <em>i</em> zur Zeit <em>t</em>. (B)</p> Signup and view all the answers

Welche Operation wird durch die Verwendung logarithmischer Rechnungen im Viterbi-Algorithmus typischerweise ersetzt, und warum ist das vorteilhaft?

<p>Multiplikation wird durch Addition ersetzt, was numerische Underflows verhindert. (D)</p> Signup and view all the answers

Wie wird das Problem von log(0) im Kontext des Viterbi-Algorithmus typischerweise behandelt, wenn logarithmische Wahrscheinlichkeiten verwendet werden?

<p>Indem man <code>log(0)</code> durch eine sehr kleine (negative) Zahl ersetzt oder eine Konstante zu allen Wahrscheinlichkeiten addiert. (D)</p> Signup and view all the answers

Was ist das Hauptziel des Trainings in einem Hidden-Markov-Modell (HMM)?

<p>Die Anfangszustandswahrscheinlichkeiten, Übergangswahrscheinlichkeiten und Beobachtungswahrscheinlichkeiten so zu schätzen, dass die Wahrscheinlichkeit der Trainingsdaten maximiert wird. (A)</p> Signup and view all the answers

Welche Aussage beschreibt am besten das Konzept der 'Beobachtungswahrscheinlichkeit' in einem Hidden-Markov-Modell (HMM)?

<p>Die Wahrscheinlichkeit, eine bestimmte Beobachtung in einem bestimmten Zustand zu erzeugen. (C)</p> Signup and view all the answers

Warum werden in der Spracherkennung hybride DNN/HMM-Modelle anstelle von reinen DNN- oder reinen HMM-Modellen eingesetzt?

<p>Um die Vorteile beider Modelltypen zu kombinieren: die Fähigkeit von DNNs, komplexe Muster zu lernen, und die Fähigkeit von HMMs, sequentielle Daten zu modellieren. (A)</p> Signup and view all the answers

Welche Rolle spielt die dynamische Programmierung im Viterbi-Algorithmus?

<p>Sie wird verwendet, um die Anzahl der zu berechnenden Pfade zu reduzieren, indem Teillösungen wiederverwendet werden. (D)</p> Signup and view all the answers

Was ist die Funktion des 'Glue-State' in einem Verbund-HMM?

<p>Den Übergang zwischen verschiedenen Wortmodellen im Verbund-HMM zu erleichtern, ohne Beobachtungen zu emittieren. (D)</p> Signup and view all the answers

Worin besteht der Hauptvorteil der Verwendung neuronal geschätzter Verteilungsdichten im Kontext von HMMs?

<p>Sie ermöglichen die Modellierung komplexerer und nichtlinearer Beziehungen zwischen akustischen Merkmalen und HMM-Zuständen. (D)</p> Signup and view all the answers

Welche der folgenden Eigenschaften ist typisch für ein klassisches Verbund-HMM zur Verbundworterkennung?

<p>Es hat Übergänge direkt vom Ende jedes Wortmodells zum Anfang jedes anderen Wortmodells. (C)</p> Signup and view all the answers

Wie unterscheidet sich ein Hidden-Markov-Modell (HMM) von einer einfachen Markov-Kette?

<p>In einem HMM sind die Zustände nicht direkt beobachtbar, sondern nur indirekt durch Beobachtungen, während in einer Markov-Kette die Zustände direkt beobachtbar sind. (A)</p> Signup and view all the answers

Wenn man Transkription anstelle von Klassifikation in der Spracherkennung nutzt, wodurch entstehen Kombinatorische Explosionen?

<p>Durch unbekannte zeitliche Grenzen der Ausgangssequenz. (D)</p> Signup and view all the answers

Tiefe neuronale Netze (DNNs) eignen sich hervorragend zur ...... komplexer Funktionen.

<p>Approximation (B)</p> Signup and view all the answers

Wozu dient FEATURE EXTRACTION?

<p>Um Audio in Merkmale umzuwandeln. (C)</p> Signup and view all the answers

Flashcards

Tiefe neuronale Netze (DNNs)

Tiefe neuronale Netze, auch bekannt als Deep Neural Networks, eignen sich hervorragend zur Approximation komplexer Funktionen.

Anpassung von DNNs

DNNs werden mit Hilfe maschinellen Lernens an ihre Aufgaben angepasst.

Ausgang von Klassifikationsnetzen

Bei der Klassifikation schätzen Netze typischerweise eine Verteilungsdichte über alle Klassen an ihrem Ausgang.

Training eines DNN

Die Wahrscheinlichkeit aller elementaren akustischen Einheiten (z. B. Phoneme oder subphonetische Einheiten).

Signup and view all the flashcards

Pfadsuche

Eine Pfadsuche findet, die wahrscheinlichste Abfolge akustischer Einheiten, die einen zulässigen Satz und aus gültigen Worten ergibt.

Signup and view all the flashcards

Klassifikation zur Transkription

Klassifikation lässt sich kaum direkt zur Transkription nutzen, da die zeitlichen Grenzen der Ausgangssequenz unbekannt sind.

Signup and view all the flashcards

Hybride DNN/HMM-Modelle

Hybride DNN/HMM-Modelle kombinieren die Vorteile beider Welten (DNNs und HMMs) für eine effektive Transkription.

Signup and view all the flashcards

Markov-Ketten

Stochastische Zustandsraummodelle mit einer zeit- und wertdiskreten Zustandsgröße X.

Signup and view all the flashcards

Zustand zur Zeit t

Neue Notation: Zustand des Modells zur Zeit t: Zufallsvariable Xt

Signup and view all the flashcards

Übergangswahrscheinlichkeit

ajj = P(Xt+1 = j | Xt = i)

Signup and view all the flashcards

Hidden-Markov-Modelle (HMMs)

In Hidden-Markov-Modellen ist der Zustand selbst nicht sichtbar; Beobachtungswahrscheinlichkeiten B = {bi} mit bi(o) = P(Ot = o | Xt = i).

Signup and view all the flashcards

Diskrete Verteilungsdichten (HMM)

Diskrete Verteilungsdichten nutzen eine Menge möglicher Beobachtungen o ∈ {o¹ ... ok} und Wahrscheinlichkeiten bi(o) = P(Ot = o | Xt = i).

Signup and view all the flashcards

Kontinuierliche Verteilungsdichten (HMM)

Kontinuierliche Verteilungsdichten nutzen Gauß'sche Mischungsmodelle, um Wahrscheinlichkeiten P(Ot = o|Xt = i) zu berechnen.

Signup and view all the flashcards

Initiale Wahrscheinlichkeiten

Diese ist die Wahrscheinlichkeit, dass das Modell im Zustand i startet.

Signup and view all the flashcards

Parameter eines HMMs

A, Π, B = {bi,(o)} sind die Parameter eines HMMs

Signup and view all the flashcards

Training von HMMs.

Lernt Modellparameter λ = (A, PI, B)

Signup and view all the flashcards

Evaluation von HMMs

Berechnet die Wahrscheinlichkeit P(o₁ . . . oT|λ)

Signup and view all the flashcards

"Decodierung" von HMMs

Ermittelt wahrscheinlichste Zustandssequenz.

Signup and view all the flashcards

Viterbi Algorithmus

Viterbi Algorithmus ist geeignet für Decodierung von HMMs.

Signup and view all the flashcards

Dynamische Programmierung

Entwickelt durch Bestimmung von Teillösungen, die insgesamt Lösung

Signup and view all the flashcards

Logarithmische Rechnung

Reduziert Rechenaufwand, um Wahrscheinlichkeit von HMMs zu bestimmen.

Signup and view all the flashcards

Study Notes

Grundlagen der automatischen Spracherkennung

  • Kapitel 10 behandelt Hidden-Markov-Modelle

Überblick

  • Die Präsentation behandelt zunächst eine Wiederholung von DNNs (Deep Neural Networks).
  • Es erfolgt eine Betrachtung des Einsatzes von DNNs zur Spracherkennung.
  • Abschließend wird die Transkription von Zeitreihen behandelt.

Recap: Training von DNNs

  • Tiefe neuronale Netze (DNNs) eignen sich hervorragend zur Approximation komplexer Funktionen.
  • DNNs werden durch maschinelles Lernen an ihre Aufgaben angepasst.
  • Bei der Klassifikation schätzen Netze am Ausgang typischerweise eine Verteilungsdichte über alle Klassen.
  • Das Training von DNNs beinhaltet Feature Extraction, Verarbeitung durch ein neuronales Netz, Bewertung durch eine Kostenfunktion und Parameteradaption.
  • Der Trainingsablauf wird anhand der Performance auf Trainings- und Validierungsdaten ("Development Data / dev set") verfolgt.
  • Die Auswertung erfolgt erst am Schluss auf Testdaten.

Einzelworterkennung mit DNNs

  • Einzelworterkennung kann wie eine normale Klassifikation implementiert werden.
  • DNNs können wie zuvor benutzt werden.
  • Die Struktur eines Klassifikationssystems umfasst Audio, Feature Extraction, Merkmale, DNN und Klassenwahrscheinlichkeiten
  • Stattdessen wird eine Lösung zur Transkription einer Zeitreihe benötigt.

Transkription statt Klassifikation

  • Klassifikation kann kaum direkt zur Transkription genutzt werden, da die unbekannten zeitlichen Grenzen der Ausgangssequenz nicht klar definiert sind.
  • Dies führt zu einer kombinatorischen Explosion der Anzahl von Möglichkeiten.
  • Eine Lösung hierfür sind hybride DNN/HMM-Modelle.

Hybride DNN/HMM-Modelle

  • Es erfolgt ein Training eines DNN, das zu jeder Zeit die Wahrscheinlichkeit aller elementaren akustischen Einheiten (z.B. Phoneme) schätzt.
  • Die wahrscheinlichste Abfolge akustischer Einheiten wird durch Pfadsuche mit dynamischer Programmierung gefunden.
    • Wobei es sich um einen zulässigen Satz handelt
    • Wobei es sich aus gültigen Worten ergibt.

Markov-Ketten

  • Markov-Ketten erster Ordnung sind stochastische Zustandsraummodelle mit einer zeit- und wertdiskreten Zustandsgröße X.
  • Der Zustand des Modells zur Zeit t wird als Zufallsvariable Xt notiert.
  • Die Übergangswahrscheinlichkeit wird durch ajj = P(Xt+1 = j|Xt = i) beschrieben.
  • Die Übergangsmatrix A enthält die Übergangswahrscheinlichkeiten zwischen den Zuständen
  • Die initialen Wahrscheinlichkeiten werden durch P(X₁ = i) = π¡ beschrieben.

Wahrscheinlichkeit von Zustandssequenzen

  • Die Wahrscheinlichkeit einer Zustandssequenz wird durch die Formel P(X₁ = i₁, X₂ = i2, ..., XT = iT) mit i₁, i2, ..., iT ∈ {1...N} ausgedrückt.
  • Unter Anwendung der Markov-Annahme erster Ordnung ergibt sich P(i₁, i₂, ..., iT) = P(i₁)P(i₂|i₁)P(i₃|i₂, ..., iT-1).
  • Durch die Definition des HMM wird diese Formel zu πi₁ · ai₁,i₂ · ai₂,i₃ · ... · aₑ-1i
  • Was als -T-1 -πi₁· Π t=1 ait,it+1 geschrieben werden kann

Hidden Markov Model (HMM)

  • In Hidden-Markov-Modellen ist der Zustand selbst nicht sichtbar.
  • Zusätzlich gibt es Beobachtungswahrscheinlichkeiten B = {bi} mit bi(o) = P(Ot = o|Xt = i).

Beobachtungswahrscheinlichkeiten in Hidden-Markov-Modellen

  • Diskrete Verteilungsdichten: Die Menge möglicher Beobachtungen ist o ∈ {o¹... ok}, und die Wahrscheinlichkeiten sind bi(o) = P(Ot = o|Xt = i).
    • Die diskrete Verteilungsdichte ist recheneffizient
  • Kontinuierliche Verteilungsdichten o ∈ RD: Gauß'sche Mischungsmodelle werden verwendet
    • bi(o) = P(Ot = o|Xt = i) = ΣMm=1 γmN(o; μim, Σim), wobei M typischerweise 16 bis 256 ist. Gauß'sche Mischungsmodelle sind geeignet zur Approximation beliebiger PDF

Neuronal geschätzte Verteilungsdichten

  • Ot → DNN → P̂(Xt = 1|o) ... P̂(Xt = N|o)
  • P(o|Xt = i) = P(Xt = i|o)P(o) / P(Xt = i) ≈ P̂(Xt = i|o)P(o) / P(Xt = i) α P̂(Xt = i|o) / P(Xt = i) = bi(0)
  • Dies wird als "Hybrid-Modell" oder "DNN-HMM-Hybridmodell" bezeichnet.

Hidden-Markov-Modelle (Parameter)

  • Der Parametersatz für ein HMM ist λ = {A, B, Π}, wobei A die Übergangsmatrix, B die Beobachtungswahrscheinlichkeiten und Π die initialen Wahrscheinlichkeiten sind.

HMM-Struktur für Wortmodelle

  • Nur Links-Rechts-Topologien sind interessant, z.B.:
    • Lineares HMM
    • Links-Rechts-HMM
    • Bakis-Modell

Varianten zur Verbundworterkennung

  • Klassisches Verbund-HMM: Transitionen direkt vom Wortende zum Wortanfang, was zu vielen Transitionen zwischen allen Wortpaaren führt
  • Verbund-HMM mit Glue-State: Der Glue-State definiert keine Beobachtungswahrscheinlichkeiten.
    • Vorteile: Weniger Transitionen, aber Anpassung der Algorithmen ist nötig
    • Schleifen zwischen Glue-States sind verboten, und die Zeitzählung muss angepasst werden.

Kernprobleme bei Hidden-Markov-Modellen

  • Es gibt 3 Hauptprobleme
    • Training von HMMs
      • Beim Modelltraining werden die Modellparameter gelernt λ = {А, П, В}
    • Evaluation von HMMs
      • Hierbei wird die Wahrscheinlichkeit einer Beobachtungssequenz berechnet P(o₁... oТ|λ).
      • Was nützlich im Training sein kann
    • "Decodierung" von HMMs
      • Hierbei geht es darum, zu ermitteln, die beste oder am wahrscheinlichste Zustandssequenz zu finden, wobei der Algorithmus zum Einsatz kommt
  • Gesucht: [i1, i2, ..., i*T ]=argmax P(i₁i₂,...,iТ,o₁...,oТ|λ)
    • Dabei i₁, i₂, ..., iT

Dekodierproblem

  • Gesucht: Wahrscheinlichste Sequenz von Zuständen [i₁*, i₂*, ..., iT*]
    • So dass [i₁*, i₂*, ..., iT*] = argmax P(i₁, i₂,..., iT, o₁..., oT|λ)
      • wobei i₁, i₂, ..., iT
  • Der Sinn diese Problems ist nicht auf den ersten Blick offensichtlich

Gesucht: Optimale Zustandssequenz

  • [i1, i2, ..., i*T ]=argmax P(i₁,...,iТ,o₁,...,oТ|λ)
    • Der argmaxP(i₁,i₂,...,iT|λ)P(o₁, o₂,...,oТ|i₁, i₂,...,iТ, λ)
      • Wobei P(i₁,i₂,...,iT|λ)= πi₁ai₁i₂ai₂i₃... aiТ‐₁i T
      • Und P(o₁, o₂,...,oТ|i₁, i₂,...,iТ, λ)= bi₁(o₁)bi₂(o₂)... biТ(oТ)
  • Was zu einer exponentiellen Komplexität führt(5100 × 199 Multiplikationen → 1,5 × 1072 !)
  • Eine Reduktion dieser Komplexität, erfolgt durch dynamische Programmierung → Viterbi-Algorithmus (≈ N²T + NT → 3000 Multiplikationen)

Viterbi-Algorithmus

  • Der Viterbi-Algorithmus nutzt dynamische Programmierung zur Ermittlung optimaler Zustandssequenzen.
  • Kern des Algorithmus ist die Entwicklung einer Teillösungen durch sukzessive Berechnung von immer grösseren Teillösungen
  • Hierbei sind die Teillösungen: Partiell beste Pfadwahrscheinlichkeiten
    • Φ₁(i) = max P(o₁...ot, i₁,..., it-1, X₁ = ilλ)
  • Ablauf zur Berechnung der optimalen Zustandssequenz
    • Speicherung von Φτ(i)
    • Initialisierung
      • Φ₁(i) = P(X₁ = i, o₁λ) = πibi(o₁)
      • Der beste Vorgänger ist Ψ₁(i) = −1
    • Iteration Vt = [2,..., T]
      • Φ₁(i) = max [Φt-1 (j)aji] bi(ot)
      • Ψ₁(i) = argmax[Φt-1(j)aji]
    • Terminierung
      • i*T = argmax ΦT(i)
      • P* = P(i1, i2, ..., iT, o₁,..., oT|λ) = ΦT(iT)
    • Backtracking
      • it-1 = Ψt(it)
      • Vt = T...2

Überblick Viterbi-Algorithmus in logarithmischer Rechnung

  • Φt(i) ist der maximale Pfadwahrscheinlichkeit bis Zeitpunkt t unter der Bedingung, dass der Zustand zu diesem Zeitpunkt i ist
  • Initialisierung
    • Φ₁(i) = log(πi) + log(bi(01))
    • Ψ₁(i) = −1
      • (Backpointer)
  • Iteration: Für jeden Zeitpunkt t von 2 bis T
    • Φt(i) = maxj=1...N[Φt-1(j) + log(aji)] + log(bi(ot))
    • Ψt(i) = argmaxj=1...N[Φt-1(j) + log(aji)]
      • wobei der Algorithmus sich auf die Backpointer bezieht
  • Terminierung:
    • log (P*(o/λ)) = maxi=1...N ΦT(j)
    • Was i*/t = argmaxj=1...N ΦT(j) ergibt
  • Backtracking
    • Was i*/t-1 = Ψt(i*/t1)
      • Die beste Zustandsfolge wird rekonstruiert

Effekte logarithmischer Rechnung

  • Weniger numerische Probleme (bes. bezüglich Underflow).
  • Neue Implementierungsfrage: log(0)
  • Mögliche Lösungen:
    • Rechnen mit -Inf.
    • Eingabe in log limitieren: log(0) ≈ log(e) / Kandidat für e: sys.float_info.min.
    • Statt log(0) als Konstante logzero große negative Zahl wählen / Was darstellbar ist, erfährt man mit sys.float_info.max oder für numpy mit np.nextafter(-np.inf, 0).

Hybride DNN/HMM-Modelle (Zusammenfassung)

  • In einer hybriden DNN/HMM Struktur erfolgt
    • Audio → 1. Feature Extraction → Ot → 2. DNN → P̂ → 3. HMM-Decoder → W1...WN
  • Es eignet sich zur Erkennung fließend gesprochener Sprache & kombiniert die Vorteile beider "Welten" maschinellen Lernens:
    • DNNs sind flexibel und mittels Backprop so trainierbar, dass sie die jeweilige Aufgabenstellung optimal erfüllen
    • HMMs bieten Inferenzalgorithmen, die linear in der Sequenzlänge sind, und können die Struktur der Aufgabenstellung menschenlesbar beschreiben.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Use Quizgecko on...
Browser
Browser