Automatische Spracherkennung: Hidden-Markov-Modell

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Welche Aussage beschreibt am besten die Eignung von tiefen neuronalen Netzen (DNNs) im Kontext der Spracherkennung?

DNNs eignen sich hervorragend zur Approximation komplexer Funktionen und werden durch maschinelles Lernen an Aufgaben angepasst. (correct)
DNNs erfordern keine Anpassung durch maschinelles Lernen, da sie von Natur aus optimal für alle Klassifikationsprobleme sind.
DNNs sind besonders gut geeignet für die exakte Nachbildung einfacher, linearer Funktionen.
DNNs sind primär für die Klassifikation diskreter Datenpunkte konzipiert und weniger für kontinuierliche Sprachsignale.

Wie schätzen Netze, die für Klassifikationen eingesetzt werden, typischerweise ihren Ausgang?

Durch die zufällige Zuweisung einer Klasse basierend auf einem vordefinierten Wahrscheinlichkeitsbereich.
Durch die Schätzung einer Verteilungsdichte über alle Klassen. (correct)
Durch die direkte Ausgabe einer einzelnen, binären Entscheidung für jede Klasse.
Durch die Berechnung eines Mittelwerts aller möglichen Klassenzugehörigkeiten.

Was ist das Hauptziel des Trainings eines DNN im Überblick?

Die Anpassung der Netzwerkparameter mithilfe von Trainingsdaten, um die Kostenfunktion zu minimieren. (correct)
Die Validierung der Netzwerkarchitektur durch zufällige Dateneingaben.
Die Maximierung der Komplexität des Netzwerks, um eine möglichst breite Aufgabenabdeckung zu erreichen.
Die manuelle Anpassung der Netzwerkparameter durch einen Experten.

Welche Aussage beschreibt am besten den Zweck der Validierung während des Trainings eines DNN?

Die Validierung dient dazu, die Leistung des Netzwerks auf unabhängigen Daten zu bewerten und eine Überanpassung zu vermeiden. (C) Signup and view all the answers

Warum ist die direkte Klassifikation zur Transkription einer Zeitreihe ungeeignet?

Weil die zeitlichen Grenzen der Ausgangssequenz unbekannt sind, was zu einer kombinatorischen Explosion der Möglichkeiten führt. (B) Signup and view all the answers

Was ist die Hauptidee hinter hybriden DNN/HMM-Modellen in der Spracherkennung?

Die Kombination von DNNs für die Merkmalsextraktion und HMMs für die Klassifikation, um eine verbesserte Transkription einer Zeitreihe zu erreichen. (D) Signup and view all the answers

Welche Rolle spielt die Pfadsuche in hybriden DNN/HMM-Modellen?

Sie dient dazu, die wahrscheinlichste Abfolge akustischer Einheiten zu finden, die einen zulässigen Satz oder gültige Worte ergibt. (D) Signup and view all the answers

Was sind Markov-Ketten (erster Ordnung)?

Stochastische Zustandsraummodelle mit einer zeit- und wertdiskreten Zustandsgröße. (B) Signup and view all the answers

Wie wird die Übergangswahrscheinlichkeit in einer Markov-Kette formal definiert?

$a_{ij} = P(X_{t+1} = j | X_t = i)$ (B) Signup and view all the answers

Was beschreibt die Matrix A in Bezug auf Markov Ketten?

A ist die Übergangsmatrix, die die Wahrscheinlichkeiten für Übergänge zwischen Zuständen enthält. (B) Signup and view all the answers

Was charakterisiert Hidden-Markov-Modelle (HMMs) im Vergleich zu regulären Markov-Modellen?

HMMs beinhalten zusätzlich Beobachtungswahrscheinlichkeiten, da der Zustand selbst nicht sichtbar ist. (A) Signup and view all the answers

Wie wird die Beobachtungswahrscheinlichkeit $b_i(o)$ in einem HMM definiert?

$b_i(o) = P(O_t = o | X_t = i)$ (B) Signup and view all the answers

Was sind die Hauptvorteile der Verwendung diskreter Verteilungsdichten in Beobachtungswahrscheinlichkeiten von HMMs?

Sie sind recheneffizient. (C) Signup and view all the answers

Was sind die typischen Bestandteile eines Gauß'schen Mischungsmodells, das in HMMs zur Modellierung kontinuierlicher Beobachtungswahrscheinlichkeiten verwendet wird?

Mischungsgewichte, Mittelwerte und Kovarianzmatrizen. (A) Signup and view all the answers

Welchen Vorteil bieten neuronal geschätzte Verteilungsdichten im Kontext von HMMs?

Sie ermöglichen die direkte Modellierung von Beobachtungen ohne Annahmen über deren Verteilung. (C) Signup and view all the answers

Was wird als Parametersatz $\lambda$ in einem Hidden-Markov-Modell (HMM) bezeichnet?

Die Menge der Übergangswahrscheinlichkeiten, initialen Wahrscheinlichkeiten und Beobachtungswahrscheinlichkeiten: $\lambda = {A, B, \Pi}$ (D) Signup and view all the answers

Warum sind Links-Rechts-Topologien in HMMs für Wortmodelle von Interesse?

Sie sind besonders gut geeignet für die Modellierung von sequenziellen Daten, bei denen die zeitliche Reihenfolge wichtig ist, wie bei Sprache. (B) Signup and view all the answers

Was ist ein wesentliches Merkmal des klassischen Verbund-HMMs für die Verbundworterkennung?

Es beinhaltet direkte Transitionen vom Wortende zu jedem Wortanfang, was zu vielen Transitionen führt. (D) Signup and view all the answers

Was ist der Zweck eines "Glue-State" in einem Verbund-HMM?

Eine Verbindung zwischen Wortmodellen, um weniger Transitionen zu ermöglichen, aber die Algorithmen müssen angepasst werden. (C) Signup and view all the answers

Welches der folgenden Probleme adressieren HMMs?

Das Training, die Evaluation und die Decodierung (d.h. das Finden der wahrscheinlichsten Zustandssequenz) von Modellen. (A) Signup and view all the answers

Was ist das Ziel des Dekodierungsproblems in HMMs??

Die beste oder wahrscheinlichste Zustandssequenz zu ermitteln. (C) Signup and view all the answers

Wie wird das Dekodierungsproblem formal beschrieben?

$[i_1^, i_2^, ..., i_T^*] = \operatorname{argmax} P(i_1, i_2, ..., i_T, o_1 ... o_T | \lambda)$ (D) Signup and view all the answers

Warum ist die explizite Berechnung der optimalen Zustandssequenz in einem HMM ineffizient?

Weil die Anzahl der möglichen Zustandssequenzen exponentiell mit der Länge der Sequenz wächst. (A) Signup and view all the answers

Welchen Vorteil bietet der Viterbi-Algorithmus gegenüber der expliziten Berechnung bei der Dekodierung von HMMs?

Er reduziert die Anzahl der benötigten Multiplikationen durch dynamische Programmierung. (C) Signup and view all the answers

Was wird im Viterbi-Algorithmus gespeichert?

Die Wahrscheinlichkeit der wahrscheinlichsten Sequenz bis zu einem bestimmten Zeitpunkt und den besten Vorgängerzustand. (B) Signup and view all the answers

Was ist die Aufgabe des Backtracking-Schritts im Viterbi-Algorithmus?

Die Ermittlung der optimalen Zustandssequenz durch Rückverfolgung der besten Vorgängerzustände. (B) Signup and view all the answers

Welche der folgenden Operationen wird durch die Verwendung logarithmischer Rechnungen im Viterbi-Algorithmus ersetzt?

Multiplikation wird durch Addition ersetzt. (A) Signup and view all the answers

Welchen Vorteil bietet die Verwendung logarithmischer Rechnungen im Viterbi-Algorithmus?

Sie minimiert numerische Probleme, insbesondere Underflow. (A) Signup and view all the answers

Wie können Probleme bei der Implementierung der Logarithmusfunktion, wie z.B. log(0), behandelt werden?

Indem die Eingabe in log limitiert wird, z.B. log(0) ≈ log(e), oder stattdessen eine große negative Zahl gewählt wird. (B) Signup and view all the answers

Welche Aussage beschreibt am besten, wie hybride DNN/HMM-Modelle die Vorteile von DNNs und HMMs kombinieren?

HMMs werden verwendet, um die Struktur der Aufgabenstellung menschenlesbar zu beschreiben, während DNNs flexibel trainierbar sind, um die Aufgabenstellung optimal zu erfüllen. (A) Signup and view all the answers

Welchen Vorteil bieten HMMs in hybriden Systemen in Bezug auf die Struktur der Aufgabenstellung?

Sie können die Struktur der Aufgabenstellung menschenlesbar beschreiben. (C) Signup and view all the answers

Welche Eigenschaft von DNNs wird in hybriden Systemen besonders genutzt, um die jeweilige Aufgabenstellung optimal zu erfüllen?

Ihre Flexibilität, die es ermöglicht, sie mittels Backpropagation so zu trainieren, dass sie die jeweilige Aufgabenstellung optimal erfüllen. (D) Signup and view all the answers

Warum ist die Modellierung von Beobachtungswahrscheinlichkeiten in HMMs wichtig?

Sie verbinden die Zustände des HMMs mit den beobachteten Daten, wodurch die Wahrscheinlichkeit einer Zustandsfolge angesichts der Beobachtungen berechnet werden kann. (C) Signup and view all the answers

Welchen Vorteil bietet die Verwendung von Links-Rechts-Topologien in HMMs für die Spracherkennung?

Sie spiegeln die zeitliche Natur der Sprache wider, indem sie einen fortschreitenden Übergang durch die Phoneme eines Wortes modellieren. (D) Signup and view all the answers

Was ist das Hauptproblem, das der Viterbi-Algorithmus im Kontext von HMMs löst?

Die Suche nach der wahrscheinlichsten Sequenz von Zuständen für eine gegebene Beobachtungssequenz in einem HMM. (D) Signup and view all the answers

Warum ist Backtracking ein notwendiger Schritt im Viterbi-Algorithmus?

Um die optimale Zustandssequenz zu rekonstruieren, nachdem die wahrscheinlichsten Pfade zu jedem Zeitpunkt identifiziert wurden. (C) Signup and view all the answers

Wie wird die Initialisierung im Viterbi-Algorithmus durchgeführt?

Durch Berechnung der Wahrscheinlichkeit des ersten Zustands basierend auf der initialen Zustandsverteilung und der Beobachtungswahrscheinlichkeit der ersten Beobachtung. (B) Signup and view all the answers

Bei der Anwendung des Viterbi-Algorithmus, was repräsentiert die Variable $\Psi_t(i)$?

Der wahrscheinlichste Vorgängerzustand für Zustand i zur Zeit t. (B) Signup and view all the answers

Welche Operation wird durch die Verwendung logarithmischer Rechnungen im Viterbi-Algorithmus typischerweise ersetzt, und warum ist das vorteilhaft?

Multiplikation wird durch Addition ersetzt, was numerische Underflows verhindert. (D) Signup and view all the answers

Wie wird das Problem von `log(0)` im Kontext des Viterbi-Algorithmus typischerweise behandelt, wenn logarithmische Wahrscheinlichkeiten verwendet werden?

Indem man <code>log(0)</code> durch eine sehr kleine (negative) Zahl ersetzt oder eine Konstante zu allen Wahrscheinlichkeiten addiert. (D) Signup and view all the answers

Was ist das Hauptziel des Trainings in einem Hidden-Markov-Modell (HMM)?

Die Anfangszustandswahrscheinlichkeiten, Übergangswahrscheinlichkeiten und Beobachtungswahrscheinlichkeiten so zu schätzen, dass die Wahrscheinlichkeit der Trainingsdaten maximiert wird. (A) Signup and view all the answers

Welche Aussage beschreibt am besten das Konzept der 'Beobachtungswahrscheinlichkeit' in einem Hidden-Markov-Modell (HMM)?

Die Wahrscheinlichkeit, eine bestimmte Beobachtung in einem bestimmten Zustand zu erzeugen. (C) Signup and view all the answers

Warum werden in der Spracherkennung hybride DNN/HMM-Modelle anstelle von reinen DNN- oder reinen HMM-Modellen eingesetzt?

Um die Vorteile beider Modelltypen zu kombinieren: die Fähigkeit von DNNs, komplexe Muster zu lernen, und die Fähigkeit von HMMs, sequentielle Daten zu modellieren. (A) Signup and view all the answers

Welche Rolle spielt die dynamische Programmierung im Viterbi-Algorithmus?

Sie wird verwendet, um die Anzahl der zu berechnenden Pfade zu reduzieren, indem Teillösungen wiederverwendet werden. (D) Signup and view all the answers

Was ist die Funktion des 'Glue-State' in einem Verbund-HMM?

Den Übergang zwischen verschiedenen Wortmodellen im Verbund-HMM zu erleichtern, ohne Beobachtungen zu emittieren. (D) Signup and view all the answers

Worin besteht der Hauptvorteil der Verwendung neuronal geschätzter Verteilungsdichten im Kontext von HMMs?

Sie ermöglichen die Modellierung komplexerer und nichtlinearer Beziehungen zwischen akustischen Merkmalen und HMM-Zuständen. (D) Signup and view all the answers

Welche der folgenden Eigenschaften ist typisch für ein klassisches Verbund-HMM zur Verbundworterkennung?

Es hat Übergänge direkt vom Ende jedes Wortmodells zum Anfang jedes anderen Wortmodells. (C) Signup and view all the answers

Wie unterscheidet sich ein Hidden-Markov-Modell (HMM) von einer einfachen Markov-Kette?

In einem HMM sind die Zustände nicht direkt beobachtbar, sondern nur indirekt durch Beobachtungen, während in einer Markov-Kette die Zustände direkt beobachtbar sind. (A) Signup and view all the answers

Wenn man Transkription anstelle von Klassifikation in der Spracherkennung nutzt, wodurch entstehen Kombinatorische Explosionen?

Durch unbekannte zeitliche Grenzen der Ausgangssequenz. (D) Signup and view all the answers

Tiefe neuronale Netze (DNNs) eignen sich hervorragend zur ...... komplexer Funktionen.

Approximation (B) Signup and view all the answers

Wozu dient FEATURE EXTRACTION?

Um Audio in Merkmale umzuwandeln. (C) Signup and view all the answers

Flashcards

Tiefe neuronale Netze (DNNs)

Tiefe neuronale Netze, auch bekannt als Deep Neural Networks, eignen sich hervorragend zur Approximation komplexer Funktionen.

Anpassung von DNNs

DNNs werden mit Hilfe maschinellen Lernens an ihre Aufgaben angepasst.

Ausgang von Klassifikationsnetzen

Bei der Klassifikation schätzen Netze typischerweise eine Verteilungsdichte über alle Klassen an ihrem Ausgang.

Training eines DNN

Die Wahrscheinlichkeit aller elementaren akustischen Einheiten (z. B. Phoneme oder subphonetische Einheiten).