Podcast
Questions and Answers
Welche Art des maschinellen Lernens verwendet Algorithmen, die anhand von Beispielen mit vorgegebenen Ausgängen lernen?
Welche Art des maschinellen Lernens verwendet Algorithmen, die anhand von Beispielen mit vorgegebenen Ausgängen lernen?
- Halbüberwachtes Lernen
- Verstärkungslernen
- Unüberwachtes Lernen
- Überwachtes Lernen (correct)
Was ist das Hauptziel des halbüberwachten Lernens im Kontext der Spracherkennung?
Was ist das Hauptziel des halbüberwachten Lernens im Kontext der Spracherkennung?
- Die Abhängigkeit von manuell annotierten Daten zu minimieren (correct)
- Die vollständige manuelle Annotation aller Trainingsdaten zu vermeiden
- Unstrukturierte Daten ohne jegliche Labels zu verarbeiten
- Ausschließlich mit vollständig gelabelten Daten zu arbeiten
Warum ist der Übergang zwischen überwachtem und halbüberwachtem Lernen in der Spracherkennung graduell?
Warum ist der Übergang zwischen überwachtem und halbüberwachtem Lernen in der Spracherkennung graduell?
- Weil halbüberwachtes Lernen eine Vorverarbeitung der Daten erfordert
- Weil überwachtes Lernen immer genauer ist als halbüberwachtes Lernen
- Weil die Menge der benötigten Annotationen variiert und reduziert werden kann (correct)
- Weil die Algorithmen für halbüberwachtes Lernen komplexer sind
Welche der folgenden Aussagen beschreibt am besten den Zweck von Textgrid in der Spracherkennung?
Welche der folgenden Aussagen beschreibt am besten den Zweck von Textgrid in der Spracherkennung?
Welches der folgenden Elemente wird typischerweise in einem Textgrid zur Annotation von Sprache verwendet?
Welches der folgenden Elemente wird typischerweise in einem Textgrid zur Annotation von Sprache verwendet?
Was ist das Ziel des Maximum-Likelihood (ML) Trainings in der Spracherkennung?
Was ist das Ziel des Maximum-Likelihood (ML) Trainings in der Spracherkennung?
Welche der folgenden Formeln beschreibt das Ziel des Maximum-Likelihood-Trainings (ML) in der Spracherkennung?
Welche der folgenden Formeln beschreibt das Ziel des Maximum-Likelihood-Trainings (ML) in der Spracherkennung?
Was ist das Ziel des Minimum Classification Error (MCE) Trainings?
Was ist das Ziel des Minimum Classification Error (MCE) Trainings?
Was repräsentiert die Variable 'WER' im Kontext des Minimum-Classification-Error (MCE) Trainings?
Was repräsentiert die Variable 'WER' im Kontext des Minimum-Classification-Error (MCE) Trainings?
Welches Problem tritt beim Training von Spracherkennungsmodellen auf und wird als Henne-Ei-Problem bezeichnet?
Welches Problem tritt beim Training von Spracherkennungsmodellen auf und wird als Henne-Ei-Problem bezeichnet?
Welche der folgenden Aussagen beschreibt am besten den iterativen Prozess beim Training von Spracherkennungsmodellen?
Welche der folgenden Aussagen beschreibt am besten den iterativen Prozess beim Training von Spracherkennungsmodellen?
Welche Rolle spielt die Initialisierung der Modellparameter beim Training von Spracherkennungsmodellen?
Welche Rolle spielt die Initialisierung der Modellparameter beim Training von Spracherkennungsmodellen?
Welches der folgenden Verfahren wird typischerweise verwendet, um die anfängliche Zuordnung zwischen Daten und HMM-Zuständen zu bestimmen?
Welches der folgenden Verfahren wird typischerweise verwendet, um die anfängliche Zuordnung zwischen Daten und HMM-Zuständen zu bestimmen?
Was ist das Ziel der Reestimation der Parameter in einem iterativen Trainingsprozess?
Was ist das Ziel der Reestimation der Parameter in einem iterativen Trainingsprozess?
Welche Art von Verteilung wird oft für die Ausgabewahrscheinlichkeiten in HMMs für die Spracherkennung angenommen?
Welche Art von Verteilung wird oft für die Ausgabewahrscheinlichkeiten in HMMs für die Spracherkennung angenommen?
Was ist das Ziel der Parameterinitialisierung bei DNN/HMM-Hybridsystemen?
Was ist das Ziel der Parameterinitialisierung bei DNN/HMM-Hybridsystemen?
Welche Methode wird verwendet, um die Parameter der DNN in einem DNN/HMM-Hybridsystem zu aktualisieren?
Welche Methode wird verwendet, um die Parameter der DNN in einem DNN/HMM-Hybridsystem zu aktualisieren?
Was ist ein üblicher Ansatz zur Initialisierung der Übergangswahrscheinlichkeiten in einem HMM?
Was ist ein üblicher Ansatz zur Initialisierung der Übergangswahrscheinlichkeiten in einem HMM?
Wie werden die Zeilen der Übergangsmatrix üblicherweise normalisiert?
Wie werden die Zeilen der Übergangsmatrix üblicherweise normalisiert?
Welches Kriterium kann verwendet werden, um zu entscheiden, wann der iterative Re-Training-Prozess beendet werden soll?
Welches Kriterium kann verwendet werden, um zu entscheiden, wann der iterative Re-Training-Prozess beendet werden soll?
Was ist der Hauptvorteil des diskriminativen Trainings gegenüber dem Maximum-Likelihood-Training?
Was ist der Hauptvorteil des diskriminativen Trainings gegenüber dem Maximum-Likelihood-Training?
In welchem Stadium des Trainingsprozesses wird das MCE-Training typischerweise eingesetzt?
In welchem Stadium des Trainingsprozesses wird das MCE-Training typischerweise eingesetzt?
Was ist das Ziel der Approximation im Kontext des Maximum-Mutual-Information (MMI) Trainings?
Was ist das Ziel der Approximation im Kontext des Maximum-Mutual-Information (MMI) Trainings?
Was ist 'Forced Alignment' im Kontext des MMI-Trainings?
Was ist 'Forced Alignment' im Kontext des MMI-Trainings?
Welchen Vorteil bietet das End-to-End-Training im Vergleich zu traditionellen Methoden?
Welchen Vorteil bietet das End-to-End-Training im Vergleich zu traditionellen Methoden?
Warum ist multilinguales Training für die Spracherkennung von Vorteil?
Warum ist multilinguales Training für die Spracherkennung von Vorteil?
Was versteht man unter Adaption im Kontext des Spracherkennungstrainings?
Was versteht man unter Adaption im Kontext des Spracherkennungstrainings?
Was ist das Ziel des halbüberwachten Trainings in der Spracherkennung?
Was ist das Ziel des halbüberwachten Trainings in der Spracherkennung?
Welche der folgenden Aussagen beschreibt am besten das Henne-Ei-Problem im Zusammenhang mit dem Training von Spracherkennungsmodellen?
Welche der folgenden Aussagen beschreibt am besten das Henne-Ei-Problem im Zusammenhang mit dem Training von Spracherkennungsmodellen?
Wie kann das Henne-Ei-Problem in der Spracherkennung gelöst werden?
Wie kann das Henne-Ei-Problem in der Spracherkennung gelöst werden?
Was ist der Hauptunterschied zwischen dem Maximum-Likelihood (ML)-Training und dem Minimum Classification Error (MCE)-Training?
Was ist der Hauptunterschied zwischen dem Maximum-Likelihood (ML)-Training und dem Minimum Classification Error (MCE)-Training?
Welches der folgenden Kriterien kann NICHT für einen Konvergenztest beim iterativen Re-Training verwendet werden?
Welches der folgenden Kriterien kann NICHT für einen Konvergenztest beim iterativen Re-Training verwendet werden?
Warum ist das Berechnen der Wortfehlerrate (WER) als Konvergenzkriterium aufwendig?
Warum ist das Berechnen der Wortfehlerrate (WER) als Konvergenzkriterium aufwendig?
Was ist die Aufgabe des Forced Alignment im MMI-Training?
Was ist die Aufgabe des Forced Alignment im MMI-Training?
Welche Aussage zum diskriminativen Training ist korrekt?
Welche Aussage zum diskriminativen Training ist korrekt?
Welche Aussage über Maximum-Likelihood-Training (ML) und diskriminatives Training ist richtig?
Welche Aussage über Maximum-Likelihood-Training (ML) und diskriminatives Training ist richtig?
Welche der folgenden Optionen ist kein Vorteil des Multilingualen Trainings?
Welche der folgenden Optionen ist kein Vorteil des Multilingualen Trainings?
Warum ist das Maximum Mutual Information (MMI) Kriterium relevant?
Warum ist das Maximum Mutual Information (MMI) Kriterium relevant?
Was ist das Ziel des iterativen Re-Trainings von Spracherkennungsmodellen?
Was ist das Ziel des iterativen Re-Trainings von Spracherkennungsmodellen?
In welcher Beziehung stehen Adaption und halbüberwachtes Training zueinander?
In welcher Beziehung stehen Adaption und halbüberwachtes Training zueinander?
Was ist ein typisches Einsatzgebiet für die Methode Adaption?
Was ist ein typisches Einsatzgebiet für die Methode Adaption?
Flashcards
Überwachtes Lernen
Überwachtes Lernen
Der Algorithmus lernt anhand von Beispielen mit vorgegebenen Ausgängen (Labels).
Unüberwachtes Lernen
Unüberwachtes Lernen
Der Algorithmus identifiziert Muster in Daten, ohne vorgegebene Labels.
Verstärkungslernen
Verstärkungslernen
Der Algorithmus lernt durch Belohnungen aus Interaktionen mit der Umgebung.
Phoneme
Phoneme
Signup and view all the flashcards
Worte
Worte
Signup and view all the flashcards
Praat
Praat
Signup and view all the flashcards
Maximum-Likelihood
Maximum-Likelihood
Signup and view all the flashcards
Minimum Classification Error
Minimum Classification Error
Signup and view all the flashcards
Maximum-Likelihood (ML) Training
Maximum-Likelihood (ML) Training
Signup and view all the flashcards
Minimum-Classification-Error (MCE) Training
Minimum-Classification-Error (MCE) Training
Signup and view all the flashcards
Henne-Ei-Problem
Henne-Ei-Problem
Signup and view all the flashcards
Forced Alignment
Forced Alignment
Signup and view all the flashcards
Maximum-Mutual-Information (MMI) Training
Maximum-Mutual-Information (MMI) Training
Signup and view all the flashcards
Verbesserung des Modells
Verbesserung des Modells
Signup and view all the flashcards
Anpassung der Kostenfunktion
Anpassung der Kostenfunktion
Signup and view all the flashcards
Study Notes
- Die Präsentation behandelt das Training von Spracherkennungsmodellen.
- Prof. Dr.-Ing. Dorothea Kolossa präsentierte diese am 20. Januar 2025.
Arten maschinellen Lernens
- Überwachtes Lernen: Algorithmen lernen anhand von Beispielen mit vorgegebenen Ausgängen (Labels).
- Halbüberwachtes Lernen (Semi-supervised oder Active Learning): Nur wenige Labels werden benötigt, oft vom Nutzer erfragt (Active Learning).
- Unüberwachtes Lernen: Algorithmen identifizieren Muster in Daten ohne vorgegebene Labels.
- Verstärkungslernen: Algorithmen lernen durch Belohnungen aus Interaktionen mit der Umgebung.
Lernen in der Spracherkennung
- Verschiedene Granularitäten von "Überwachung" erfordern spezifische Annotationen.
- Halbüberwachtes Lernen benötigt Informationen nur für einen Teil der Sätze.
- Phoneme: Transkription oder Segmentierung
- Worte: Transkription oder Segmentierung
- Der Übergang zwischen überwachtem und halbüberwachtem Lernen ist graduell; weniger Annotation, z.B. ohne Segmentierung, ist hilfreich.
Segmentierung von Daten
- Gleichmäßige Segmentierung wird verwendet.
- Labeling von Hand oder mit einem guten Erkenner ist eine weitere Option.
Segmentierungswerkzeuge
- Praat bietet eine Benutzeroberfläche zum Annotieren oder Segmentieren von Daten.
- Textgrid ist das Ergebnis einer Annotation.
Trainingsprinzipien für Erkennungsmodelle
- Maximum-Likelihood
- Minimum Classification Error
Maximum-Likelihood (ML) Training
- Bestimmung der Parameter λ = {A, B, Π}, um P({O}|λ) zu maximieren.
- A: Übergangswahrscheinlichkeiten.
- B: Ausgabeverteilungsdichten.
- Π: Initiale Wahrscheinlichkeiten.
- {O}: Menge aller Beobachtungssequenzen.
Minimum-Classification-Error (MCE) Training
- Ziel ist die Minimierung der Wortfehlerrate (WER).
- λ* = arg min WER({O}|λ, {w})
- Die Wortfehlerrate (WER) wird wie folgt berechnet: WER = (D + I + S) / N.
- D: Deletions, I: Insertions, S: Substitutions, N: Anzahl der Worte.
- Die dynamische Programmierung wird verwendet, um die Ergebnisse zu erhalten.
Modelltraining
- Das Henne-Ei-Problem: Die meisten Trainingsalgorithmen benötigen ein vortrainiertes Modell.
- Das Training ist grundsätzlich iterativ.
- Initialisierung der Modellparameter (Π, A, B).
- Re-Estimation der Parameter.
- Konvergenztest.
Festlegung von Π für Verbundworterkennung
- Ohne Glue States (via Grammatik)
- Mit Glue States
Initialisierung von A und B
- Segmentierte Daten für Maximum-Likelihood (ML)-Initialisierung der Parameter A und B werden benötigt.
- Textgrid-Dateien für die TIDIGITS-Datenbank werden bereitgestellt.
- Die Textgrid-Daten stammen aus dem Montreal Forced Aligner,.
Parameterschätzung aus segmentierten Daten
- Für eine erste Zuordnung zwischen Daten und HMM-Zuständen(Hidden Markov Model)
- Zu bestimmen: Ausgangsverteilungsdichten bi(o) ∀i und Übergangswahrscheinlichkeiten aij ∀i, j.
ML-Parameterschätzung für diskrete bi(o)
- Notation: ot ∈ {o1, ..., oK}, hier: ot ∈ [-1, 0, ..., 4].
- ML-Schätzung für bi(o): Die Formel zur Berechnung von bi(ok) beinhaltet die Anzahl des Auftretens von ok in Zustand i dividiert durch die Anzahl des Auftretens von Zustand i.
ML-Parameterschätzung für kontinuierliche bi(o)
- Annahme: Gauß-Verteilung für bi(0).
- Parameter μ, Σ pro Zustand i.
- Zum Beispiel wird der (Temperatur-) Mittelwert für den Zustand Regen verwendet.
Initiale Parameterschätzung DNN/HMM-Hybrid
- Gegeben zufällig initialisierte DNN-Parameter (w).
- Update der Gewichte (w) durch Backpropagation (E Epochen oder Early Stopping).
Parameterinitialisierung für aij
- Die einfachste (ad hoc) Parameterinitialisierung für aij kommt ohne Trainingsdaten aus
- Initialisiere die Matrix als Nullmatrix.
- Setze alle zulässigen Übergänge auf 1
- Normiere die Zeilen von A auf 1.
ML-Parameterschätzung für aij
- ML-Schätzung für Übergangswahrscheinlichkeiten: ai,j = (Anzahl Übergänge aus Zustand i nach Zustand j) / (Anzahl Übergänge aus Zustand i).
- In einem Beispiel wird die Übergangswahrscheinlichkeit vom Zustand Regen zum Folgezustand Sonne betrachtet.
Iteratives Re-Training
- Initialisierung, Segmentierung, Parameterschätzung und Reestimation werden verwendet.
Konvergenztest
- Als mögliche Kriterien hierfür werden die Verbesserung der Beobachtungswahrscheinlichkeit, der Kreuzentropie (CE) oder die Verbesserung der Wortfehlerrate genannt.
Einordnung des MCE-Training
- MCE-Training baut auf einem trainierten Modell auf und dient dem Finetuning
- Es kann mit einem Modell ausgeführt werden, für das das ML-Training (Initialisierung & Viterbi-Training) bereits abgeschlossen ist.
- Die betrachtete Version von MCE-Training passt nur das DNN an und lässt das HMM unverändert.
Approximation: MMI-Kriterium
- Ziel: Der Mutual Information zwischen Referenztranskription und Erkennungsergebnis wird maximiert.
- Benötigt: Totales Differential, Optimale Zustandssequenz aus Forced Alignment und Zustandswahrscheinlichkeiten aus Forward-Backward-Algorithmus.
- Forced Alignment: Viterbi-Algorithmus auf einem kleinen Verbund-HMM, das aus einer Reihenschaltung der Worte der Referenztranskription des jeweiligen Trainingssatzes besteht.
Zusammenfassung
- Das Training von Spracherkennungsmodellen ist ein iterativer Prozess.
- Nach der Initialisierung erfolgen mehrere Trainingsdurchläufe, die das Modell sukzessive verbessern
- Zwischen den Trainingsrunden kann das Modell oder der Merkmalsraum verfeinert werden
- Die Kostenfunktion kann auch angepasst werden, zum Beispiel von einer generativen zu einer diskriminativen Funktion, bis die optimale Erkennungsrate auf den Development-Daten erreicht wird.
Aktuelle Forschungsthemen im Training von Large-Vocabulary-Erkennern
- End-to-end-Training: Lernen ohne explizite Segmentierung.
- Multilinguales Training: Gemeinsame erste DNN-Schichten, getrennte letzte Schichten zur Erkennung der Phoneme; Nutzung von 680.000h Sprache mit "schwacher" Supervision in 97 Sprachen.
- Adaption: Weiteres Training nur auf Daten eines bestimmten Sprechers oder einer bestimmten Situation.
- Halbüberwachtes Training: Weniger Trainingsdaten durch unüberwachtes Pre-training von Conformer-Encodern & Teacher-Student-Training.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.