Podcast
Questions and Answers
Welche der folgenden Aussagen bezüglich der Verwendung von Phonemen als Einheiten in der hybriden Spracherkennung sind korrekt? (Mehrere Antworten möglich)
Welche der folgenden Aussagen bezüglich der Verwendung von Phonemen als Einheiten in der hybriden Spracherkennung sind korrekt? (Mehrere Antworten möglich)
- Phoneme können alle Worte des Vokabulars konstruieren. (correct)
- Phoneme ermöglichen eine präzise Abbildung der Aussprache, z.B. in „Buch“ und „Richtig“.
- Phoneme benötigen ausreichend Trainingsmaterial für die Robustheit der Modelle. (correct)
- Phoneme können auch neue Worte der Sprache konstruieren. (correct)
Welche der folgenden Aussagen über Sentencepiece und andere Tokenizer sind falsch?
Welche der folgenden Aussagen über Sentencepiece und andere Tokenizer sind falsch?
- Breite Abdeckung der Sprache und Repräsentativität des Trainingsmaterials sind nicht entscheidend. (correct)
- Die Größe des Trainingsmaterials beeinflusst die Performance des Modells.
- Das Trainingsmaterial bestimmt, wie gut das endgültige Modell funktioniert.
- Textnormalisierung ist wichtig, um irrelevante Aspekte aus den Textdaten zu entfernen.
Welche der folgenden Vorteile bietet die Verwendung von Wortteilen als Einheit in der Spracherkennung?
Welche der folgenden Vorteile bietet die Verwendung von Wortteilen als Einheit in der Spracherkennung?
- Ermöglicht die Konstruktion aller Wörter des Vokabulars durch die Kombination von Buchstaben.
- Ermöglicht eine hohe Präzision bei der Aussprache.
- Erlaubt die Konstruktion neuer Wörter, die in der Sprache existieren.
- Alle oben genannten Optionen. (correct)
Welches Argument spricht gegen die Verwendung von Wortteilen als Einheit in der Spracherkennung?
Welches Argument spricht gegen die Verwendung von Wortteilen als Einheit in der Spracherkennung?
Was ist der Hauptvorteil der Verwendung von Sentencepiece als Tool für die Tokenisierung?
Was ist der Hauptvorteil der Verwendung von Sentencepiece als Tool für die Tokenisierung?
Welche der folgenden Aussagen zum Konzept der Textnormalisierung ist wahr?
Welche der folgenden Aussagen zum Konzept der Textnormalisierung ist wahr?
Was ist das Hauptkriterium für die Auswahl der ’besten’ Frage beim Bau eines Entscheidungsbaums?
Was ist das Hauptkriterium für die Auswahl der ’besten’ Frage beim Bau eines Entscheidungsbaums?
Welche Aussage beschreibt am besten den Zusammenhang zwischen der Gini-Impurity und Entscheidungsbäumen?
Welche Aussage beschreibt am besten den Zusammenhang zwischen der Gini-Impurity und Entscheidungsbäumen?
Welches ist kein Vorteil der Verwendung von Triphon-Clustern als Einheiten in der hybriden Spracherkennung?
Welches ist kein Vorteil der Verwendung von Triphon-Clustern als Einheiten in der hybriden Spracherkennung?
Was ist die Idee hinter der Verwendung von Graphemen (Buchstaben/Zeichen) als Einheiten in der hybriden Spracherkennung?
Was ist die Idee hinter der Verwendung von Graphemen (Buchstaben/Zeichen) als Einheiten in der hybriden Spracherkennung?
Welche Aussage über den Prozess der Entscheidungsbaum-Bildung ist falsch?
Welche Aussage über den Prozess der Entscheidungsbaum-Bildung ist falsch?
Was ist der Hauptvorteil der Verwendung von Triphon-Clustern in der hybriden Spracherkennung?
Was ist der Hauptvorteil der Verwendung von Triphon-Clustern in der hybriden Spracherkennung?
Welches Konzept spiegelt die Aussage wider, dass Triphone-Cluster die Konstruktion neuer Wörter ermöglichen?
Welches Konzept spiegelt die Aussage wider, dass Triphone-Cluster die Konstruktion neuer Wörter ermöglichen?
Welche Aussage beschreibt die falsche Anwendung der Gini-Impurity?
Welche Aussage beschreibt die falsche Anwendung der Gini-Impurity?
Welche der folgenden Anforderungen an Spracherkennungseinheiten ist nicht in dem Text erwähnt?
Welche der folgenden Anforderungen an Spracherkennungseinheiten ist nicht in dem Text erwähnt?
Welche Aussage über phonetische Wörterbücher ist falsch?
Welche Aussage über phonetische Wörterbücher ist falsch?
Welches Problem stellt sich bei der Verwendung von Phonemen als Spracherkennungseinheiten?
Welches Problem stellt sich bei der Verwendung von Phonemen als Spracherkennungseinheiten?
Welche Aussage über die Gesamtstruktur hybrider Spracherkennungssysteme ist richtig?
Welche Aussage über die Gesamtstruktur hybrider Spracherkennungssysteme ist richtig?
Welches der folgenden Merkmale ist kein Kriterium für die Auswahl geeigneter Spracherkennungseinheiten?
Welches der folgenden Merkmale ist kein Kriterium für die Auswahl geeigneter Spracherkennungseinheiten?
Was ist der Hauptvorteil der Verwendung von Phonemen als Spracherkennungseinheiten?
Was ist der Hauptvorteil der Verwendung von Phonemen als Spracherkennungseinheiten?
Welche Komponente ist nicht Bestandteil eines hybriden Spracherkennungssystems?
Welche Komponente ist nicht Bestandteil eines hybriden Spracherkennungssystems?
Welche Aussage über die Robustheit von Spracherkennungseinheiten ist richtig?
Welche Aussage über die Robustheit von Spracherkennungseinheiten ist richtig?
Welche der folgenden Aussagen über die Nachteile der Verwendung von Graphemen (Buchstaben/Zeichen) in der hybriden Spracherkennung ist falsch?
Welche der folgenden Aussagen über die Nachteile der Verwendung von Graphemen (Buchstaben/Zeichen) in der hybriden Spracherkennung ist falsch?
Welches der folgenden Argumente spricht nicht für die Verwendung von Graphemen als Einheiten in der hybriden Spracherkennung?
Welches der folgenden Argumente spricht nicht für die Verwendung von Graphemen als Einheiten in der hybriden Spracherkennung?
Welche der folgenden Aussagen über Byte-Pair Encoding (BPE) im Kontext der hybriden Spracherkennung ist richtig?
Welche der folgenden Aussagen über Byte-Pair Encoding (BPE) im Kontext der hybriden Spracherkennung ist richtig?
Welche der folgenden Aussagen über Sentencepiece ist falsch?
Welche der folgenden Aussagen über Sentencepiece ist falsch?
Welche der folgenden Aussagen über die Verwendung von Wortteilen in der hybriden Spracherkennung ist falsch?
Welche der folgenden Aussagen über die Verwendung von Wortteilen in der hybriden Spracherkennung ist falsch?
Welche der folgenden Aussagen über die hybriden Spracherkennungssysteme mit Wortteilen ist richtig?
Welche der folgenden Aussagen über die hybriden Spracherkennungssysteme mit Wortteilen ist richtig?
Warum ist die Verwendung von Wortteilen in der hybriden Spracherkennung besonders effektiv bei der Erkennung von Wörtern mit ähnlicher Aussprache?
Warum ist die Verwendung von Wortteilen in der hybriden Spracherkennung besonders effektiv bei der Erkennung von Wörtern mit ähnlicher Aussprache?
Welche der folgenden Aussagen über die hybriden Spracherkennungssysteme mit Wortteilen ist falsch?
Welche der folgenden Aussagen über die hybriden Spracherkennungssysteme mit Wortteilen ist falsch?
Flashcards
Hybride Spracherkennung
Hybride Spracherkennung
Ein Ansatz zur automatischen Spracherkennung, der verschiedene Methoden kombiniert.
Modularität
Modularität
Die Fähigkeit, alle Worte des Vokabulars konstruierbar zu machen.
Transfer
Transfer
Die Möglichkeit, auch neue Worte zu konstruieren.
Robustheit
Robustheit
Signup and view all the flashcards
Präzision
Präzision
Signup and view all the flashcards
Phonetisches Wörterbuch
Phonetisches Wörterbuch
Signup and view all the flashcards
Akustische Einheiten
Akustische Einheiten
Signup and view all the flashcards
Phoneme
Phoneme
Signup and view all the flashcards
Beste Frage qopt
Beste Frage qopt
Signup and view all the flashcards
Minimale Varianz
Minimale Varianz
Signup and view all the flashcards
Likelihood
Likelihood
Signup and view all the flashcards
Entscheidungsbaum
Entscheidungsbaum
Signup and view all the flashcards
Triphon-Cluster
Triphon-Cluster
Signup and view all the flashcards
Grapheme
Grapheme
Signup and view all the flashcards
Softmax-Layer
Softmax-Layer
Signup and view all the flashcards
Dorsaler Frikativlaut
Dorsaler Frikativlaut
Signup and view all the flashcards
Alveolarer Plosivlaut
Alveolarer Plosivlaut
Signup and view all the flashcards
Triphon
Triphon
Signup and view all the flashcards
Clustering
Clustering
Signup and view all the flashcards
Agglomeratives Clustering
Agglomeratives Clustering
Signup and view all the flashcards
Listen, attend and spell
Listen, attend and spell
Signup and view all the flashcards
Word Error Rate (WER)
Word Error Rate (WER)
Signup and view all the flashcards
Byte-Pair Encoding (BPE)
Byte-Pair Encoding (BPE)
Signup and view all the flashcards
Sentencepiece
Sentencepiece
Signup and view all the flashcards
Neuronales Netz
Neuronales Netz
Signup and view all the flashcards
Implementierungsaufwand
Implementierungsaufwand
Signup and view all the flashcards
Textnormalisierung
Textnormalisierung
Signup and view all the flashcards
Breite Abdeckung
Breite Abdeckung
Signup and view all the flashcards
Aussprache-Präzision
Aussprache-Präzision
Signup and view all the flashcards
Alphabetrische Modularität
Alphabetrische Modularität
Signup and view all the flashcards
Study Notes
Grundlagen der automatischen Spracherkennung - Kapitel 6: Hybride Spracherkennung
- Das Kapitel behandelt hybride Spracherkennung, speziell die Frage nach den geeigneten Einheiten.
- Die Präsentation beinhaltet eine Gliederung (Outline) mit den Themen Hybride Spracherkennung und die Frage der Einheiten.
- Die Gesamtstruktur der hybriden Spracherkennung umfasst drei Schritte: Feature-Extraktion, Deep Neural Network (DNN) und Search.
- Die Ausgangsschicht des DNN benötigt spezifische sprachliche Einheiten.
- Die Anforderungen an die Einheiten umfassen Modularität (alle Vokabeln konstruierbar), Transfer (auch neue Wörter), Robustheit (genügend Trainingsmaterial) und Präzision (spezifische Aussprache).
- Ein Beispiel für einen Ansatz ist das phonetische Wörterbuch.
- Die Erkennung aller Wörter einer Sprache erfordert ein Wörterbuch wie beispielsweise "CMUDict."
- Die Aussprache von Phonemen ist kontextabhängig (Vorgänger- und Nachfolgelaute), z.B. dorsaler Frikativlaut (/x/ in Buch vs. /x/ in Ich).
- Der alveolare Plosivlaut ist ebenfalls kontextabhängig (/t/ in steil vs. /t/ in Teil).
- Phoneme als Einheiten können alle Wörter des Vokabulars konstruieren (Modularität), neue Wörter der Sprache (Transfer) und ausreichend Trainingsmaterial für die Robustheit.
- Phoneme haben aber eine ungenügende Präzision (z.B., /x/ in Buch, Richtig).
- Eine Alternative zu Phonemen sind Triphone. Ein Triphon berücksichtigt das Phonem mit dem spezifischen linken und rechten Kontext.
- Problem der Triphone: ca. 57.000 englische bzw. 36.000 deutsche Triphone, mangelnde Datenmenge für Trainingsmaterial, möglicherweise keine Robustheit und/oder Transfer.
- Lösung für das Problem sind geclusterte Triphone als neue Einheit (agglomerativ oder separierend).
- Entscheidungsbaum-Strategie in Kaldi & HTK: Phoneme werden sukzessive durch die "beste" Frage (z.B. Linkontext, Rechtkontext) aufgeteilt.
- Entscheidungsbaum endet, wenn die Likelihood keine Verbesserung mehr zeigt oder die Anzahl der Trainingsbeispiele zu gering ist.
- Beispielergebnisse der Entscheidungsbaum-Berechnung sind in einem Dreiecksdiagramm dargestellt, die einzelnen Werte bezeichnen verschiedene Ausspracheschritte.
- Triphone-Cluster als Einheiten erfüllen Modularität, Transfer, Trainingsmaterial und ermöglichen spezifische Aussprache durch Clustering mit einstellibarer hoher Präzision.
- Grapheme (Buchstaben/Zeichen): Die direkte Zuordnung von Audiosequenzen zu Buchstabenfolgen. Neuronales Netz mit Softmax-Layer über Buchstaben.
- Eine Beispielarchitektur ist "Listen, attend and spell" [CJLV15].
- Vorteile von Graphem-basierter Spracherkennung: integriertes System (weniger Implementierungsaufwand), multi-lingual trainierbar und Modularität durch Buchstaben/Zeichen der Sprache.
- Nachteile: Bedarf an großer Datenmenge und lange Trainingszeit, Erkennungsraten sind möglicherweise nicht optimal.
- Wortteile als Einheit: Neuronales Netz liefert Wahrscheinlichkeiten für Wortteile, Auswahl z.B. über Byte-Pair Encoding (BPE) [SHB16]. Buchstaben sind mögliche Wortteile mit sukzessivem Hinzufügen häufigster Paare ('Tokens').
- Beliebte Implementierung: Sentencepiece [Kud18]. Alternative: BPE-Implementierung von Whisper (OpenAI) – tiktoken.
- Beispieltext: Kurzer Textbeispielauszug.
- Demo Sentencepiece: Demo-Code für automatische Spracherkennung und Installation des sentencepiece Dokuments.
- Take-home Messages zu Sentencepiece: Das Trainingsmaterial bestimmt die Passgenauigkeit des Modells; das Modell sollte umfassend und repräsentativ die Sprache abdecken. Textnormalisierung ist wichtig, irrelevante Aspekte aus den Daten zu entfernen (z.B., Groß-/Kleinschreibung, Unicode Äquivalenz).
- Wortteile als Einheit: Durch Einbeziehung aller Buchstaben lassen sich alle Wörter des Vokabulars konstruieren (Modularität) und neue Wörter erzeugen (Transfer). Robustheit vom Training abhängig. Spez. Aussprache durch einstellbar hohe Präzision.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.