Podcast
Questions and Answers
Welche der folgenden Aussagen bezüglich der Verwendung von Phonemen als Einheiten in der hybriden Spracherkennung sind korrekt? (Mehrere Antworten möglich)
Welche der folgenden Aussagen bezüglich der Verwendung von Phonemen als Einheiten in der hybriden Spracherkennung sind korrekt? (Mehrere Antworten möglich)
Welche der folgenden Aussagen über Sentencepiece und andere Tokenizer sind falsch?
Welche der folgenden Aussagen über Sentencepiece und andere Tokenizer sind falsch?
Welche der folgenden Vorteile bietet die Verwendung von Wortteilen als Einheit in der Spracherkennung?
Welche der folgenden Vorteile bietet die Verwendung von Wortteilen als Einheit in der Spracherkennung?
Welches Argument spricht gegen die Verwendung von Wortteilen als Einheit in der Spracherkennung?
Welches Argument spricht gegen die Verwendung von Wortteilen als Einheit in der Spracherkennung?
Signup and view all the answers
Was ist der Hauptvorteil der Verwendung von Sentencepiece als Tool für die Tokenisierung?
Was ist der Hauptvorteil der Verwendung von Sentencepiece als Tool für die Tokenisierung?
Signup and view all the answers
Welche der folgenden Aussagen zum Konzept der Textnormalisierung ist wahr?
Welche der folgenden Aussagen zum Konzept der Textnormalisierung ist wahr?
Signup and view all the answers
Was ist das Hauptkriterium für die Auswahl der ’besten’ Frage beim Bau eines Entscheidungsbaums?
Was ist das Hauptkriterium für die Auswahl der ’besten’ Frage beim Bau eines Entscheidungsbaums?
Signup and view all the answers
Welche Aussage beschreibt am besten den Zusammenhang zwischen der Gini-Impurity und Entscheidungsbäumen?
Welche Aussage beschreibt am besten den Zusammenhang zwischen der Gini-Impurity und Entscheidungsbäumen?
Signup and view all the answers
Welches ist kein Vorteil der Verwendung von Triphon-Clustern als Einheiten in der hybriden Spracherkennung?
Welches ist kein Vorteil der Verwendung von Triphon-Clustern als Einheiten in der hybriden Spracherkennung?
Signup and view all the answers
Was ist die Idee hinter der Verwendung von Graphemen (Buchstaben/Zeichen) als Einheiten in der hybriden Spracherkennung?
Was ist die Idee hinter der Verwendung von Graphemen (Buchstaben/Zeichen) als Einheiten in der hybriden Spracherkennung?
Signup and view all the answers
Welche Aussage über den Prozess der Entscheidungsbaum-Bildung ist falsch?
Welche Aussage über den Prozess der Entscheidungsbaum-Bildung ist falsch?
Signup and view all the answers
Was ist der Hauptvorteil der Verwendung von Triphon-Clustern in der hybriden Spracherkennung?
Was ist der Hauptvorteil der Verwendung von Triphon-Clustern in der hybriden Spracherkennung?
Signup and view all the answers
Welches Konzept spiegelt die Aussage wider, dass Triphone-Cluster die Konstruktion neuer Wörter ermöglichen?
Welches Konzept spiegelt die Aussage wider, dass Triphone-Cluster die Konstruktion neuer Wörter ermöglichen?
Signup and view all the answers
Welche Aussage beschreibt die falsche Anwendung der Gini-Impurity?
Welche Aussage beschreibt die falsche Anwendung der Gini-Impurity?
Signup and view all the answers
Welche der folgenden Anforderungen an Spracherkennungseinheiten ist nicht in dem Text erwähnt?
Welche der folgenden Anforderungen an Spracherkennungseinheiten ist nicht in dem Text erwähnt?
Signup and view all the answers
Welche Aussage über phonetische Wörterbücher ist falsch?
Welche Aussage über phonetische Wörterbücher ist falsch?
Signup and view all the answers
Welches Problem stellt sich bei der Verwendung von Phonemen als Spracherkennungseinheiten?
Welches Problem stellt sich bei der Verwendung von Phonemen als Spracherkennungseinheiten?
Signup and view all the answers
Welche Aussage über die Gesamtstruktur hybrider Spracherkennungssysteme ist richtig?
Welche Aussage über die Gesamtstruktur hybrider Spracherkennungssysteme ist richtig?
Signup and view all the answers
Welches der folgenden Merkmale ist kein Kriterium für die Auswahl geeigneter Spracherkennungseinheiten?
Welches der folgenden Merkmale ist kein Kriterium für die Auswahl geeigneter Spracherkennungseinheiten?
Signup and view all the answers
Was ist der Hauptvorteil der Verwendung von Phonemen als Spracherkennungseinheiten?
Was ist der Hauptvorteil der Verwendung von Phonemen als Spracherkennungseinheiten?
Signup and view all the answers
Welche Komponente ist nicht Bestandteil eines hybriden Spracherkennungssystems?
Welche Komponente ist nicht Bestandteil eines hybriden Spracherkennungssystems?
Signup and view all the answers
Welche Aussage über die Robustheit von Spracherkennungseinheiten ist richtig?
Welche Aussage über die Robustheit von Spracherkennungseinheiten ist richtig?
Signup and view all the answers
Welche der folgenden Aussagen über die Nachteile der Verwendung von Graphemen (Buchstaben/Zeichen) in der hybriden Spracherkennung ist falsch?
Welche der folgenden Aussagen über die Nachteile der Verwendung von Graphemen (Buchstaben/Zeichen) in der hybriden Spracherkennung ist falsch?
Signup and view all the answers
Welches der folgenden Argumente spricht nicht für die Verwendung von Graphemen als Einheiten in der hybriden Spracherkennung?
Welches der folgenden Argumente spricht nicht für die Verwendung von Graphemen als Einheiten in der hybriden Spracherkennung?
Signup and view all the answers
Welche der folgenden Aussagen über Byte-Pair Encoding (BPE) im Kontext der hybriden Spracherkennung ist richtig?
Welche der folgenden Aussagen über Byte-Pair Encoding (BPE) im Kontext der hybriden Spracherkennung ist richtig?
Signup and view all the answers
Welche der folgenden Aussagen über Sentencepiece ist falsch?
Welche der folgenden Aussagen über Sentencepiece ist falsch?
Signup and view all the answers
Welche der folgenden Aussagen über die Verwendung von Wortteilen in der hybriden Spracherkennung ist falsch?
Welche der folgenden Aussagen über die Verwendung von Wortteilen in der hybriden Spracherkennung ist falsch?
Signup and view all the answers
Welche der folgenden Aussagen über die hybriden Spracherkennungssysteme mit Wortteilen ist richtig?
Welche der folgenden Aussagen über die hybriden Spracherkennungssysteme mit Wortteilen ist richtig?
Signup and view all the answers
Warum ist die Verwendung von Wortteilen in der hybriden Spracherkennung besonders effektiv bei der Erkennung von Wörtern mit ähnlicher Aussprache?
Warum ist die Verwendung von Wortteilen in der hybriden Spracherkennung besonders effektiv bei der Erkennung von Wörtern mit ähnlicher Aussprache?
Signup and view all the answers
Welche der folgenden Aussagen über die hybriden Spracherkennungssysteme mit Wortteilen ist falsch?
Welche der folgenden Aussagen über die hybriden Spracherkennungssysteme mit Wortteilen ist falsch?
Signup and view all the answers
Study Notes
Grundlagen der automatischen Spracherkennung - Kapitel 6: Hybride Spracherkennung
- Das Kapitel behandelt hybride Spracherkennung, speziell die Frage nach den geeigneten Einheiten.
- Die Präsentation beinhaltet eine Gliederung (Outline) mit den Themen Hybride Spracherkennung und die Frage der Einheiten.
- Die Gesamtstruktur der hybriden Spracherkennung umfasst drei Schritte: Feature-Extraktion, Deep Neural Network (DNN) und Search.
- Die Ausgangsschicht des DNN benötigt spezifische sprachliche Einheiten.
- Die Anforderungen an die Einheiten umfassen Modularität (alle Vokabeln konstruierbar), Transfer (auch neue Wörter), Robustheit (genügend Trainingsmaterial) und Präzision (spezifische Aussprache).
- Ein Beispiel für einen Ansatz ist das phonetische Wörterbuch.
- Die Erkennung aller Wörter einer Sprache erfordert ein Wörterbuch wie beispielsweise "CMUDict."
- Die Aussprache von Phonemen ist kontextabhängig (Vorgänger- und Nachfolgelaute), z.B. dorsaler Frikativlaut (/x/ in Buch vs. /x/ in Ich).
- Der alveolare Plosivlaut ist ebenfalls kontextabhängig (/t/ in steil vs. /t/ in Teil).
- Phoneme als Einheiten können alle Wörter des Vokabulars konstruieren (Modularität), neue Wörter der Sprache (Transfer) und ausreichend Trainingsmaterial für die Robustheit.
- Phoneme haben aber eine ungenügende Präzision (z.B., /x/ in Buch, Richtig).
- Eine Alternative zu Phonemen sind Triphone. Ein Triphon berücksichtigt das Phonem mit dem spezifischen linken und rechten Kontext.
- Problem der Triphone: ca. 57.000 englische bzw. 36.000 deutsche Triphone, mangelnde Datenmenge für Trainingsmaterial, möglicherweise keine Robustheit und/oder Transfer.
- Lösung für das Problem sind geclusterte Triphone als neue Einheit (agglomerativ oder separierend).
- Entscheidungsbaum-Strategie in Kaldi & HTK: Phoneme werden sukzessive durch die "beste" Frage (z.B. Linkontext, Rechtkontext) aufgeteilt.
- Entscheidungsbaum endet, wenn die Likelihood keine Verbesserung mehr zeigt oder die Anzahl der Trainingsbeispiele zu gering ist.
- Beispielergebnisse der Entscheidungsbaum-Berechnung sind in einem Dreiecksdiagramm dargestellt, die einzelnen Werte bezeichnen verschiedene Ausspracheschritte.
- Triphone-Cluster als Einheiten erfüllen Modularität, Transfer, Trainingsmaterial und ermöglichen spezifische Aussprache durch Clustering mit einstellibarer hoher Präzision.
- Grapheme (Buchstaben/Zeichen): Die direkte Zuordnung von Audiosequenzen zu Buchstabenfolgen. Neuronales Netz mit Softmax-Layer über Buchstaben.
- Eine Beispielarchitektur ist "Listen, attend and spell" [CJLV15].
- Vorteile von Graphem-basierter Spracherkennung: integriertes System (weniger Implementierungsaufwand), multi-lingual trainierbar und Modularität durch Buchstaben/Zeichen der Sprache.
- Nachteile: Bedarf an großer Datenmenge und lange Trainingszeit, Erkennungsraten sind möglicherweise nicht optimal.
- Wortteile als Einheit: Neuronales Netz liefert Wahrscheinlichkeiten für Wortteile, Auswahl z.B. über Byte-Pair Encoding (BPE) [SHB16]. Buchstaben sind mögliche Wortteile mit sukzessivem Hinzufügen häufigster Paare ('Tokens').
- Beliebte Implementierung: Sentencepiece [Kud18]. Alternative: BPE-Implementierung von Whisper (OpenAI) – tiktoken.
- Beispieltext: Kurzer Textbeispielauszug.
- Demo Sentencepiece: Demo-Code für automatische Spracherkennung und Installation des sentencepiece Dokuments.
- Take-home Messages zu Sentencepiece: Das Trainingsmaterial bestimmt die Passgenauigkeit des Modells; das Modell sollte umfassend und repräsentativ die Sprache abdecken. Textnormalisierung ist wichtig, irrelevante Aspekte aus den Daten zu entfernen (z.B., Groß-/Kleinschreibung, Unicode Äquivalenz).
- Wortteile als Einheit: Durch Einbeziehung aller Buchstaben lassen sich alle Wörter des Vokabulars konstruieren (Modularität) und neue Wörter erzeugen (Transfer). Robustheit vom Training abhängig. Spez. Aussprache durch einstellbar hohe Präzision.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
In diesem Quiz geht es um hybride Spracherkennung und die geeigneten sprachlichen Einheiten im Kontext der automatischen Spracherkennung. Das Kapitel beleuchtet die Struktur, Anforderungen und Beispiele, die für die effektive Erkennung notwendig sind. Es vermittelt ein tiefes Verständnis für die Verarbeitung von Sprache durch Deep Neural Networks (DNN).