Grundlagen der automatischen Spracherkennung - Kapitel 6
30 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Welche der folgenden Aussagen bezüglich der Verwendung von Phonemen als Einheiten in der hybriden Spracherkennung sind korrekt? (Mehrere Antworten möglich)

  • Phoneme können alle Worte des Vokabulars konstruieren. (correct)
  • Phoneme ermöglichen eine präzise Abbildung der Aussprache, z.B. in „Buch“ und „Richtig“.
  • Phoneme benötigen ausreichend Trainingsmaterial für die Robustheit der Modelle. (correct)
  • Phoneme können auch neue Worte der Sprache konstruieren. (correct)
  • Welche der folgenden Aussagen über Sentencepiece und andere Tokenizer sind falsch?

  • Breite Abdeckung der Sprache und Repräsentativität des Trainingsmaterials sind nicht entscheidend. (correct)
  • Die Größe des Trainingsmaterials beeinflusst die Performance des Modells.
  • Das Trainingsmaterial bestimmt, wie gut das endgültige Modell funktioniert.
  • Textnormalisierung ist wichtig, um irrelevante Aspekte aus den Textdaten zu entfernen.
  • Welche der folgenden Vorteile bietet die Verwendung von Wortteilen als Einheit in der Spracherkennung?

  • Ermöglicht die Konstruktion aller Wörter des Vokabulars durch die Kombination von Buchstaben.
  • Ermöglicht eine hohe Präzision bei der Aussprache.
  • Erlaubt die Konstruktion neuer Wörter, die in der Sprache existieren.
  • Alle oben genannten Optionen. (correct)
  • Welches Argument spricht gegen die Verwendung von Wortteilen als Einheit in der Spracherkennung?

    <p>Die Tokenisierung von Wortteilen ist anfällig für Fehler. (A)</p> Signup and view all the answers

    Was ist der Hauptvorteil der Verwendung von Sentencepiece als Tool für die Tokenisierung?

    <p>Sentencepiece ist sehr flexibel. (F)</p> Signup and view all the answers

    Welche der folgenden Aussagen zum Konzept der Textnormalisierung ist wahr?

    <p>Textnormalisierung dient zur Entfernung von irrelevantem Inhalt aus Textdaten. (A)</p> Signup and view all the answers

    Was ist das Hauptkriterium für die Auswahl der ’besten’ Frage beim Bau eines Entscheidungsbaums?

    <p>Die Frage, die zur größten Likelihood führt, wenn man alle Daten in den beiden Zweigen des Baums durch ein statistisches Modell beschreibt. (A)</p> Signup and view all the answers

    Welche Aussage beschreibt am besten den Zusammenhang zwischen der Gini-Impurity und Entscheidungsbäumen?

    <p>Die Gini-Impurity ist nur für diskrete Merkmale anwendbar, nicht für kontinuierliche. (D)</p> Signup and view all the answers

    Welches ist kein Vorteil der Verwendung von Triphon-Clustern als Einheiten in der hybriden Spracherkennung?

    <p>Vereinfachung der Berechnung der Wahrscheinlichkeit im Hidden Markov Model (HMM) durch die Verwendung von Triphon-Clustern. (A)</p> Signup and view all the answers

    Was ist die Idee hinter der Verwendung von Graphemen (Buchstaben/Zeichen) als Einheiten in der hybriden Spracherkennung?

    <p>Grapheme können direkt mit den entsprechenden Audiosequenzen abgeglichen werden, ohne vorherige Phonetisierung. (B)</p> Signup and view all the answers

    Welche Aussage über den Prozess der Entscheidungsbaum-Bildung ist falsch?

    <p>Der Prozess ist unabhängig vom verwendeten statistischen Modell und kann für alle Datentypen verwendet werden. (B)</p> Signup and view all the answers

    Was ist der Hauptvorteil der Verwendung von Triphon-Clustern in der hybriden Spracherkennung?

    <p>Alle oben genannten Punkte sind Vorteile von Triphon-Clustern. (D)</p> Signup and view all the answers

    Welches Konzept spiegelt die Aussage wider, dass Triphone-Cluster die Konstruktion neuer Wörter ermöglichen?

    <p>Transfer (A)</p> Signup and view all the answers

    Welche Aussage beschreibt die falsche Anwendung der Gini-Impurity?

    <p>Die Gini-Impurity ist ein Maß für die Homogenität in einer Menge von Datenpunkten. (D)</p> Signup and view all the answers

    Welche der folgenden Anforderungen an Spracherkennungseinheiten ist nicht in dem Text erwähnt?

    <p>Skalierbarkeit (C)</p> Signup and view all the answers

    Welche Aussage über phonetische Wörterbücher ist falsch?

    <p>Sie garantieren eine perfekte Übereinstimmung zwischen der gesprochenen und der geschriebenen Form eines Wortes. (C)</p> Signup and view all the answers

    Welches Problem stellt sich bei der Verwendung von Phonemen als Spracherkennungseinheiten?

    <p>Die Aussprache von Phonemen ist kontextunabhängig und variiert nicht. (C)</p> Signup and view all the answers

    Welche Aussage über die Gesamtstruktur hybrider Spracherkennungssysteme ist richtig?

    <p>Die Auswahl der optimalen sprachlichen Einheiten für die Ausgangsschicht des DNN ist entscheidend. (D)</p> Signup and view all the answers

    Welches der folgenden Merkmale ist kein Kriterium für die Auswahl geeigneter Spracherkennungseinheiten?

    <p>Die Anzahl der Einheiten sollte möglichst gering sein. (C)</p> Signup and view all the answers

    Was ist der Hauptvorteil der Verwendung von Phonemen als Spracherkennungseinheiten?

    <p>Phoneme ermöglichen die Erkennung einer großen Anzahl von Wörtern. (C)</p> Signup and view all the answers

    Welche Komponente ist nicht Bestandteil eines hybriden Spracherkennungssystems?

    <p>Grammatik-Analyse (A)</p> Signup and view all the answers

    Welche Aussage über die Robustheit von Spracherkennungseinheiten ist richtig?

    <p>Alle oben genannten Aussagen sind richtig. (D)</p> Signup and view all the answers

    Welche der folgenden Aussagen über die Nachteile der Verwendung von Graphemen (Buchstaben/Zeichen) in der hybriden Spracherkennung ist falsch?

    <p>Die Erkennungsraten sind im Vergleich zu anderen Einheiten nicht optimal, weil die Modellierung von Pronunziationsvarianten für verschiedene Wörter schwierig ist. (C)</p> Signup and view all the answers

    Welches der folgenden Argumente spricht nicht für die Verwendung von Graphemen als Einheiten in der hybriden Spracherkennung?

    <p>Die benötigte Menge an Trainingsdaten ist geringer im Vergleich zu anderen Ansätzen. (B)</p> Signup and view all the answers

    Welche der folgenden Aussagen über Byte-Pair Encoding (BPE) im Kontext der hybriden Spracherkennung ist richtig?

    <p>BPE verwendet zusätzlich zu Buchstaben die häufigsten Paare aus dem Text als weitere Token. (D)</p> Signup and view all the answers

    Welche der folgenden Aussagen über Sentencepiece ist falsch?

    <p>Sentencepiece basiert auf einem anderen Algorithmus als Byte-Pair Encoding. (D)</p> Signup and view all the answers

    Welche der folgenden Aussagen über die Verwendung von Wortteilen in der hybriden Spracherkennung ist falsch?

    <p>Wortteile werden immer auf Basis der Wortgrenzen im Text generiert. (C)</p> Signup and view all the answers

    Welche der folgenden Aussagen über die hybriden Spracherkennungssysteme mit Wortteilen ist richtig?

    <p>Die Verwendung von Wortteilen ist immer effektiver als die Verwendung von Graphemen. (D)</p> Signup and view all the answers

    Warum ist die Verwendung von Wortteilen in der hybriden Spracherkennung besonders effektiv bei der Erkennung von Wörtern mit ähnlicher Aussprache?

    <p>Weil Wortteile die Unterscheidung zwischen ähnlichen Wörtern auf Basis ihrer phonetischen Unterschiede erleichtern können. (A)</p> Signup and view all the answers

    Welche der folgenden Aussagen über die hybriden Spracherkennungssysteme mit Wortteilen ist falsch?

    <p>Die Auswahl der Wortteile hängt von der Größe des Modells ab. (A)</p> Signup and view all the answers

    Study Notes

    Grundlagen der automatischen Spracherkennung - Kapitel 6: Hybride Spracherkennung

    • Das Kapitel behandelt hybride Spracherkennung, speziell die Frage nach den geeigneten Einheiten.
    • Die Präsentation beinhaltet eine Gliederung (Outline) mit den Themen Hybride Spracherkennung und die Frage der Einheiten.
    • Die Gesamtstruktur der hybriden Spracherkennung umfasst drei Schritte: Feature-Extraktion, Deep Neural Network (DNN) und Search.
    • Die Ausgangsschicht des DNN benötigt spezifische sprachliche Einheiten.
    • Die Anforderungen an die Einheiten umfassen Modularität (alle Vokabeln konstruierbar), Transfer (auch neue Wörter), Robustheit (genügend Trainingsmaterial) und Präzision (spezifische Aussprache).
    • Ein Beispiel für einen Ansatz ist das phonetische Wörterbuch.
    • Die Erkennung aller Wörter einer Sprache erfordert ein Wörterbuch wie beispielsweise "CMUDict."
    • Die Aussprache von Phonemen ist kontextabhängig (Vorgänger- und Nachfolgelaute), z.B. dorsaler Frikativlaut (/x/ in Buch vs. /x/ in Ich).
    • Der alveolare Plosivlaut ist ebenfalls kontextabhängig (/t/ in steil vs. /t/ in Teil).
    • Phoneme als Einheiten können alle Wörter des Vokabulars konstruieren (Modularität), neue Wörter der Sprache (Transfer) und ausreichend Trainingsmaterial für die Robustheit.
    • Phoneme haben aber eine ungenügende Präzision (z.B., /x/ in Buch, Richtig).
    • Eine Alternative zu Phonemen sind Triphone. Ein Triphon berücksichtigt das Phonem mit dem spezifischen linken und rechten Kontext.
    • Problem der Triphone: ca. 57.000 englische bzw. 36.000 deutsche Triphone, mangelnde Datenmenge für Trainingsmaterial, möglicherweise keine Robustheit und/oder Transfer.
    • Lösung für das Problem sind geclusterte Triphone als neue Einheit (agglomerativ oder separierend).
    • Entscheidungsbaum-Strategie in Kaldi & HTK: Phoneme werden sukzessive durch die "beste" Frage (z.B. Linkontext, Rechtkontext) aufgeteilt.
    • Entscheidungsbaum endet, wenn die Likelihood keine Verbesserung mehr zeigt oder die Anzahl der Trainingsbeispiele zu gering ist.
    • Beispielergebnisse der Entscheidungsbaum-Berechnung sind in einem Dreiecksdiagramm dargestellt, die einzelnen Werte bezeichnen verschiedene Ausspracheschritte.
    • Triphone-Cluster als Einheiten erfüllen Modularität, Transfer, Trainingsmaterial und ermöglichen spezifische Aussprache durch Clustering mit einstellibarer hoher Präzision.
    • Grapheme (Buchstaben/Zeichen): Die direkte Zuordnung von Audiosequenzen zu Buchstabenfolgen. Neuronales Netz mit Softmax-Layer über Buchstaben.
    • Eine Beispielarchitektur ist "Listen, attend and spell" [CJLV15].
    • Vorteile von Graphem-basierter Spracherkennung: integriertes System (weniger Implementierungsaufwand), multi-lingual trainierbar und Modularität durch Buchstaben/Zeichen der Sprache.
    • Nachteile: Bedarf an großer Datenmenge und lange Trainingszeit, Erkennungsraten sind möglicherweise nicht optimal.
    • Wortteile als Einheit: Neuronales Netz liefert Wahrscheinlichkeiten für Wortteile, Auswahl z.B. über Byte-Pair Encoding (BPE) [SHB16]. Buchstaben sind mögliche Wortteile mit sukzessivem Hinzufügen häufigster Paare ('Tokens').
    • Beliebte Implementierung: Sentencepiece [Kud18]. Alternative: BPE-Implementierung von Whisper (OpenAI) – tiktoken.
    • Beispieltext: Kurzer Textbeispielauszug.
    • Demo Sentencepiece: Demo-Code für automatische Spracherkennung und Installation des sentencepiece Dokuments.
    • Take-home Messages zu Sentencepiece: Das Trainingsmaterial bestimmt die Passgenauigkeit des Modells; das Modell sollte umfassend und repräsentativ die Sprache abdecken. Textnormalisierung ist wichtig, irrelevante Aspekte aus den Daten zu entfernen (z.B., Groß-/Kleinschreibung, Unicode Äquivalenz).
    • Wortteile als Einheit: Durch Einbeziehung aller Buchstaben lassen sich alle Wörter des Vokabulars konstruieren (Modularität) und neue Wörter erzeugen (Transfer). Robustheit vom Training abhängig. Spez. Aussprache durch einstellbar hohe Präzision.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Description

    In diesem Quiz geht es um hybride Spracherkennung und die geeigneten sprachlichen Einheiten im Kontext der automatischen Spracherkennung. Das Kapitel beleuchtet die Struktur, Anforderungen und Beispiele, die für die effektive Erkennung notwendig sind. Es vermittelt ein tiefes Verständnis für die Verarbeitung von Sprache durch Deep Neural Networks (DNN).

    More Like This

    Hybrid
    16 questions

    Hybrid

    CherishedCurium avatar
    CherishedCurium
    Hybrid Brand Architecture Quiz
    26 questions
    Hybrid Vehicle Types and Characteristics
    20 questions
    Use Quizgecko on...
    Browser
    Browser