Hybride Spracherkennung - Die Frage der Einheiten PDF
Document Details
Uploaded by BenevolentPerception2174
Technische Universität Berlin
2024
Dorothea Kolossa
Tags
Summary
This document provides an outline and background on the topic of hybrid speech recognition. It discusses different approaches to automatic speech recognition and the challenges related to speech units, such as phonemes and triphones.
Full Transcript
Hybride Spracherkennung Die Frage der Einheiten Grundlagen der automatischen Spracherkennung Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten Prof. Dr.-Ing. Dorothea Kolossa...
Hybride Spracherkennung Die Frage der Einheiten Grundlagen der automatischen Spracherkennung Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten Prof. Dr.-Ing. Dorothea Kolossa November 19, 2024 FG Elektronische Systeme der Medizintechnik (mtec) Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 1 / 21 Hybride Spracherkennung Die Frage der Einheiten Outline 1 Hybride Spracherkennung 2 Die Frage der Einheiten Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 1 / 21 Hybride Spracherkennung Die Frage der Einheiten Gesamtstruktur hybride Spracherkennung Welche sprachlichen Einheiten sind für die Ausgangsschicht des DNN optimal? Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 2 / 21 Hybride Spracherkennung Die Frage der Einheiten Outline 1 Hybride Spracherkennung 2 Die Frage der Einheiten Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 3 / 21 Hybride Spracherkennung Die Frage der Einheiten Anforderungen an Einheiten 1 Modularität: Alle Worte des Vokabulars müssen konstruierbar sein 2 Transfer: Auch neue Worte müssen konstruierbar sein 3 Robustheit: Genügend Trainingsmaterial verfügbar 4 Präzision: Spezifische Aussprache Versuch 1: Phonetisches Wörterbuch Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 4 / 21 Hybride Spracherkennung Die Frage der Einheiten Laute als akustische Einheiten Erkennung aller Worte der respektiven Sprache möglich Nötig: Wörterbuch, z.B. ”CMUDict” Figure: http://svn.code.sf.net/p/cmusphinx/code/trunk/ cmudict/cmudict-0.7b.phones Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 5 / 21 Hybride Spracherkennung Die Frage der Einheiten Problem bei Phonemen Aussprache abhängig vom Kontext (Vorgänger- & Nachfolgelaute) z.B. dorsaler Frikativlaut in Buch in Ich alveolarer Plosivlaut in steil - in Teil - Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 6 / 21 Hybride Spracherkennung Die Frage der Einheiten Phoneme als Einheiten Kann alle Worte des Vokabulars konstruieren (Modularität) Kann auch neue Worte der Sprache konstruieren (Transfer) Genügend Trainingsmaterial ) Robustheit der Modelle Keine spezifische Aussprache (ungenügende Präzision), z.B. in Buch, Richtig ) Kontext der Phoneme mit berücksichtigen Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 7 / 21 Hybride Spracherkennung Die Frage der Einheiten Alternative zu Phonemen Besser: Triphon: Phonem mit spezifischem linkem & rechtem Kontext 1 Buch: /b/ /u | {z } | {z } | {z } 1.Triphon 2.Triphon 3.Triphon 1 : Wortgrenze Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 8 / 21 Hybride Spracherkennung Die Frage der Einheiten Neue Wortuntereinheit: Triphon Problem bei Triphonen: ca. 57.000 englische bzw. 36.000 deutsche Triphone2 ) Neues Problem: ggf. ungenügende Menge an Trainingsmaterial ) u.U. keine Robustheit & kein Transfer ) Lösung: Clustering von Triphonen ) Geclusterte Triphone als neue Einheit Clustering kann agglomerativ oder separierend erfolgen. 2 Kuperman et al., Frequency distributions of uniphones, diphones, and triphones in spontaneous speech, JASA, 2008. Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 9 / 21 Hybride Spracherkennung Die Frage der Einheiten Entscheidungsbaum: Strategie in Kaldi & HTK Clustering separierend: Jedes Phonem sukzessive splitten durch die jeweils ’beste’ Frage q 2 Q aus dem Satz aller möglichen Fragen Q, nach z.B. linkem Kontext, rechtem Kontext. Die ’beste’ Frage qopt ist die, die zur größten Likelihood führt, wenn man alle Daten in den beiden Zweigen des Baums durch ein statistisches Modell beschreibt, siehe [YOW94], oder (etwas einfacher) die minimale Varianz ergibt.3 Der Prozess endet, wenn die Likelihood nicht mehr (deutlich) besser wird, oder wenn die minimale Anzahl an Trainingsbeispielen unterschritten ist. 3 Wir modellieren hier kontinuierliche Feature-Verteilungen. Anders wäre die Lage, wenn die Features diskret wären - da wäre die Gini Impurity ein gutes Split-Kriterium. Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 10 / 21 Hybride Spracherkennung Die Frage der Einheiten Entscheidungsbaum für Triphone Beispielergebnis nach sukzessivem Splitten: aus Schukat-Talamazzini: Automatische Spracherkennung, Vieweg, 1995. Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 11 / 21 Hybride Spracherkennung Die Frage der Einheiten Triphon-Cluster als Einheiten Kann alle Worte des Vokabulars konstruieren (Modularität) Kann auch neue Worte der Sprache konstruieren (Transfer) Genügend Trainingsmaterial ) Robustheit der Modelle Spezifische Aussprache durch Clustering / einstellbar hohe Präzision ) Aus diesen Gründen lange de-facto Standard Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 12 / 21 Hybride Spracherkennung Die Frage der Einheiten Grapheme (Buchstaben/Zeichen) Idee: Mappe eine Audiosequenz direkt auf eine Buchstabensequenz! ! Neuronales Netz bekommt Softmax-Layer über Buchstaben. Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 13 / 21 Hybride Spracherkennung Die Frage der Einheiten Grapheme (Buchstaben/Zeichen) Idee: Mappe eine Audiosequenz direkt auf eine Buchstabensequenz! ! Neuronales Netz bekommt Softmax-Layer über Buchstaben. Erste Architektur dazu: ”Listen, attend and spell” [CJLV15] Vorteile: Ein integriertes System - deutlich weniger Implementierungsaufwand Kann multi-lingual trainiert werden Modularität gegeben, wenn alle Buchstaben/Zeichen der Sprache als Ausgänge vorkommen Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 14 / 21 Hybride Spracherkennung Die Frage der Einheiten Grapheme (Buchstaben/Zeichen) Idee: Mappe eine Audiosequenz direkt auf eine Buchstabensequenz! ! Neuronales Netz bekommt Softmax-Layer über Buchstaben. Erste Architektur dazu: “Listen, attend and spell” [CJLV15] Nachteile: Benötigte Menge an Trainingsdaten und Trainingszeit steigen Erkennungsraten nicht optimal (wahrscheinlich wegen zu geringer Präzision): “On a subset of the Google voice search task, LAS achieves a word error rate (WER) of 14.1% without a dictionary or a language model, and 10.3% with language model rescoring over the top 32 beams. By comparison, the state-of-the-art CLDNN-HMM model achieves a WER of 8.0%.” Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 15 / 21 Hybride Spracherkennung Die Frage der Einheiten Wortteile Neuronales Netz gibt Wahrscheinlichkeiten für Wortteile aus. Selektion der Wortteile: z.B. via Byte-Pair Encoding (BPE) [SHB16]: Alle Buchstaben sind mögliche Wortteile Zusätzlich werden sukzessive die häufigsten Paare als weitere ‘Tokens’ in die Liste der Wortteile aufgenommen Beliebte (weil schnelle) Implementierung: Sentencepiece [Kud18] Alternative BPE-Implementierung für Whisper (OpenAI): tiktoken https://github.com/openai/tiktoken/ Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 16 / 21 Hybride Spracherkennung Die Frage der Einheiten Beispieltext Ding Dong. Es klingelt. Ich gehe zur Tür, öffne und stehe einem Känguru gegenüber. Ich blinzle, kucke hinter mich, schaue die Treppe runter, dann die Treppe rauf. Kucke geradeaus. Das Känguru ist immer noch da. ”Hallo, sagt das Känguru. Ohne den Kopf zu bewegen, kucke ich noch mal nach links, nach rechts, auf die Uhr und zum Schluss auf das Känguru. ”Hallo”, sage ich. ”Ich bin gerade gegenüber eingezogen, wollte mir Eierkuchen backen, und da ist mir aufgefallen, dass ich vergessen habe, Eier zu kaufen... ” Ich nicke, gehe in die Küche und komme mit zwei Eiern zurück. ”Vielen lieben Dank”, sagt das Känguru und steckt die Eier in seinen Beutel. Ich nicke, und es verschwindet hinter der gegenüber liegenden Wohnungstür.... aus: Die Känguru-Chroniken: Ansichten eines vorlauten Beuteltiers, Marc-Uwe Kling, 2009. Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 17 / 21 Hybride Spracherkennung Die Frage der Einheiten Demo Sentencepiece Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 18 / 21 Hybride Spracherkennung Die Frage der Einheiten Wortteile als Einheit Take-home messages zu Sentencepiece & anderen Tokenizern: Das Trainingsmaterial entscheidet über die Passgenauigkeit des Modells. Breite Abdeckung der Sprache und Repräsentativität! Textnormalisierung wichtig, um irrelevante Aspekte aus den Textdaten zu entfernen (z.B. Groß- vs. Kleinschreibung, Unicode-Äquivalenz). Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 19 / 21 Hybride Spracherkennung Die Frage der Einheiten Wortteile als Einheit Kann durch Einbeziehung aller Buchstaben in alphabetischen Sprachen alle Worte des Vokabulars konstruieren (Modularität) Kann aus demselben Grund auch neue Worte der Sprache konstruieren (Transfer) Robustheit der Modelle hängt von Training ab Spezifische Aussprache durch einstellbar hohe Präzision erreichbar ) Wortteile scheinen der neue de-facto Standard zu werden, mit Sentencepiece als einem de-facto Standardtool Kapitel 6: Hybride Spracherkennung: Die Frage der Einheiten 20 / 21