Document Details

BenevolentPerception2174

Uploaded by BenevolentPerception2174

Technische Universität Berlin

2024

Dorothea Kolossa

Tags

speech recognition computer science lecture notes

Summary

This document appears to be lecture notes for a course on automatic speech recognition. The notes cover topics such as motivation, introduction, and an outline of the course.

Full Transcript

Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Grundlagen der automatischen Spracherkennung Kapitel 1: Einführung Prof. Dr.-Ing. Dorothea Kolossa...

Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Grundlagen der automatischen Spracherkennung Kapitel 1: Einführung Prof. Dr.-Ing. Dorothea Kolossa October 15, 2024 Fachgebiet Elektronische Systeme der Medizintechnik Kapitel 1: Einführung 1 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Outline 1 Organisatorisches 2 Motivation & Intro 3 Spracherzeugung und Phonetik Kapitel 1: Einführung 1 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Wozu Spracherkennung? Viele Anwendungen werden praktikabel und lohnend (I) Smartphone-Steuerung/Websuche Apples Siri, neu auch in Apple Vision Pro (Cupertino, USA) Google Assistant (& OK Google Voice Search) Diktiersysteme Dragon Naturally Speaking (Nuance, Aachen) Fahrzeugelektronik Fahrerassistenzsysteme (Honda Research, Offenbach) Navigation Steuerung Telefon/Multimediasysteme Sprachübersetzung Jibbigo (2013 an Facebook verkauft) OpenAIs Whisper CMUs Open-Source Whisper Alternative Kapitel 1: Einführung 9 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Wozu Spracherkennung? Viele Anwendungen werden praktikabel und lohnend (II) Callcenter Homebanking Auskunftsysteme Lernsoftware Duolingo Babbel Suche in Multimedia-Daten zoom, Microsoft Teams und andere bieten Textsuche in Meetingaufnahmen an mit eigenem Erkenner leicht selbst zu realisieren Kapitel 1: Einführung 10 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Wozu Spracherkennung? Viele Anwendungen werden praktikabel und lohnend (III) Hausautomatisierung, Smart Speaker und mehr Alexa/Amazon Echo Google Home Python-Library SpeechRecognition https://pypi.org/project/SpeechRecognition/ erlaubt Verwendung vieler Spracherkennungs-Engines, z.B. Whisper, Speech-to-Text-Engines von Microsoft, Google,..., oder eigener Erkenner in TensorFlow Chat-Mode von ChatGPT (als erstes als Android-App) Kapitel 1: Einführung 11 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Warum erst jetzt? Spracherkennung hat sich als überraschend schweres Problem erwiesen, und bis vor wenigen Jahren... Kapitel 1: Einführung 12 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Warum ist Spracherkennung schwierig? Problem 1: Intrasprechervariabilität ! Merkmale im Frequenzbereich berechnen Problem 2: Intersprechervariabilität ! bessere Merkmale finden ! Sprecheradaption ! Big-Data-Methoden Problem 3: Verschleifungen ! Viterbi-Algorithmus/Dynamische Programmierung Problem 4: Akustische Störungen (Nachhall / Übertragungsfunktionen / Hintergundgeräusche) ! Filterung ! Multi-Condition Training ! Enthallung/inverse Filterung ! Modelladaption Kapitel 1: Einführung 13 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Themenüberblick Signalanalyse / Merkmalsextraktion Physiologie: Sprachwahrnehmung Zeit-/Frequenzanalyse Cepstralanalyse Dimensionsreduktion Spracherkennung Physiologie: Spracherzeugung Statistische und neuronale Klassifikation Hidden-Markov-Modelle Parameterschätzung/Modelltraining Large-Vocabulary-Erkennung Sprachmodelle Kapitel 1: Einführung 14 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Outline 1 Organisatorisches 2 Motivation & Intro 3 Spracherzeugung und Phonetik Kapitel 1: Einführung 15 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Phonetik Die artikulatorische Phonetik beschäftigt sich mit der menschlichen Spracherzeugung. Einfaches Modell hierfür: Stimmloses en Signal of f Luft Lunge pe + Vokaltrakt B e r i od w e is gu che ng Grundton * Periodisches Signal * Stimmbänder 1 / F0 Figure: Grundlegendes, physiologisch motiviertes Modell der Spracherzeugung. Kapitel 1: Einführung 16 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Phonetik Die Signalformung geschieht dann im Vokaltrakt mittels der aktiven und passiven Artikulatoren: Hintere Alveolen Nasenhöhle Zahndamm (Alveolen) Vordere Alveolen harter Gaumen (Palatum) weicher Gaumen (Velum) Oberzähne Nasengang Oberlippe Zäpfchen (Uvulum) Unterlippe hintere Zunge Unterzähne mittlere Zunge Kiefer Zungenrücken Stimmbänder (Glottis) Zungenspitze Figure: Aufbau des Vokaltraktes. Unterlippe, Zungenrücken und Zungenspitze (fett) sind aktive Artikulatoren, alles anderen passiv. Kapitel 1: Einführung 17 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Phonetik Die erste wichtige Unterscheidung der Laute ist die in Konsonanten vs. Vokale. Kapitel 1: Einführung 18 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Phonetik Die erste wichtige Unterscheidung der Laute ist die in Konsonanten vs. Vokale. Konsonanten sind charakterisiert durch stimmlose Anregung oder Abstrahlung über die Nase oder es gibt wesentliche Engstellen im Vokaltrakt. Im Gegensatz dazu sind Vokale also immer stimmhaft angeregt und über den Mund abgestrahlt und es gibt keine wesentlichen Engstellen. Kapitel 1: Einführung 18 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Konsonanten Konsonanten kann man daher gut nach Art und Ort der Engebildung 1. Einführung klassifizieren Ort Artikulationsart bilabial labiodental alveolar palatal velar uvular glottal p,b t,d k,g Q Plosive m n ï Nasale f,v s,z,S,Z ç,j x h Frikative Tabelle 1.2.: Klassifikation von Konsonanten. Zusätzlich gibt es laterale Laute und Halbvokale - also Laute, die durch frikationslose geschlossen halbo↵en Engebildung gekennzeichnet sind - imo↵en Zungen-Vertikallage i: e: a Deutschen das “l” als Lateral und das “j” als Halbvokal. vordere mittlere hintere Zungen-Horizontallage Kapitel 1: Einführung i:,19e:/ 26 @ u:, o: Ort ArtikulationsartOrganisatorisches bilabial labiodental alveolar palatal velar uvular glottal Motivation & Intro Spracherzeugung und Phonetik p,b t,d k,g Q Plosive Vokale (I) m n ï Nasale Im Gegensatz f,v dazu haben s,z,S,Z keine Vokale ç,j wesentlichen x h Engstellen - Frikative andere Klassifikation ist nötig. Kriterien hierfür: Tabelle 1.2.: Klassifikation von Konsonanten. geschlossen halbo↵en o↵en Zungen-Vertikallage i: e: a vordere mittlere hintere Zungen-Horizontallage i:, e: @ u:, o: gerundet ungerundet Lippenrundung y:, i:, e: Tabelle 1.3.: Klassifikation von Vokalen. Vokalviereck für deutsche Vokale Diphtonge vorne hinten lange dünn geschlossen Luft Kapitel 1: Einführung 20 / 26 OrganisatorischesTabelle 1.2.: Klassifikation von Konsonanten. Motivation & Intro Spracherzeugung und Phonetik geschlossen halbo↵en o↵en Zungen-Vertikallage i: e: a Vokale (II) Zungen-Horizontallage vordere i:, e: mittlere @ hintere u:, o: gerundet ungerundet Lippenrundung y:, i:, e: Zur Visualisierung (anhand von nur 2 der Kriterien) eignet sich das Vokalviereck Tabelle 1.3.: Klassifikation von Vokalen. Vokalviereck mit deutschen Vokalen Diphtongen vorne hinten vorne hinten hier dünn geschlossen Luft See Hecke Kanne neu ähnlich können Wasser sein Bau o↵en Abbildung 1.9.: Vokalviereck, mit Eintragung aller deutschen Vokale und Diphtonge. Als Ko- ordinaten für eine Darstellung der möglichen Vokale dient hier die Zungen- horiznotallage und Vertikalstellung. Kapitel 1: Einführung 21 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Phonetik... aber das ist nur die deutsche Sprache... Kapitel 1: Einführung 22 / 26 THE INTERNATIONAL PHONETIC ALPHABET (revised to 2015) CONSONANTS (PULMONIC) © 2015 IPA Bilabial Labiodental Dental Alveolar Postalveolar Retroflex Palatal Velar Uvular Pharyngeal Glottal Plosive Nasal Trill Tap or Flap Fricative Lateral fricative Approximant Lateral approximant Symbols to the right in a cell are voiced, to the left are voiceless. Shaded areas denote articulations judged impossible. CONSONANTS (NON-PULMONIC) VOWELS Clicks Voiced implosives Ejectives Front Central Back Close Bilabial Bilabial Examples: Dental Dental/alveolar Bilabial Close-mid (Post)alveolar Palatal Dental/alveolar Palatoalveolar Velar Velar Open-mid Alveolar lateral Uvular Alveolar fricative OTHER SYMBOLS Open Voiceless labial-velar fricative Alveolo-palatal fricatives Where symbols appear in pairs, the one to the right represents a rounded vowel. Voiced labial-velar approximant Voiced alveolar lateral flap Voiced labial-palatal approximant Simultaneous and SUPRASEGMENTALS Voiceless epiglottal fricative Primary stress Affricates and double articulations Voiced epiglottal fricative can be represented by two symbols Secondary stress joined by a tie bar if necessary. Epiglottal plosive Long Half-long DIACRITICS Some diacritics may be placed above a symbol with a descender, e.g. Extra-short Voiceless Breathy voiced Dental Minor (foot) group Voiced Creaky voiced Apical Major (intonation) group Aspirated Linguolabial Laminal Syllable break More rounded Labialized Nasalized Linking (absence of a break) Less rounded Palatalized Nasal release TONES AND WORD ACCENTS Advanced Velarized Lateral release LEVEL CONTOUR Extra Retracted Pharyngealized No audible release or high or Rising Centralized Velarized or pharyngealized High Falling High Mid rising Mid-centralized Raised ( = voiced alveolar fricative) Low Low rising Syllabic Lowered ( = voiced bilabial approximant) Extra Rising- low falling Non-syllabic Advanced Tongue Root Downstep Global rise Rhoticity Retracted Tongue Root Upstep Global fall Typefaces: Doulos SIL (metatext); Doulos SIL, IPA Kiel, IPA LS Uni (symbols) Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Phone vs. Phoneme Phone vs. Phoneme Phone (oder Laute) sind charakterisiert nach Entstehungsart und -ort sind Thema der Phonetik Im Gegensatz dazu sind Phoneme die kleinste bedeutungsunterscheidende Einheit einer spezifischen Sprache und damit Thema der Linguistik. Kapitel 1: Einführung 23 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Festlegung der Phoneme einer Sprache die Suche nach den kleinsten bedeutungsunterscheidenden Einheiten.... Europäischer Strukturalismus: Separierende Vorgehensweise - Minimalpaaranalyse Definition Minimalpaar: “Paare von Worten, die sich nur in einem Laut unterscheiden” Beispiel: “schief” vs. “Schiff” Minimalpaaranalyse: 1 Finde Minimalpaare der Sprache. 2 Diejenigen Laute, die diese Minimalpaare unterscheiden, bilden separate Phoneme. Kapitel 1: Einführung 24 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Festlegung der Phoneme einer Sprache die Suche nach den kleinsten bedeutungsunterscheidenden Einheiten.... Amerikanischer Strukturalismus: Zusammenfügende Vorgehensweise Prinzip: 1 Starte mit allen Lauten der Sprache als potentiellem Phonem-Set. 2 Füge all diejenigen Laute zu einem Phonem zusammen, die in komplementärer Distribution stehen (die also nie im selben akustischen Kontext auftauchen) und die mindestens eine Gemeinsamkeit haben, die sie von allen anderen Lauten unterscheidet. Kapitel 1: Einführung 25 / 26

Use Quizgecko on...
Browser
Browser