ASE-VL1 Vorlesungsunterlagen PDF

Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Grundlagen der automatischen Spracherkennung Kapitel 1: Einführung Prof. Dr.-Ing. Dorothea Kolossa...

Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Grundlagen der automatischen Spracherkennung Kapitel 1: Einführung Prof. Dr.-Ing. Dorothea Kolossa October 15, 2024 Fachgebiet Elektronische Systeme der Medizintechnik Kapitel 1: Einführung 1 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Outline 1 Organisatorisches 2 Motivation & Intro 3 Spracherzeugung und Phonetik Kapitel 1: Einführung 1 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Wozu Spracherkennung? Viele Anwendungen werden praktikabel und lohnend (I) Smartphone-Steuerung/Websuche Apples Siri, neu auch in Apple Vision Pro (Cupertino, USA) Google Assistant (& OK Google Voice Search) Diktiersysteme Dragon Naturally Speaking (Nuance, Aachen) Fahrzeugelektronik Fahrerassistenzsysteme (Honda Research, Offenbach) Navigation Steuerung Telefon/Multimediasysteme Sprachübersetzung Jibbigo (2013 an Facebook verkauft) OpenAIs Whisper CMUs Open-Source Whisper Alternative Kapitel 1: Einführung 9 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Wozu Spracherkennung? Viele Anwendungen werden praktikabel und lohnend (II) Callcenter Homebanking Auskunftsysteme Lernsoftware Duolingo Babbel Suche in Multimedia-Daten zoom, Microsoft Teams und andere bieten Textsuche in Meetingaufnahmen an mit eigenem Erkenner leicht selbst zu realisieren Kapitel 1: Einführung 10 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Wozu Spracherkennung? Viele Anwendungen werden praktikabel und lohnend (III) Hausautomatisierung, Smart Speaker und mehr Alexa/Amazon Echo Google Home Python-Library SpeechRecognition https://pypi.org/project/SpeechRecognition/ erlaubt Verwendung vieler Spracherkennungs-Engines, z.B. Whisper, Speech-to-Text-Engines von Microsoft, Google,..., oder eigener Erkenner in TensorFlow Chat-Mode von ChatGPT (als erstes als Android-App) Kapitel 1: Einführung 11 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Warum erst jetzt? Spracherkennung hat sich als überraschend schweres Problem erwiesen, und bis vor wenigen Jahren... Kapitel 1: Einführung 12 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Warum ist Spracherkennung schwierig? Problem 1: Intrasprechervariabilität ! Merkmale im Frequenzbereich berechnen Problem 2: Intersprechervariabilität ! bessere Merkmale finden ! Sprecheradaption ! Big-Data-Methoden Problem 3: Verschleifungen ! Viterbi-Algorithmus/Dynamische Programmierung Problem 4: Akustische Störungen (Nachhall / Übertragungsfunktionen / Hintergundgeräusche) ! Filterung ! Multi-Condition Training ! Enthallung/inverse Filterung ! Modelladaption Kapitel 1: Einführung 13 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Themenüberblick Signalanalyse / Merkmalsextraktion Physiologie: Sprachwahrnehmung Zeit-/Frequenzanalyse Cepstralanalyse Dimensionsreduktion Spracherkennung Physiologie: Spracherzeugung Statistische und neuronale Klassifikation Hidden-Markov-Modelle Parameterschätzung/Modelltraining Large-Vocabulary-Erkennung Sprachmodelle Kapitel 1: Einführung 14 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Outline 1 Organisatorisches 2 Motivation & Intro 3 Spracherzeugung und Phonetik Kapitel 1: Einführung 15 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Phonetik Die artikulatorische Phonetik beschäftigt sich mit der menschlichen Spracherzeugung. Einfaches Modell hierfür: Stimmloses en Signal of f Luft Lunge pe + Vokaltrakt B e r i od w e is gu che ng Grundton * Periodisches Signal * Stimmbänder 1 / F0 Figure: Grundlegendes, physiologisch motiviertes Modell der Spracherzeugung. Kapitel 1: Einführung 16 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Phonetik Die Signalformung geschieht dann im Vokaltrakt mittels der aktiven und passiven Artikulatoren: Hintere Alveolen Nasenhöhle Zahndamm (Alveolen) Vordere Alveolen harter Gaumen (Palatum) weicher Gaumen (Velum) Oberzähne Nasengang Oberlippe Zäpfchen (Uvulum) Unterlippe hintere Zunge Unterzähne mittlere Zunge Kiefer Zungenrücken Stimmbänder (Glottis) Zungenspitze Figure: Aufbau des Vokaltraktes. Unterlippe, Zungenrücken und Zungenspitze (fett) sind aktive Artikulatoren, alles anderen passiv. Kapitel 1: Einführung 17 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Phonetik Die erste wichtige Unterscheidung der Laute ist die in Konsonanten vs. Vokale. Kapitel 1: Einführung 18 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Phonetik Die erste wichtige Unterscheidung der Laute ist die in Konsonanten vs. Vokale. Konsonanten sind charakterisiert durch stimmlose Anregung oder Abstrahlung über die Nase oder es gibt wesentliche Engstellen im Vokaltrakt. Im Gegensatz dazu sind Vokale also immer stimmhaft angeregt und über den Mund abgestrahlt und es gibt keine wesentlichen Engstellen. Kapitel 1: Einführung 18 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Konsonanten Konsonanten kann man daher gut nach Art und Ort der Engebildung 1. Einführung klassifizieren Ort Artikulationsart bilabial labiodental alveolar palatal velar uvular glottal p,b t,d k,g Q Plosive m n ï Nasale f,v s,z,S,Z ç,j x h Frikative Tabelle 1.2.: Klassifikation von Konsonanten. Zusätzlich gibt es laterale Laute und Halbvokale - also Laute, die durch frikationslose geschlossen halbo↵en Engebildung gekennzeichnet sind - imo↵en Zungen-Vertikallage i: e: a Deutschen das “l” als Lateral und das “j” als Halbvokal. vordere mittlere hintere Zungen-Horizontallage Kapitel 1: Einführung i:,19e:/ 26 @ u:, o: Ort ArtikulationsartOrganisatorisches bilabial labiodental alveolar palatal velar uvular glottal Motivation & Intro Spracherzeugung und Phonetik p,b t,d k,g Q Plosive Vokale (I) m n ï Nasale Im Gegensatz f,v dazu haben s,z,S,Z keine Vokale ç,j wesentlichen x h Engstellen - Frikative andere Klassifikation ist nötig. Kriterien hierfür: Tabelle 1.2.: Klassifikation von Konsonanten. geschlossen halbo↵en o↵en Zungen-Vertikallage i: e: a vordere mittlere hintere Zungen-Horizontallage i:, e: @ u:, o: gerundet ungerundet Lippenrundung y:, i:, e: Tabelle 1.3.: Klassifikation von Vokalen. Vokalviereck für deutsche Vokale Diphtonge vorne hinten lange dünn geschlossen Luft Kapitel 1: Einführung 20 / 26 OrganisatorischesTabelle 1.2.: Klassifikation von Konsonanten. Motivation & Intro Spracherzeugung und Phonetik geschlossen halbo↵en o↵en Zungen-Vertikallage i: e: a Vokale (II) Zungen-Horizontallage vordere i:, e: mittlere @ hintere u:, o: gerundet ungerundet Lippenrundung y:, i:, e: Zur Visualisierung (anhand von nur 2 der Kriterien) eignet sich das Vokalviereck Tabelle 1.3.: Klassifikation von Vokalen. Vokalviereck mit deutschen Vokalen Diphtongen vorne hinten vorne hinten hier dünn geschlossen Luft See Hecke Kanne neu ähnlich können Wasser sein Bau o↵en Abbildung 1.9.: Vokalviereck, mit Eintragung aller deutschen Vokale und Diphtonge. Als Ko- ordinaten für eine Darstellung der möglichen Vokale dient hier die Zungen- horiznotallage und Vertikalstellung. Kapitel 1: Einführung 21 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Phonetik... aber das ist nur die deutsche Sprache... Kapitel 1: Einführung 22 / 26 THE INTERNATIONAL PHONETIC ALPHABET (revised to 2015) CONSONANTS (PULMONIC) © 2015 IPA Bilabial Labiodental Dental Alveolar Postalveolar Retroflex Palatal Velar Uvular Pharyngeal Glottal Plosive Nasal Trill Tap or Flap Fricative Lateral fricative Approximant Lateral approximant Symbols to the right in a cell are voiced, to the left are voiceless. Shaded areas denote articulations judged impossible. CONSONANTS (NON-PULMONIC) VOWELS Clicks Voiced implosives Ejectives Front Central Back Close Bilabial Bilabial Examples: Dental Dental/alveolar Bilabial Close-mid (Post)alveolar Palatal Dental/alveolar Palatoalveolar Velar Velar Open-mid Alveolar lateral Uvular Alveolar fricative OTHER SYMBOLS Open Voiceless labial-velar fricative Alveolo-palatal fricatives Where symbols appear in pairs, the one to the right represents a rounded vowel. Voiced labial-velar approximant Voiced alveolar lateral flap Voiced labial-palatal approximant Simultaneous and SUPRASEGMENTALS Voiceless epiglottal fricative Primary stress Affricates and double articulations Voiced epiglottal fricative can be represented by two symbols Secondary stress joined by a tie bar if necessary. Epiglottal plosive Long Half-long DIACRITICS Some diacritics may be placed above a symbol with a descender, e.g. Extra-short Voiceless Breathy voiced Dental Minor (foot) group Voiced Creaky voiced Apical Major (intonation) group Aspirated Linguolabial Laminal Syllable break More rounded Labialized Nasalized Linking (absence of a break) Less rounded Palatalized Nasal release TONES AND WORD ACCENTS Advanced Velarized Lateral release LEVEL CONTOUR Extra Retracted Pharyngealized No audible release or high or Rising Centralized Velarized or pharyngealized High Falling High Mid rising Mid-centralized Raised ( = voiced alveolar fricative) Low Low rising Syllabic Lowered ( = voiced bilabial approximant) Extra Rising- low falling Non-syllabic Advanced Tongue Root Downstep Global rise Rhoticity Retracted Tongue Root Upstep Global fall Typefaces: Doulos SIL (metatext); Doulos SIL, IPA Kiel, IPA LS Uni (symbols) Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Phone vs. Phoneme Phone vs. Phoneme Phone (oder Laute) sind charakterisiert nach Entstehungsart und -ort sind Thema der Phonetik Im Gegensatz dazu sind Phoneme die kleinste bedeutungsunterscheidende Einheit einer spezifischen Sprache und damit Thema der Linguistik. Kapitel 1: Einführung 23 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Festlegung der Phoneme einer Sprache die Suche nach den kleinsten bedeutungsunterscheidenden Einheiten.... Europäischer Strukturalismus: Separierende Vorgehensweise - Minimalpaaranalyse Definition Minimalpaar: “Paare von Worten, die sich nur in einem Laut unterscheiden” Beispiel: “schief” vs. “Schiff” Minimalpaaranalyse: 1 Finde Minimalpaare der Sprache. 2 Diejenigen Laute, die diese Minimalpaare unterscheiden, bilden separate Phoneme. Kapitel 1: Einführung 24 / 26 Organisatorisches Motivation & Intro Spracherzeugung und Phonetik Festlegung der Phoneme einer Sprache die Suche nach den kleinsten bedeutungsunterscheidenden Einheiten.... Amerikanischer Strukturalismus: Zusammenfügende Vorgehensweise Prinzip: 1 Starte mit allen Lauten der Sprache als potentiellem Phonem-Set. 2 Füge all diejenigen Laute zu einem Phonem zusammen, die in komplementärer Distribution stehen (die also nie im selben akustischen Kontext auftauchen) und die mindestens eine Gemeinsamkeit haben, die sie von allen anderen Lauten unterscheidet. Kapitel 1: Einführung 25 / 26

ASE-VL1 Vorlesungsunterlagen PDF

Document Details

Tags

Related

Summary

Full Transcript