ASE-VL5 PDF - Grundlagen der automatischen Spracherkennung
Document Details
Uploaded by BenevolentPerception2174
Technische Universität Berlin
2024
Dorothea Kolossa
Tags
Summary
This document is a lecture on automatic speech recognition. It covers the concept of cepstrum and its applications in speech analysis. The document includes mathematical formulas and diagrams to illustrate the topics.
Full Transcript
Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Grundlagen der automatischen Spracherkennung Kapitel 5: Cepstrum...
Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Grundlagen der automatischen Spracherkennung Kapitel 5: Cepstrum Prof. Dr.-Ing. Dorothea Kolossa November 19, 2024 FG Elektronische Systeme der Medizintechnik (mtec) Kapitel 5: Cepstrum 1 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Anforderungen 1 Starke Korrelation mit phonetischem Inhalt 2 Wenig Redundanz: kurze Merkmalsvektoren wenige Merkmalsvektoren 3 Wenig Irrelevanz: sprecherunabhängig stimmungsunabhängig intonationsunabhängig raumunabhängig nur wahrnehmbare Signalanteile Kapitel 5: Cepstrum 1 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Outline 1 Cepstrum 2 Sprachanalyse 3 Grundfrequenz- & Raumunabhängigkeit 4 Merkmale Kapitel 5: Cepstrum 2 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Analytische Parameterberechnung Zeitbereichssignal x(k, τ) ggf.Zeitbereichs- featureanalyse Optimierungsmöglichkeit: Features o(τ) Zeit- Frequenzanalyse Dimensions- reduktion Cepstral- analyse Vektor- quantisierung Berech- nung δ oq(τ) der Ablei- δ tungen Features o(τ)‘ Kapitel 5: Cepstrum 2 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Cepstralanalyse Problem: Mehrwegeempfang x (t ) = s (t ) + ↵ · s (t t 0) = s (t ) ⇤ ( (t ) + ↵ · (t t 0 )) ⇣ 0⌘ X (jf ) = S (jf ) · 1 + ↵ · e j2⇡ft 2 ⇣ 0⌘ ⇣ 0⌘ X (jf ) = S (jf ) · S (jf )⇤ · 1 + ↵ · e j2⇡ft · 1 + ↵ · e +j2⇡ft ✓ ◆ 2 0 0 = S (jf ) · 1 + ↵ · e j2⇡ft + ↵ · e +j2⇡ft +↵2 | {z } e jx +e jx =2 cos x 2 ⇣ ⌘ = S (jf ) · 2↵ · cos 2⇡ft 0 + 1 + ↵2 Kapitel 5: Cepstrum 3 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Cepstralanalyse ⇣ ⌘ log |X (jf )|2 = log |S (jf )|2 + log 1 + ↵2 + 2↵ cos(2⇡ft 0 ) | {z } | {z } Quellsignal ⇡ Cossignal log |X(jf )|2 Cossignal log |S(jf )|2 f 1 2 Komplexes Spektrum t0 t0 1 ! “Schwingung” im Frequenzbereich hat Periodendauer = t0 ! “Frequenz” = t 0 = “Quefrenz” Kapitel 5: Cepstrum 4 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Cepstralanalyse (a) 4 Spektrum von s(t) Spektrum von s(t) + 0.3s(t 3) S(⌦N ) 2 0 0 100 200 300 400 500 600 700 800 900 1,000 1,100 1,200 ⌦N (b) 5 Cepstrum von s(t) Cepstrum von s(t) + 0.3s(t 3) scep (⌧ ) 0 5 0 50 100 150 200 250 300 350 400 450 500 550 600 ⌧ (c) 5 Cepstrum von s(t) Cepstrum von s(t) + 0.3s(t 3) scep (⌧ ) 0 5 0 2 4 6 8 10 12 14 16 18 20 ⌧ Kapitel 5: Cepstrum 5 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Definition 1 des Cepstrums n o Xcep (t 0 ) = DFT log XDFT (n) NDFT X1 0n j N2⇡t = log XDFT (n) e DFT n =0 Aber: log XDFT (n) ist symmetrisch! NDFT X1 ✓ 2⇡t 0 n 2⇡t 0 n ◆ 0 Xcep (t ) = log XDFT (n) · cos j sin NDFT NDFT n =0 | {z } Summe wird 0 Kapitel 5: Cepstrum 6 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Diskrete Cosinustransformation 8 > für n = 0 · · · N 1 Definition: X (n) = > > :X 1 (2N n 1) , für n = N · · · 2N 1 2 X 12 (n) für N = 3 X(n) n 1 2 3 4 5 ⇣ ⌘ ⇣ ⇣ ⌘⌘ 1 ! Es lässt sich zeigen: DCTII X 1 (n) = DFT X n 2 2 Kapitel 5: Cepstrum 7 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Definition 2 des Cepstrums ✓ ◆ 0 Xcep (t ) = DCTII log X 1 (n) 2 mit X 1 (n) = XDFT (n) , für n = 0 · · · N /2 1 2 N 2 1 ✓ 0 X (2n + 1)t 0 ⇡ ◆ ! Xcep (t ) = 2 log X 1 (n) · cos n =0 2 N Kapitel 5: Cepstrum 8 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Outline 1 Cepstrum 2 Sprachanalyse 3 Grundfrequenz- & Raumunabhängigkeit 4 Merkmale Kapitel 5: Cepstrum 9 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Sprachsignalanalyse Sprachsignal modellierbar als zeitverzögerte Überlagerung aus drei Gründen: 1 Grundperiode bleibt für einige Zeit ähnlich sG (t) sA (t ) ⇡ sG (t ) ⇤ T0 = sG (t ) + sG (t T0 ) + sG (t 2T0 ) t T0 T0 Kapitel 5: Cepstrum 10 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Sprachsignalanalyse Sprachsignal modellierbar als zeitverzögerte Überlagerung aus drei Gründen: 1 Grundperiode bleibt für einige Zeit ähnlich 2 Übertragungsfunktion Vokaltrakt 3 Übertragungsfunktion Raum x ( t ) = s ( t ) ⇤ hR ( t ) M X = s (t t 0 ) · hR ( t 0 ) t 0 =0 Kapitel 5: Cepstrum 10 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Sprachsignalanalyse Sprachsignal modellierbar als zeitverzögerte Überlagerung aus drei Gründen: 1 Grundperiode bleibt für einige Zeit ähnlich 2 Übertragungsfunktion Vokaltrakt 3 Übertragungsfunktion Raum interessant für interessant für Prosodie Spracherkennung uninteressant sA (t) s(t) sG (t) T0 hv hR x(t) 1,7 ms t0 25 ms t0 < 1,5 ms schnell zeitvariant etwa stationär Kapitel 5: Cepstrum 10 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Möglichkeiten des Cepstrums Das Cepstrum ermöglicht es uns nun, diese drei Komponenten des Signals: Grundfrequenz Vokaltraktübertragungsfunktion und Raumübertragungsfunktion zu trennen, und so genau die für uns interessanten Aspekte des Sprachsignals zu isolieren. Kapitel 5: Cepstrum 11 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Outline 1 Cepstrum 2 Sprachanalyse 3 Grundfrequenz- & Raumunabhängigkeit 4 Merkmale Kapitel 5: Cepstrum 12 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Sprachsignalanalyse Segment-Cepstrum mit Markierungs-Linien bei k/GF interessant für 20 Spracherkennung 15 Cepstrum 10 interessant für Grundfrequenz 5 0 T0 2T 0 3T0 4T0 5T0 0 0,01 0,02 0,03 0,04 0,05 Time Delay [s] 1,5 ms > 1,7 ms Kapitel 5: Cepstrum 13 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Kompensation der Raumimpulsantwort x ( t ) = s ( t ) ⇤ hR ( t ) |DFT | |X (j !)| = |S (j !)| · |HR (j !)| log log |X (j !)| = log |S (j !)| + log |HR (j !)| DCT DCT log |X (j !)| = DCT log |S (j !)| + DCT log |HR (j !)| Def. xcep (t 0 ) = scep (t 0 ) + hRcep (t 0 ) ! “Signalmodell” | {z } | {z } variabel mit der Zeit ⇡ konstant Kapitel 5: Cepstrum 14 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Kompensation der Raumimpulsantwort Signalmodell mit Rahmenindex xcep (t 0 , ⌧) ⇡ scep (t 0 , ⌧) + hRcep (t 0 , ⌧) ⇣ ⌘ E⌧ (xcep (t 0 , ⌧)) ⇡ E⌧ (scep (t 0 , ⌧)) + E⌧ hRcep (t 0 , ⌧) ⇡ 0 + hRcep (t 0 ) Sprachsignal und Raumimpulsantwort additiv ! Idee: Cepstrale Mittelwertsubtraktion, aka Cepstral Mean Subtraction (CMS) o (t 0 , ⌧) = xcep (t 0 , ⌧) E⌧ (xcep (t 0 , ⌧)) ⇡ scep (t 0 , ⌧) o(⌧) gut geeignet als Merkmalsvektor in Spracherkennung. Kapitel 5: Cepstrum 15 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Alternative zur CMS Zeitliche Ableitungen: xcep (t 0 , ⌧ + 1) xcep (t 0 , ⌧ 1) xcep (t 0 , ⌧) = 2 scep (t 0 , ⌧ + 1) scep (t 0 , ⌧ 1) + hcep (t 0 , ⌧ + 1) hcep (t 0 , ⌧ 1) ⇡ 2 1 ⇡ · (scep (t 0 , ⌧ + 1) scep (t 0 , ⌧ 1)) 2 = scep (t 0 , ⌧) Analog kann auch die zweite zeitliche Ableitung gebildet werden, die natürlich genauso unabhängig von der Raumimpulsantwort ist. Kapitel 5: Cepstrum 16 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Konstruktion des Merkmalsvektors Durch Konkatenation von Cepstrum und zeitlichen Ableitungen erhält man so einen Merkmalsvektor, der mindestens in Teilen raumunabhängig ist: 13 Merkmale 13 Merkmale 13 Merkmale raumabhängig raumunabhängig raumunabhängig xcep (t0 , ⌧ ) xcep (t0 , ⌧ ) xcep (t0 , ⌧ ) Hier ist also der Merkmalsvektor o(⌧) = [xcep (⌧), xcep (⌧), xcep (⌧)] Kapitel 5: Cepstrum 17 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Mel-Frequenz-Cepstralkoeffizienten Wird in der Berechnung des Cepstrums nicht das lineare Spektrum sondern das Mel-Spektrum verwendet, bezeichnet man die Merkmale als Mel-Frequenz-Cepstralkoeffizienten (MFCC): ✓ ⇢ ◆ xcep (⌧) = DCT log xMel (⌧) Die Konstruktion des Merkmalsvektors bleibt gleich: 13 Merkmale 13 Merkmale 13 Merkmale raumabhängig raumunabhängig raumunabhängig xcep (t0 , ⌧ ) xcep (t0 , ⌧ ) xcep (t0 , ⌧ ) Kapitel 5: Cepstrum 18 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Outline 1 Cepstrum 2 Sprachanalyse 3 Grundfrequenz- & Raumunabhängigkeit 4 Merkmale Kapitel 5: Cepstrum 19 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Beitrag der Verarbeitungsstufen [HAH01] Features Relative Fehlerratenreduktion Linear Predictive Coding (LPC) 13ter Ordnung Baseline # # MFCC 13ter Ordnung 10% # # MFCC 16ter Ordnung 0% # # ter MFCC 13 Ordnung + + 20% # # MFCC 13ter Ordnung + + + 0% Kapitel 5: Cepstrum 24 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Analytische Parameterberechnung Zeitbereichssignal x(k, τ) ggf.Zeitbereichs- featureanalyse Optimierungsmöglichkeit: Features o(τ) Zeit- Frequenzanalyse Dimensions- reduktion Cepstral- analyse Vektor- quantisierung Berech- nung δ oq(τ) der Ablei- δ tungen Features o(τ)‘ Kapitel 5: Cepstrum 24 / 30 Cepstrum Sprachanalyse Grundfrequenz- & Raumunabhängigkeit Merkmale Anforderungen 1 Starke Korrelation mit phonetischem Inhalt 2 Wenig Redundanz: kurze Merkmalsvektoren wenige Merkmalsvektoren 3 Wenig Irrelevanz: Durch Trennung des Signals in Vokaltrakt-Übertragungsfunktion, Anregungssignal und Raum-Übertragungsfunktion, sind wir weitgehend sprecherunabhängig stimmungsunabhängig intonationsunabhängig raumunabhängig mit Mel-Filterbank Konzentration auf wahrnehmbare Signalanteile Kapitel 5: Cepstrum 29 / 30