Einführung Merkmalsextraktion (PDF)
Document Details
Uploaded by BenevolentPerception2174
Technische Universität Berlin
2024
Dorothea Kolossa
Tags
Summary
This document introduces feature extraction for speech recognition, focusing on time-and frequency-domain analysis. It details requirements for robust features, including variations among speakers (intra/inter speaker variability). The document also presents examples and an overview of the process flow.
Full Transcript
Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Grundlagen der automatischen Spracherkennung Kapitel 3: Merkmale im Zeit- und Frequenzbereich Prof. Dr.-Ing. Dorothea Kolossa...
Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Grundlagen der automatischen Spracherkennung Kapitel 3: Merkmale im Zeit- und Frequenzbereich Prof. Dr.-Ing. Dorothea Kolossa November 12, 2024 FG Elektronische Systeme der Medizintechnik (mtec) Kapitel 3: Merkmale im Zeit- und Frequenzbereich 1 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Outline 1 Einführung Merkmalsextraktion 2 Zeitbereich 3 Frequenzbereich Kapitel 3: Merkmale im Zeit- und Frequenzbereich 1 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Anforderungen 1 Starke Korrelation mit phonetischem Inhalt 2 Reduktion von: Intrasprechervariabilität Intersprechervariabilität nicht wahrnehmbaren Signalanteilen Stimmungs- und Intonationsabhängigkeiten Raumabhängigkeiten Kapitel 3: Merkmale im Zeit- und Frequenzbereich 2 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Anforderungen 1 Starke Korrelation mit phonetischem Inhalt 2 Reduktion von: Intrasprechervariabilität Intersprechervariabilität nicht wahrnehmbaren Signalanteilen Stimmungs- und Intonationsabhängigkeiten Raumabhängigkeiten Kapitel 3: Merkmale im Zeit- und Frequenzbereich 2 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Anforderungen 1 Starke Korrelation mit phonetischem Inhalt 2 Reduktion von: Intrasprechervariabilität Intersprechervariabilität nicht wahrnehmbaren Signalanteilen Stimmungs- und Intonationsabhängigkeiten Raumabhängigkeiten Thema dieser beiden Vorlesungen Kapitel 3: Merkmale im Zeit- und Frequenzbereich 3 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Intrasprechervariabilität Variation der Aussprache bei dem selben Sprecher. Beispiel: Kapitel 3: Merkmale im Zeit- und Frequenzbereich 4 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Intrasprechervariabilität Variation der Aussprache bei dem selben Sprecher. Beispiel: Kapitel 3: Merkmale im Zeit- und Frequenzbereich 4 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Intrasprechervariabilität Variation der Aussprache bei dem selben Sprecher. Beispiel: Kapitel 3: Merkmale im Zeit- und Frequenzbereich 4 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Interprechervariabilität Variation der Aussprache bei dem selben Sprecher. Kapitel 3: Merkmale im Zeit- und Frequenzbereich 5 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Interprechervariabilität Variation der Aussprache bei dem selben Sprecher. Kapitel 3: Merkmale im Zeit- und Frequenzbereich 5 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Interprechervariabilität Variation der Aussprache bei dem selben Sprecher. Kapitel 3: Merkmale im Zeit- und Frequenzbereich 5 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Interprechervariabilität Variation der Aussprache bei dem selben Sprecher. Schon etwas besser Kapitel 3: Merkmale im Zeit- und Frequenzbereich 5 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Intersprechervariabilität Variation der Aussprache zwischen Sprechern. Beispiel: Kapitel 3: Merkmale im Zeit- und Frequenzbereich 6 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Intersprechervariabilität Variation der Aussprache zwischen Sprechern. Beispiel: ’Seven’, Sprecher AR, Version 1 2000 1000 0 −1000 −2000 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 ’Seven’, Sprecher AR, Version 1 1 0.8 Frequenz 0.6 0.4 0.2 0 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 Sample Kapitel 3: Merkmale im Zeit- und Frequenzbereich 6 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Intersprechervariabilität Variation der Aussprache zwischen Sprechern. Beispiel: ’Seven’, Sprecher AR, Version 1 ’Seven’, Sprecher GA 2000 4000 1000 2000 0 0 −1000 −2000 −2000 −4000 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 0.2 0.4 0.6 0.8 1 ’Seven’, Sprecher AR, Version 1 ’Seven’, Sprecher GA 1 1 0.8 0.8 Frequenz 0.6 Frequenz 0.6 0.4 0.4 0.2 0.2 0 0 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 0 2000 4000 6000 8000 10000 Sample Sample Kapitel 3: Merkmale im Zeit- und Frequenzbereich 6 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Intersprechervariabilität Variation der Aussprache zwischen Sprechern. Beispiel: ’Seven’, Sprecher AR, Version 1 ’Seven’, Sprecher GA 2000 4000 1000 2000 0 0 −1000 −2000 −2000 −4000 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 0.2 0.4 0.6 0.8 1 ’Seven’, Sprecher AR, Version 1 ’Seven’, Sprecher GA 1 1 0.8 0.8 Frequenz 0.6 Frequenz 0.6 0.4 0.4 0.2 0.2 0 0 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 0 2000 4000 6000 8000 10000 Sample Sample → Neue Ansätze nötig - MFCC als ein Beispiel Kapitel 3: Merkmale im Zeit- und Frequenzbereich 6 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich 7.1. GESAMTSTRUKTUR Merkmalsextraktion Den Ablauf der typischen Vorgehensweise zur Feature Extraction zeigt Abbildung 7.1. Sprachsignal s(t).G Ts * G 1/Ts Abtastung s(k) t f ! Ts Fs > Fmax. 2 Quantisierung Voice Activity Anforderung bei VAD: Detection Entscheidung sollte immer zugunsten des Sprachsignals fallen. Preemphase sin - sout Parameter- a T berechnung Features x(W) Abbildung 7.1.: Signalflussplan der Feature Extraction. Kapitel 3: Merkmale im Zeit- und Frequenzbereich 7 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Merkmalsextraktion Sprachsignal s(t). * Ts 1/Ts Abtastung s(k) t Fs f ! Fs > Fmax. 2 Quantisierung Voice Activity Anforderung bei VAD: Detection Entscheidung sollte immer zugunsten des Sprachsignals fallen. Preemphase sin - sout Framing a T Parameter- berechnung Features x(τ) Kapitel 3: Merkmale im Zeit- und Frequenzbereich 8 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Merkmalsextraktion Kapitel 3: Merkmale im Zeit- und Frequenzbereich 8 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Quantisierung (I) Aufgabe der Quantisierung Darstellung des reellen Eingangssignals mit endlicher, fester Wortbreite. Es existieren viele Varianten der Quantisierung (sog. Quantisierungskennlinien). Bei uns wichtig: Linearität. Einfache Option: Gleichmäßige Quantisierung der Form 2 · smax ∆= 2w smax falls s ≥ smax falls s ≤ −smax sq = −smax ∆ · round s sonst ∆ Kapitel 3: Merkmale im Zeit- und Frequenzbereich 9 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Quantisierung (I) Aufgabe der Quantisierung Darstellung des reellen Eingangssignals mit endlicher, fester Wortbreite. Es existieren viele Varianten der Quantisierung (sog. Quantisierungskennlinien). Bei uns wichtig: Linearität. Einfache Option: Gleichmäßige Quantisierung der Form 2 · smax ∆= 2w smax falls s ≥ smax falls s ≤ −smax sq = −smax ∆ · round s sonst ∆ Kapitel 3: Merkmale im Zeit- und Frequenzbereich 9 / 41 Bezüglich Einführung der Quantisierungskennlinie kann man zwischen Mid-Tread und Mid-Rise Quan- Merkmalsextraktion tisierungskennlinien wählen, welche beide in Abbildung 7.2 gezeigt sind.1 In beiden Fällen Zeitbereich treten zwei Arten von Fehler auf: zum einen das Quantisierungsrauschen innerhalb und zum Frequenzbereich andern die Überlastungsfehler außerhalb des Arbeitsbereiches. Dies veranschaulicht Abbil- dung 7.3. Wie man erkennen kann, wird der Einfluss des Überlastungsrauschens auf den Quantisierung (II) Kennlinie: sq(k)=f(s(k)) s(k) sq(k) 2 Entscheidungen sind zu treffen: sq(k) Aussteuergrenze smax s(k) Wortbreite w ' sq(k) smax der Quantisierung. s(k) s(k) s(k) E Dazu nötig: Analyse der Fehler, die durch Quantisierung Mid-Rise Mid-Tread entstehen symmetrisch asymmetrisch können. auch leises Rauschen wird Signal konstant null übertragen bei kleiner Amplitude Abbildung 7.2.: Ausschnitte aus den Kennlinien von Mid-Rise- und Mid-Tread-Quantisierern. Gesamtfehler größer, wenn der Maximalpegel smax kleiner wird. Andererseits sinkt der Ein- fluss des Quantisierungsrauschens Kapitelinnerhalb desimArbeitsbereiches 3: Merkmale stetig mit sinkendem Zeit- und Frequenzbereich 10 / 41 smax , Bezüglich Einführung der Quantisierungskennlinie kann man zwischen Mid-Tread und Mid-Rise Quan- Merkmalsextraktion tisierungskennlinien wählen, welche beide in Abbildung 7.2 gezeigt sind.1 In beiden Fällen Zeitbereich treten zwei Arten von Fehler auf: zum einen das Quantisierungsrauschen innerhalb und zum Frequenzbereich andern die Überlastungsfehler außerhalb des Arbeitsbereiches. Dies veranschaulicht Abbil- dung 7.3. Wie man erkennen kann, wird der Einfluss des Überlastungsrauschens auf den Quantisierung (II) Kennlinie: sq(k)=f(s(k)) s(k) sq(k) 2 Entscheidungen sind zu treffen: sq(k) Aussteuergrenze smax s(k) Wortbreite w ' sq(k) smax der Quantisierung. s(k) s(k) s(k) E Dazu nötig: Analyse der Fehler, die durch Quantisierung Mid-Rise Mid-Tread entstehen symmetrisch asymmetrisch können. auch leises Rauschen wird Signal konstant null übertragen bei kleiner Amplitude Abbildung 7.2.: Ausschnitte aus den Kennlinien von Mid-Rise- und Mid-Tread-Quantisierern. Gesamtfehler größer, wenn der Maximalpegel smax kleiner wird. Andererseits sinkt der Ein- fluss des Quantisierungsrauschens Kapitelinnerhalb desimArbeitsbereiches 3: Merkmale stetig mit sinkendem Zeit- und Frequenzbereich 10 / 41 smax , Bezüglich Einführung der Quantisierungskennlinie kann man zwischen Mid-Tread und Mid-Rise Quan- Merkmalsextraktion tisierungskennlinien wählen, welche beide in Abbildung 7.2 gezeigt sind.1 In beiden Fällen Zeitbereich treten zwei Arten von Fehler auf: zum einen das Quantisierungsrauschen innerhalb und zum Frequenzbereich andern die Überlastungsfehler außerhalb des Arbeitsbereiches. Dies veranschaulicht Abbil- dung 7.3. Wie man erkennen kann, wird der Einfluss des Überlastungsrauschens auf den Quantisierung (III) Kennlinie: sq(k)=f(s(k)) s(k) sq(k) Überlastungs- sq(k) sq(k) rauschen E s(k) ' Δ smax sq(k) smax s(k) s(k) s(k) -smax s(k) E Mid-Rise Mid-Tread symmetrisch asymmetrisch auch leises Rauschen wird Signal konstant null übertragen bei kleiner Amplitude Abbildung s(k)7.2.: Ausschnitte aus den Kennlinien von Mid-Rise- und Mid-Tread-Quantisierern. Quantisierungsrauschen Überlastungs- rauschen Gesamtfehler größer, wenn der Maximalpegel smax kleiner wird. Andererseits sinkt der Ein- fluss des Quantisierungsrauschens Kapitelinnerhalb desimArbeitsbereiches 3: Merkmale stetig mit sinkendem Zeit- und Frequenzbereich 11 / 41 smax , Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Quantisierung (V) Anforderungen in der Spracherkennung Kein Clipping gleichzeitig möglichst geringes Quantisierungsrauschen Was ein guter Trade-off ist, ergibt sich aus der Verteilungsdichtefunktion der Sprachamplituden Kapitel 3: Merkmale im Zeit- und Frequenzbereich 12 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Quantisierung (V) Anforderungen in der Spracherkennung Kein Clipping gleichzeitig möglichst geringes Quantisierungsrauschen Was ein guter Trade-off ist, ergibt sich aus der Verteilungsdichtefunktion der Sprachamplituden Kapitel 3: Merkmale im Zeit- und Frequenzbereich 12 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Quantisierung (V) Anforderungen in der Spracherkennung Kein Clipping gleichzeitig möglichst geringes Quantisierungsrauschen Was ein guter Trade-off ist, sergibt Wahl von sich aus der max für Sprachquantisierung Verteilungsdichtefunktion der Sprachamplituden ps(s) sx s Kapitel 3: Merkmale im Zeit- und Frequenzbereich 12 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Quantisierung (V) Anforderungen in der Spracherkennung Kein Clipping gleichzeitig möglichst geringes Quantisierungsrauschen Was ein guter Trade-off ist, sergibt Wahl von sich aus der max für Sprachquantisierung Verteilungsdichtefunktion der Sprachamplituden ps(s) sx s smax= 4sx Kapitel 3: Merkmale im Zeit- und Frequenzbereich 13 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Quantisierung (V) Anforderungen in der Spracherkennung Kein Clipping gleichzeitig möglichst geringes Quantisierungsrauschen Was ein guter Trade-off Wahl ist, ergibt von smax sich aus der für Sprachquantisierung Verteilungsdichtefunktion der Sprachamplituden ps(s) sx s smax= 4sx Bei smax = 4σx tritt Clipping nur für 0,35% der Samples auf → häufige Wahl zur Quantisierung. Kapitel 3: Merkmale im Zeit- und Frequenzbereich 14 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Quantisierung (V) Anforderungen in der Spracherkennung Kein Clipping gleichzeitig möglichst geringes Quantisierungsrauschen Mit Wahl von smax = 4σx lässt sich nun das resultierende Quantisierungs-SNR berechnen: ! smax SNRquant ≈ 6, 02w + 4, 77 − 20 log10 σx Dabei ist w die Wortbreite in Bit. Absolutes Minimum: w = 12 liefert ein SNR von ca. 65dB. Kapitel 3: Merkmale im Zeit- und Frequenzbereich 15 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Quantisierung (V) Anforderungen in der Spracherkennung Kein Clipping gleichzeitig möglichst geringes Quantisierungsrauschen Mit Wahl von smax = 4σx lässt sich nun das resultierende Quantisierungs-SNR berechnen: ! smax SNRquant ≈ 6, 02w + 4, 77 − 20 log10 σx Dabei ist w die Wortbreite in Bit. Absolutes Minimum: w = 12 liefert ein SNR von ca. 65dB. Kapitel 3: Merkmale im Zeit- und Frequenzbereich 15 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Quantisierung (V) Anforderungen in der Spracherkennung Kein Clipping gleichzeitig möglichst geringes Quantisierungsrauschen Mit Wahl von smax = 4σx lässt sich nun das resultierende Quantisierungs-SNR berechnen: ! smax SNRquant ≈ 6, 02w + 4, 77 − 20 log10 σx Dabei ist w die Wortbreite in Bit. Absolutes Minimum: w = 12 liefert ein SNR von ca. 65dB. Kapitel 3: Merkmale im Zeit- und Frequenzbereich 15 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Merkmalsextraktion Kapitel 3: Merkmale im Zeit- und Frequenzbereich 15 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Merkmalsextraktion Kapitel 3: Merkmale im Zeit- und Frequenzbereich 15 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Sprachleistungsdichtespektrum Aufgabe der Preemphase: Betonung der höheren Frequenzanteile, z.B. durch einfaches Hochpassfilter. 5 Vier gemittelte männliche Sprachsignale Vier gemittelte weibliche Sprachsignale 0 Leistungsdichtespektrum [dB] −5 −10 −15 −20 −25 0 1 2 3 4 5 6 7 8 Frequenz [kHz] Kapitel 3: Merkmale im Zeit- und Frequenzbereich 16 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Merkmalsextraktion Kapitel 3: Merkmale im Zeit- und Frequenzbereich 16 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Framing Kapitel 3: Merkmale im Zeit- und Frequenzbereich 17 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Merkmalsextraktion Kapitel 3: Merkmale im Zeit- und Frequenzbereich 17 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Parameterberechnung sehr viele Varianten und Versionen, aber 2 grundsätzliche Alternativen Kapitel 3: Merkmale im Zeit- und Frequenzbereich 18 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Parameterberechnung 2 grundsätzliche Alternativen Analytische Berechnung Neuronale Berechnung Definierte Funktion Automatisch gelernt Optimal f. kleine/mittlere Geeignet f. große Datenmengen Datenmengen Geradlinige Großer Trainingsaufwand Implementierung Flexibel einsetzbar: Optimal angepasst für gewählten Task Spracherkennung Sprechererkennung Emotionserkennung technische Diagnose ⇒ Hier: Variante 1, analytische Berechnung Kapitel 3: Merkmale im Zeit- und Frequenzbereich 19 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Parameterberechnung 2 grundsätzliche Alternativen Analytische Berechnung Neuronale Berechnung Definierte Funktion Automatisch gelernt Optimal f. kleine/mittlere Geeignet f. große Datenmengen Datenmengen Geradlinige Großer Trainingsaufwand Implementierung Flexibel einsetzbar: Optimal angepasst für gewählten Task Spracherkennung Sprechererkennung Emotionserkennung technische Diagnose ⇒ Hier: Variante 1, analytische Berechnung Kapitel 3: Merkmale im Zeit- und Frequenzbereich 19 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Parameterberechnung 2 grundsätzliche Alternativen Analytische Berechnung Neuronale Berechnung Definierte Funktion Automatisch gelernt Optimal f. kleine/mittlere Geeignet f. große Datenmengen Datenmengen Geradlinige Großer Trainingsaufwand Implementierung Flexibel einsetzbar: Optimal angepasst für gewählten Task Spracherkennung Sprechererkennung Emotionserkennung technische Diagnose ⇒ Hier: Variante 1, analytische Berechnung Kapitel 3: Merkmale im Zeit- und Frequenzbereich 19 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Parameterberechnung 2 grundsätzliche Alternativen Analytische Berechnung Neuronale Berechnung Definierte Funktion Automatisch gelernt Optimal f. kleine/mittlere Geeignet f. große Datenmengen Datenmengen Geradlinige Großer Trainingsaufwand Implementierung Flexibel einsetzbar: Optimal angepasst für gewählten Task Spracherkennung Sprechererkennung Emotionserkennung technische Diagnose ⇒ Hier: Variante 1, analytische Berechnung Kapitel 3: Merkmale im Zeit- und Frequenzbereich 19 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Analytische Parameterberechnung Zeitbereichssignal x(k, τ) ggf.Zeitbereichs- featureanalyse Optimierungsmöglichkeit: Features x(τ) Zeit- Frequenzanalyse Dimensions- reduktion Cepstral- analyse Vektor- quantisierung Berech- nung δ xq(τ) der Ablei- δ tungen Features x(τ)‘ Kapitel 3: Merkmale im Zeit- und Frequenzbereich 20 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Analytische Parameterberechnung Zeitbereichssignal x(k, τ) ggf.Zeitbereichs- featureanalyse Optimierungsmöglichkeit: Features x(τ) Zeit- Frequenzanalyse Dimensions- reduktion Cepstral- analyse Vektor- quantisierung Berech- nung δ xq(τ) der Ablei- δ tungen Features x(τ)‘ Kapitel 3: Merkmale im Zeit- und Frequenzbereich 20 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Outline 1 Einführung Merkmalsextraktion 2 Zeitbereich 3 Frequenzbereich Kapitel 3: Merkmale im Zeit- und Frequenzbereich 21 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Merkmale im Zeitbereich PN −1 Energie: E (τ) = k =0 x (k , τ)2 Grundfrequenz f0 : Kapitel 3: Merkmale im Zeit- und Frequenzbereich 22 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Merkmale im Zeitbereich PN −1 Energie: E (τ) = k =0 x (k , τ)2 Grundfrequenz f0 : Kapitel 3: Merkmale im Zeit- und Frequenzbereich 22 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Merkmale im Zeitbereich PN −1 Energie: E (τ) = k =0 x (k , τ)2 Grundfrequenz f0 : Bestimmung z.B. durch Autokorrelationsfunktion oder Cepstralanalyse Nutzung der geschätzten Grundfrequenz: Spracherkennung tonaler Sprachen Prosodieerkennung (syntaktische und emotionale Nebeninformationen) Kapitel 3: Merkmale im Zeit- und Frequenzbereich 23 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Outline 1 Einführung Merkmalsextraktion 2 Zeitbereich 3 Frequenzbereich Kapitel 3: Merkmale im Zeit- und Frequenzbereich 24 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Analytische Parameterberechnung Zeitbereichssignal x(k, τ) ggf.Zeitbereichs- featureanalyse Optimierungsmöglichkeit: Features x(τ) Zeit- Frequenzanalyse Dimensions- reduktion Cepstral- analyse Vektor- quantisierung Berech- nung δ xq(τ) der Ablei- δ tungen Features x(τ)‘ Kapitel 3: Merkmale im Zeit- und Frequenzbereich 24 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Merkmale im Frequenzbereich Merkmalsextraktion: Kurzzeit-Fouriertransformation Kapitel 3: Merkmale im Zeit- und Frequenzbereich 25 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Merkmale im Frequenzbereich Merkmalsextraktion: Kurzzeit-Fouriertransformation x (k , τ) Fensterung xω (k , τ) = x (k , τ) · ω(k ) DFT P N −1 kn xDFT (n, τ) = k =0 xω (k , τ) · e −j2π N | | |xDFT (n, τ)| Mel-Filterbank Kapitel 3: Merkmale im Zeit- und Frequenzbereich 25 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Figure: Vier Klassen der Fourier-Transformation, aus R. A. Roberts and C. T. Mullis: Digital Signal Processing, Addison Wesley, 1987 Kapitel 3: Merkmale im Zeit- und Frequenzbereich 26 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Was zeigt die y-Achse des Spektrogramms? Die DFT ist ’einfach’ die Abtastung der DTFT (der Fouriertransformation für abgetastete Signale). Dabei werden die Frequenzen äquidistant gewählt. Fouriertrafo reeller, abgetasteter Signale: Interessant von 0 bis zur halben Abtastfrequenz, Fs /2. DFT zeigt nur diskrete Frequenzen (Frequenzstützstellen.) Fouriertrafo DFT f =0 n=0 f = Fs /2 n = N /2 Fs f = 0... 2 n = 0, 1,... N /2 Table: Frequenzachse bei Fouriertransformation vs. DFT. Kapitel 3: Merkmale im Zeit- und Frequenzbereich 27 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Was zeigt die y-Achse des Spektrogramms? Die DFT ist ’einfach’ die Abtastung der DTFT (der Fouriertransformation für abgetastete Signale). Dabei werden die Frequenzen äquidistant gewählt. Fouriertrafo reeller, abgetasteter Signale: Interessant von 0 bis zur halben Abtastfrequenz, Fs /2. DFT zeigt nur diskrete Frequenzen (Frequenzstützstellen.) Fouriertrafo Normierte Kreisfrequenz DFT f =0 Ω0 = 0 n=0 f = Fs /2 Ω N /2 = π n = N /2 Fs 2π n f = 0... 2 Ωn = N n = 0, 1,... N /2 Table: Frequenzachse bei Fouriertransformation vs. DFT. 2π Normierte Kreisfrequenz: Ω = f · Fs Kapitel 3: Merkmale im Zeit- und Frequenzbereich 27 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterfunktion Definition Das Transformationspaar w (t ) W (j ω) stellt eine Fensterfunktion dar genau dann, wenn w (t ) reell ist, w (t ) symmetrisch ist, w (t ) nur auf einem begrenzten Bereich ungleich Null ist, 1 ∞ R w normalisiert ist, also 2π −∞ W (j ω)dω = 1 und W (j ω) schmalbandig ist. Kapitel 3: Merkmale im Zeit- und Frequenzbereich 28 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterfunktion Fensterung im Zeitbereich: xw (k ) = x (k ) · w (k ), xw (k ) ist das gefensterte Zeitsignal. Fensterung im Zeitbereich entspricht im Frequenzbereich einer Faltung mit der fouriertransformierten Fensterfunktion: Xw (Ω) = X (Ω) ∗ W (Ω). Kapitel 3: Merkmale im Zeit- und Frequenzbereich 29 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterfunktion Fensterung im Zeitbereich: xw (k ) = x (k ) · w (k ), xw (k ) ist das gefensterte Zeitsignal. Fensterung im Zeitbereich entspricht im Frequenzbereich einer Faltung mit der fouriertransformierten Fensterfunktion: Xw (Ω) = X (Ω) ∗ W (Ω). Kapitel 3: Merkmale im Zeit- und Frequenzbereich 29 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterfunktion Xw (Ω) = X (Ω) ∗ W (Ω). Faltungsoperator ausgeschrieben: Z ∞ Xw (Ω) = X (Ω′ )W (Ω − Ω′ )dΩ′. −∞ Für Frequenzstützstelle Ωn ergibt sich Z ∞ Xw (Ωn ) = X (Ω′ )W (Ωn − Ω′ )dΩ′. −∞ Kapitel 3: Merkmale im Zeit- und Frequenzbereich 30 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterfunktion Xw (Ω) = X (Ω) ∗ W (Ω). Faltungsoperator ausgeschrieben: Z ∞ Xw (Ω) = X (Ω′ )W (Ω − Ω′ )dΩ′. −∞ Für Frequenzstützstelle Ωn ergibt sich Z ∞ Xw (Ωn ) = X (Ω′ )W (Ωn − Ω′ )dΩ′. −∞ Kapitel 3: Merkmale im Zeit- und Frequenzbereich 30 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterfunktion Xw (Ω) = X (Ω) ∗ W (Ω). Faltungsoperator ausgeschrieben: Z ∞ Xw (Ω) = X (Ω′ )W (Ω − Ω′ )dΩ′. −∞ Für Frequenzstützstelle Ωn ergibt sich Z ∞ Xw (Ωn ) = X (Ω′ )W (Ωn − Ω′ )dΩ′. −∞ Kapitel 3: Merkmale im Zeit- und Frequenzbereich 30 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterung + DFT Fensterung + DFT lassen sich also gemeinsam als Filterbank verstehen X(0,τ) X(1,τ) x(k,τ) X(2,τ) : : X(N/2,τ) Kapitel 3: Merkmale im Zeit- und Frequenzbereich 31 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterung Verschiedene Fensterfunktionen: Rechteck−Fenster Hamming−Fenster 80 60 20log10(abs(W)) 20log10(abs(W)) 60 40 40 20 0 20 −20 0 0 100 200 300 0 100 200 300 Hanning−Fenster Blackman−Fenster 60 50 20log10(abs(W)) 20log10(abs(W)) 40 20 0 0 −20 −50 −40 0 100 200 300 0 100 200 300 Kapitel 3: Merkmale im Zeit- und Frequenzbereich 32 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterung Rechteck-, Hamming- und Hannfenster besitzen gemeinsame Form im Zeitbereich: ! 2πk w (k ) = ξ0 + ξ1 cos , 0 ≤ k ≤ N − 1. N−1 Fensterfunktion Zeitfunktion Hamming-Fenster ξ0 = 0, 54, ξ1 = −0, 46 Hann-Fenster ξ0 = 0, 5, ξ1 = −0, 5 Rechteck-Fenster ξ0 = 1, ξ1 = 0 Blackman-Fenster ξ0 + ξ1 cos N2π−k1 + ξ2 cos N4π−k1 ξ0 = 0, 42, ξ1 = −0, 5, ξ2 = 0, 08 Kapitel 3: Merkmale im Zeit- und Frequenzbereich 33 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterung Wahl der Fensterlänge für Sprachanalyse: Breitband- vs. Schmalbandspektrogramme Breitbandspektrogramm Schmalbandspektrogramm Länge N · Ts < T0 Länge N · Ts > T0 Hohe zeitl. Auflösung Geringe zeitl. Auflösung Geringe Hohe Frequenzauflösung Frequenzauflösung ⇒ Kompromiss nötig: Schmalbandspektrogramm, aber Wahl von N sodass Kurzzeitstationarität der Sprache die Rahmenlänge vorgibt: ca. 20 - 25 ms Rahmenlänge N ca. 2 Rahmenvorschub Kapitel 3: Merkmale im Zeit- und Frequenzbereich 34 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterung Wahl der Fensterlänge für Sprachanalyse: Breitband- vs. Schmalbandspektrogramme Breitbandspektrogramm Schmalbandspektrogramm Länge N · Ts < T0 Länge N · Ts > T0 Hohe zeitl. Auflösung Geringe zeitl. Auflösung Geringe Hohe Frequenzauflösung Frequenzauflösung ⇒ Kompromiss nötig: Schmalbandspektrogramm, aber Wahl von N sodass Kurzzeitstationarität der Sprache die Rahmenlänge vorgibt: ca. 20 - 25 ms Rahmenlänge N ca. 2 Rahmenvorschub Kapitel 3: Merkmale im Zeit- und Frequenzbereich 34 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterung Wahl der Fensterlänge für Sprachanalyse: Breitband- vs. Schmalbandspektrogramme Breitbandspektrogramm Schmalbandspektrogramm Länge N · Ts < T0 Länge N · Ts > T0 Hohe zeitl. Auflösung Geringe zeitl. Auflösung Geringe Hohe Frequenzauflösung Frequenzauflösung ⇒ Kompromiss nötig: Schmalbandspektrogramm, aber Wahl von N sodass Kurzzeitstationarität der Sprache die Rahmenlänge vorgibt: ca. 20 - 25 ms Rahmenlänge N ca. 2 Rahmenvorschub Kapitel 3: Merkmale im Zeit- und Frequenzbereich 34 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterung Wahl der Fensterlänge für Sprachanalyse: Breitband- vs. Schmalbandspektrogramme Breitbandspektrogramm Schmalbandspektrogramm Länge N · Ts < T0 Länge N · Ts > T0 Hohe zeitl. Auflösung Geringe zeitl. Auflösung Geringe Hohe Frequenzauflösung Frequenzauflösung ⇒ Kompromiss nötig: Schmalbandspektrogramm, aber Wahl von N sodass Kurzzeitstationarität der Sprache die Rahmenlänge vorgibt: ca. 20 - 25 ms Rahmenlänge N ca. 2 Rahmenvorschub Kapitel 3: Merkmale im Zeit- und Frequenzbereich 34 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Fensterung + DFT Ergebnis für ‘13zz637.wav’ Kapitel 3: Merkmale im Zeit- und Frequenzbereich 35 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Merkmale im Frequenzbereich Merkmalsextraktion: Kurzzeit-Fouriertransformation x (k , τ) Fensterung xω (k , τ) = x (k , τ) · ω(k ) DFT P N −1 kn xDFT (n, τ) = k =0 xω (k , τ) · e −j2π N | | |xDFT (n, τ)| Mel-Filterbank P N2 −1 xMel (m, τ) = n =0 |xDFT (n, τ)|Hm (n) Kapitel 3: Merkmale im Zeit- und Frequenzbereich 36 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Mel-Frequenzanalyse Idee: Gehörorientierte Analyse zur Annäherung menschlicher Wahrnehmung. Inspiriert durch Arbeit u.A. von Homer Dudley (Bell Labs, 1930’er Jahre): Channel Vocoder Erste Realisierung N 2 −1 X xMel (m, τ) = xDFT (n, τ)Hm (n) n=0 Problem: Phasenabhängige Auslöschungen des Signals Lösung: Summation der Beträge: N 2 −1 X xMel (m, τ) = |xDFT (n, τ)|Hm (n) n=0 Kapitel 3: Merkmale im Zeit- und Frequenzbereich 37 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Mel-Frequenzanalyse Idee: Gehörorientierte Analyse zur Annäherung menschlicher Wahrnehmung. Inspiriert durch Arbeit u.A. von Homer Dudley (Bell Labs, 1930’er Jahre): Channel Vocoder Erste Realisierung N 2 −1 X xMel (m, τ) = xDFT (n, τ)Hm (n) n=0 Problem: Phasenabhängige Auslöschungen des Signals Lösung: Summation der Beträge: N 2 −1 X xMel (m, τ) = |xDFT (n, τ)|Hm (n) n=0 Kapitel 3: Merkmale im Zeit- und Frequenzbereich 37 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Mel-Frequenzanalyse Idee: Gehörorientierte Analyse zur Annäherung menschlicher Wahrnehmung. Inspiriert durch Arbeit u.A. von Homer Dudley (Bell Labs, 1930’er Jahre): Channel Vocoder Erste Realisierung N 2 −1 X xMel (m, τ) = xDFT (n, τ)Hm (n) n=0 Problem: Phasenabhängige Auslöschungen des Signals Lösung: Summation der Beträge: N 2 −1 X xMel (m, τ) = |xDFT (n, τ)|Hm (n) n=0 Kapitel 3: Merkmale im Zeit- und Frequenzbereich 37 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Mel-Frequenzanalyse Idee: Gehörorientierte Analyse zur Annäherung menschlicher Wahrnehmung. Inspiriert durch Arbeit u.A. von Homer Dudley (Bell Labs, 1930’er Jahre): Channel Vocoder Erste Realisierung N 2 −1 X xMel (m, τ) = xDFT (n, τ)Hm (n) n=0 Problem: Phasenabhängige Auslöschungen des Signals Lösung: Summation der Beträge: N 2 −1 X xMel (m, τ) = |xDFT (n, τ)|Hm (n) n=0 Kapitel 3: Merkmale im Zeit- und Frequenzbereich 37 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Mel-Filterbank-Design Figure: Dreiecksfilterbank, aus: Huang, Acero, Hon: Spoken Language Processing Mittenfrequenzen fm , m = 0... M + 1 äquidistant auf Mel-Skala Jedes Filter Hm , m = 1... M hat Maximum bei der eigenen Mittenfrequenz fm Jedes Filter geht von voriger Mittenfrequenz fm−1 bis nächster fm+1 Jedes Filter ist normiert (Summe über H = 1) Kapitel 3: Merkmale im Zeit- und Frequenzbereich 38 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Gelernte vs. spezifizierte Filterbankparameter? Kapitel 3: Merkmale im Zeit- und Frequenzbereich 39 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Gelernte vs. spezifizierte Filterbankparameter? Figure: Links: Gammaton-Filterbank, vergleichbar mit Mel-FB, Rechts: SC, supervised convolutional features, neuronal gelernte Mermale. Modelle & Features trainiert auf 960h (LibriSpeech). Kapitel 3: Merkmale im Zeit- und Frequenzbereich 39 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Gelernte vs. spezifizierte Filterbankparameter? Figure: Links: Gammaton-Filterbank, vergleichbar mit Mel-FB, Rechts: SC, supervised convolutional features, neuronal gelernte Mermale. Modelle & Features trainiert auf 960h (LibriSpeech). Grafik & Tabelle aus: P. Vieting, R. Schlüter, H. Ney: ”Comparative Analysis of the wav2vec 2.0 Feature Extractor” Proc. ITG Fachtagung Sprachkommunikation, 2023. Kapitel 3: Merkmale im Zeit- und Frequenzbereich 39 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Merkmale im Frequenzbereich Merkmalsextraktion: Kurzzeit-Fouriertransformation x (k , τ) Fensterung xω (k , τ) = x (k , τ) · ω(k ) DFT P N −1 kn xDFT (n, τ) = k =0 xω (k , τ) · e −j2π N | | |xDFT (n, τ)| Mel-Filterbank P N2 −1 xMel (m, τ) = n =0 |xDFT (n, τ)|Hm (n) Kapitel 3: Merkmale im Zeit- und Frequenzbereich 40 / 41 Einführung Merkmalsextraktion Zeitbereich Frequenzbereich Vielen Dank für Ihre Aufmerksamkeit! Kapitel 3: Merkmale im Zeit- und Frequenzbereich 41 / 41