ASE-VL2 - Grundlagen der automatischen Spracherkennung PDF
Document Details
Uploaded by BenevolentPerception2174
FG Elektronische Systeme der Medizintechnik (mtec)
2024
Dorothea Kolossa
Tags
Summary
This presentation is on the fundamentals of automatic speech recognition. It covers the challenges of hearing from a lecture given on October 22, 2024.
Full Transcript
Gehör Psychoakustik Grundlagen der automatischen Spracherkennung Kapitel 2: Gehör, Psychoakustik Prof. Dr.-Ing. Dorothea Kolossa October 22, 2024 FG Elektronische Systeme der Medizintechnik (mtec) Kapitel 2: Gehör, Psychoakustik...
Gehör Psychoakustik Grundlagen der automatischen Spracherkennung Kapitel 2: Gehör, Psychoakustik Prof. Dr.-Ing. Dorothea Kolossa October 22, 2024 FG Elektronische Systeme der Medizintechnik (mtec) Kapitel 2: Gehör, Psychoakustik 1 / 34 Gehör Psychoakustik Outline 1 Gehör 2 Psychoakustik Kapitel 2: Gehör, Psychoakustik 1 / 34 Gehör Psychoakustik Hören: Große Herausforderungen Problem 1: Breitbandige Signale 20 - 16.000 Hz (Menschen), 20 - 35.000 Hz (Hunde), bis über 100kHz (Delfine) Problem 2: Großer Offset & kleiner Wert des Schalldruckpegels def Schalldruckpegel: LP = 20 log PPϕ (dB SPL) P: Schalldruck, Pϕ : Referenzschalldruck= 20µPa = 2 × 10−5 mN2 Zum Vergleich: Standardatmosphärendruck: 1013, 2hPa ≈ 105 mN2 Problem 3: Hoher dynamischer Bereich des SPL Hörbereich: 0 - 130dB SPL= 2 × 10−5... 63, 2 Pa Problem 4: Refraktärzeit der Nervenzellen ≥ 2 ms → max. 500 Hz encodierbar via synchrones Feuern mit Maxima Kapitel 2: Gehör, Psychoakustik 2 / 34 Gehör Psychoakustik Hören: Große Herausforderungen Problem 1: Breitbandige Signale 20 - 16.000 Hz (Menschen), 20 - 35.000 Hz (Hunde), bis über 100kHz (Delfine) Problem 2: Großer Offset & kleiner Wert des Schalldruckpegels def Schalldruckpegel: LP = 20 log PPϕ (dB SPL) P: Schalldruck, Pϕ : Referenzschalldruck= 20µPa = 2 × 10−5 mN2 Zum Vergleich: Standardatmosphärendruck: 1013, 2hPa ≈ 105 mN2 Problem 3: Hoher dynamischer Bereich des SPL Hörbereich: 0 - 130dB SPL= 2 × 10−5... 63, 2 Pa Problem 4: Refraktärzeit der Nervenzellen ≥ 2 ms → max. 500 Hz encodierbar via synchrones Feuern mit Maxima Kapitel 2: Gehör, Psychoakustik 2 / 34 Gehör Psychoakustik Hören: Große Herausforderungen Problem 1: Breitbandige Signale 20 - 16.000 Hz (Menschen), 20 - 35.000 Hz (Hunde), bis über 100kHz (Delfine) Problem 2: Großer Offset & kleiner Wert des Schalldruckpegels def Schalldruckpegel: LP = 20 log PPϕ (dB SPL) P: Schalldruck, Pϕ : Referenzschalldruck= 20µPa = 2 × 10−5 mN2 Zum Vergleich: Standardatmosphärendruck: 1013, 2hPa ≈ 105 mN2 Problem 3: Hoher dynamischer Bereich des SPL Hörbereich: 0 - 130dB SPL= 2 × 10−5... 63, 2 Pa Problem 4: Refraktärzeit der Nervenzellen ≥ 2 ms → max. 500 Hz encodierbar via synchrones Feuern mit Maxima Kapitel 2: Gehör, Psychoakustik 2 / 34 Gehör Psychoakustik Hören: Große Herausforderungen Problem 1: Breitbandige Signale 20 - 16.000 Hz (Menschen), 20 - 35.000 Hz (Hunde), bis über 100kHz (Delfine) Problem 2: Großer Offset & kleiner Wert des Schalldruckpegels def Schalldruckpegel: LP = 20 log PPϕ (dB SPL) P: Schalldruck, Pϕ : Referenzschalldruck= 20µPa = 2 × 10−5 mN2 Zum Vergleich: Standardatmosphärendruck: 1013, 2hPa ≈ 105 mN2 Problem 3: Hoher dynamischer Bereich des SPL Hörbereich: 0 - 130dB SPL= 2 × 10−5... 63, 2 Pa Problem 4: Refraktärzeit der Nervenzellen ≥ 2 ms → max. 500 Hz encodierbar via synchrones Feuern mit Maxima Kapitel 2: Gehör, Psychoakustik 2 / 34 Gehör Psychoakustik Hören: Große Herausforderungen Problem 1: Breitbandige Signale 20 - 16.000 Hz (Menschen), 20 - 35.000 Hz (Hunde), bis über 100kHz (Delfine) Problem 2: Großer Offset & kleiner Wert des Schalldruckpegels def Schalldruckpegel: LP = 20 log PPϕ (dB SPL) P: Schalldruck, Pϕ : Referenzschalldruck= 20µPa = 2 × 10−5 mN2 Zum Vergleich: Standardatmosphärendruck: 1013, 2hPa ≈ 105 mN2 Problem 3: Hoher dynamischer Bereich des SPL Hörbereich: 0 - 130dB SPL= 2 × 10−5... 63, 2 Pa Problem 4: Refraktärzeit der Nervenzellen ≥ 2 ms → max. 500 Hz encodierbar via synchrones Feuern mit Maxima Kapitel 2: Gehör, Psychoakustik 2 / 34 Gehör Psychoakustik Hören: Große Herausforderungen Problem 1: Breitbandige Signale 20 - 16.000 Hz (Menschen), 20 - 35.000 Hz (Hunde), bis über 100kHz (Delfine) Problem 2: Großer Offset & kleiner Wert des Schalldruckpegels def Schalldruckpegel: LP = 20 log PPϕ (dB SPL) P: Schalldruck, Pϕ : Referenzschalldruck= 20µPa = 2 × 10−5 mN2 Zum Vergleich: Standardatmosphärendruck: 1013, 2hPa ≈ 105 mN2 Problem 3: Hoher dynamischer Bereich des SPL Hörbereich: 0 - 130dB SPL= 2 × 10−5... 63, 2 Pa Problem 4: Refraktärzeit der Nervenzellen ≥ 2 ms → max. 500 Hz encodierbar via synchrones Feuern mit Maxima Kapitel 2: Gehör, Psychoakustik 2 / 34 Gehör Psychoakustik Hören: Große Herausforderungen Problem 1: Breitbandige Signale 20 - 16.000 Hz (Menschen), 20 - 35.000 Hz (Hunde), bis über 100kHz (Delfine) Problem 2: Großer Offset & kleiner Wert des Schalldruckpegels def Schalldruckpegel: LP = 20 log PPϕ (dB SPL) P: Schalldruck, Pϕ : Referenzschalldruck= 20µPa = 2 × 10−5 mN2 Zum Vergleich: Standardatmosphärendruck: 1013, 2hPa ≈ 105 mN2 Problem 3: Hoher dynamischer Bereich des SPL Hörbereich: 0 - 130dB SPL= 2 × 10−5... 63, 2 Pa Problem 4: Refraktärzeit der Nervenzellen ≥ 2 ms → max. 500 Hz encodierbar via synchrones Feuern mit Maxima Kapitel 2: Gehör, Psychoakustik 2 / 34 Gehör Psychoakustik Hören: Große Herausforderungen Problem 1: Breitbandige Signale 20 - 16.000 Hz (Menschen), 20 - 35.000 Hz (Hunde), bis über 100kHz (Delfine) Problem 2: Großer Offset & kleiner Wert des Schalldruckpegels def Schalldruckpegel: LP = 20 log PPϕ (dB SPL) P: Schalldruck, Pϕ : Referenzschalldruck= 20µPa P(t) = 2 × 10−5 mN2 Zum Vergleich: Standardatmosphärendruck: 1013, 2hPa ≈ 105 mN2 Problem 3: Hoher dynamischer Bereich des SPL Hörbereich: 0 - 130dB SPL= 2 × 10−5... 63, 2 Pa ≥ 2ms Problem 4: Refraktärzeit der Nervenzellen ≥ 2 ms → max. 500 Hz encodierbar via synchrones Feuern mit Maxima Kapitel 2: Gehör, Psychoakustik 2 / 34 Gehör Psychoakustik Gehör Wie hat sich der Hörapparat entwickelt, um den Herausforderungen zu begegnen? Das Gehör besteht aus 1 Außenohr 2 Mittelohr 3 Innenohr Kapitel 2: Gehör, Psychoakustik 3 / 34 Gehör Psychoakustik Gehör Wie hat sich der Hörapparat entwickelt, um den Herausforderungen zu begegnen? Das Gehör besteht aus 1 Außenohr Middle Ear 2 Mittelohr 3 Innenohr Inner Ear Outer Ear Kapitel 2: Gehör, Psychoakustik 3 / 34 Gehör Psychoakustik Gehör Außenohr sammelt und verstärkt richtungsabhängig Schallwellen und leitet sie in den Hörkanal. Pinna (Ohrmuschel): Form beeinflusst richtungsabhängig Amplitude & Frequenzzusammensetzung, hilft durch Filterung auch bei Lokalisierung von Schallquellen Gehörgang: Schutzfunktion, eigene Resonanzfrequenz betont relevanten Frequenzbereich für Sprache bei ca. 2000-4500 Hz Trommelfell: Schützt Mittelohr und unterstützt Energieübertragung Kapitel 2: Gehör, Psychoakustik 4 / 34 Gehör Psychoakustik Gehör Lymphflüssigkeit im Innenohr dichter als Luft → Impedanzanpassung nötig, um Schall in Innenohr zu übertragen Mittelohr a) Impedanzanpassung, b) Verstärkung Paukenhöhle ca. 1 cm3 , belüftet durch Trompetengang (Eustachische Röhre) Gehörknöchelchen: Malleus (Hammer) (8 mm) Incus (Amboß) Stapes (Steigbügel) (3,5 mm) Kapitel 2: Gehör, Psychoakustik 5 / 34 Gehör Psychoakustik Gehör Lymphflüssigkeit im Innenohr dichter als Luft → Impedanzanpassung nötig, um Schall in Innenohr zu übertragen Mittelohr a) Impedanzanpassung, b) Verstärkung Paukenhöhle ca. 1 cm3 , belüftet durch Trompetengang (Eustachische Röhre) Gehörknöchelchen: Malleus (Hammer) (8 mm) Incus (Amboß) Stapes (Steigbügel) (3,5 mm) Kapitel 2: Gehör, Psychoakustik 5 / 34 Gehör Psychoakustik Gehör Lymphflüssigkeit im Innenohr dichter als Luft → Impedanzanpassung nötig, um Schall in Innenohr zu übertragen Mittelohr a) Impedanzanpassung, b) Verstärkung Paukenhöhle ca. 1 cm3 , belüftet durch Trompetengang (Eustachische Röhre) Gehörknöchelchen: Malleus (Hammer) (8 mm) Incus (Amboß) Stapes (Steigbügel) (3,5 mm) → kleinster Knochen im Körper Kapitel 2: Gehör, Psychoakustik 5 / 34 Gehör Psychoakustik Mittelohr Incus Hammer Stapes Eardrum Source: https://naturalhistory.si.edu/mna/glossary.cfm?glossary_id=42 Kapitel 2: Gehör, Psychoakustik 6 / 34 Gehör Psychoakustik Impedanzanpassung im Mittelohr 1 Stärkerer Druck durch verkleinerte Fläche von Trommelfell zu ovalem Fenster: FTrommelfell FOF ≈ 17 2 Hebelwirkung ≈ 1.3 Druckverstärkung ≈ × 22 ⇒ ca. 60% Schallenergie wird durch gesundes Mittelohr übertragen. Vergleich: ca. 2% Übertragung sonst Kapitel 2: Gehör, Psychoakustik 7 / 34 und aus dem Gehörgang, der vor allem Fremdkörper fernhält. Es wird begrenzt vom Trom melfell, das durch Schallwellen Gehör Psychoakustik zu Schwingungen angeregt wird. Das Mittelohr besteht au 3 einer etwa 1 cm großen, luftgefüllten Kammer, die über die eustachische Röhre belüftet wird Im Mittelohr bewirken die drei Gehörknöchelchen Hammer, Amboß und Steigbügel eine Im Innenohr pedanzanpassung, die notwendig ist, weil der Schallwiderstand des flüssigkeitsgefüllten Inne nohrs viel größer ist als der der Luft, sodass ohne eine entsprechende mechanische Umsetzun der Schall keine nennenswerte Wirkung auf das Innenohr haben würde. Zu dem Zweck werde Rundes Fenster Ovales Fenster Gehörknöchelchen Hörnerv Cochlea Gehörmuschel Gehörgang Trommelfell Eustachische Röhre Paukenhöhle Abbildung 2.1.: Aufbau des Gehörs. von den Gehörknöchelchen, die in Bild 2.1 zu sehen sind, zwei Mechanismen ausgenutzt: Kapitel 2: Gehör, Psychoakustik 8 / 34 Gehör Psychoakustik Cochlea Prinzipbild der abgerollten Cochlea Ovales Fenster Reißnersche Membran Scala Vestibuli Steigbügel Scala Media Scala Tympani Helicotrema Rundes Fenster Basilarmembran Kapitel 2: Gehör, Psychoakustik 9 / 34 Gehör Psychoakustik Cochlea Aufgabe des Innenohrs: Frequenzanalyse durch Tonotopie. nschliche Sprachwahrnehmung härter weicher Helicotrema Fenster 0.1 mm 0.5 mm hohe Resonanz- niedrige Resonanz- frequenz (20000 Hz) frequenz (20 Hz) Abbildung 2.2.: Abgerollte Cochlea. Kapitel 2: Gehör, Psychoakustik 10 / 34 Gehör Psychoakustik Tonotopie durch Wellenausbreitung Source: http://www.open.edu/openlearn/science-maths-technology/science/ biology/hearing/content-section-3.3 Kapitel 2: Gehör, Psychoakustik 11 / 34 chen. Die inneren Haarzellen, von denen es beim Menschen etwa 3.500 gibt, sind entlang Gehör der Cochlea angeordnet. Bis zu einer Anregungsfrequenz von etwa 500 Hz lösen sie synchron Psychoakustik zum Schallereignis Aktionspotentiale aus, danach ist die Feuerrate nichtlinear abhängig von derCochlea Signalamplitude. Bis etwa 6.000 Hz besteht aber eine Neigung zur Synchronisation mi der Schallwelle, die auch als Phasenkopplung bezeichnet wird. Eine genauere Vorstellung vom Aufbau des Corti-Organs, in dem diese Verstärkung und Reizauslösung stattfindet, biete Schnittbild der Cochlea Abbildung 2.4. Scala Vestibuli Reißnersche Membran Scala Media Tektorialmembran Innere Haarzellen Äußere Haarzellen Basilarmembran Hörnerv Scala Tympani Abbildung 2.4.: Querschnitt durch die Cochlea. Kapitel 2: Gehör, Psychoakustik 12 / 34 Gehör Psychoakustik Tonotopie Die Tonotopie der Cochlea hilft, trotz Refraktärzeit hohe Frequenzen wahrzunehmen. Stimulus Stimulus Neuron firing Neuron firing P(t) ≥ 2ms ≥ 2ms t t ⇒ unter 500 Hz ⇒ bis ca. 6000 Hz: beobachtet man Phase-Locking. intermittierendes Phase-Locking Kein Phase-Locking bei höheren Frequenzen. Kapitel 2: Gehör, Psychoakustik 13 / 34 chen. Die inneren Haarzellen, Gehör von denen es beim Menschen etwa 3.500 gibt, sind entlang der Cochlea angeordnet. Bis zu einer Anregungsfrequenz von etwa 500 Hz lösen sie synchron Psychoakustik zum Schallereignis Aktionspotentiale aus, danach ist die Feuerrate nichtlinear abhängig von der Signalamplitude. Bis etwa 6.000 Hz besteht aber eine Neigung zur Synchronisation mit Cochlea der Schallwelle, die auch als Phasenkopplung bezeichnet wird. Eine genauere Vorstellung vom Aufbau des Corti-Organs, in dem diese Verstärkung und Reizauslösung stattfindet, bietet Schnittbild Abbildung 2.4. der Cochlea Scala Vestibuli Reißnersche Membran Scala Media Tektorialmembran Innere Haarzellen Äußere Haarzellen Basilarmembran Hörnerv Scala Tympani Abbildung 2.4.: Querschnitt durch die Cochlea. Warum 2 Arten von Haarzellen? Äußere Haarzellen reagieren auf Stimulation durch Längenänderungen, und verstärken so lokal die Wanderwelle. Innere Haarzellen haben die eigentliche sensorische Funktion. 2.2. LAUTHEITSWAHRNEHMUNG Kapitel 2: Gehör, Psychoakustik 14 / 34 chen. Die inneren Haarzellen, Gehör von denen es beim Menschen etwa 3.500 gibt, sind entlang der Cochlea angeordnet. Bis zu einer Anregungsfrequenz von etwa 500 Hz lösen sie synchron Psychoakustik zum Schallereignis Aktionspotentiale aus, danach ist die Feuerrate nichtlinear abhängig von der Signalamplitude. Bis etwa 6.000 Hz besteht aber eine Neigung zur Synchronisation mit Cochlea der Schallwelle, die auch als Phasenkopplung bezeichnet wird. Eine genauere Vorstellung vom Aufbau des Corti-Organs, in dem diese Verstärkung und Reizauslösung stattfindet, bietet Schnittbild Abbildung 2.4. der Cochlea Scala Vestibuli Reißnersche Membran Scala Media Tektorialmembran Innere Haarzellen Äußere Haarzellen Basilarmembran Hörnerv Scala Tympani Abbildung 2.4.: Querschnitt durch die Cochlea. Warum 2 Arten von Haarzellen? Äußere Haarzellen reagieren auf Stimulation durch Längenänderungen, und verstärken so lokal die Wanderwelle. Innere Haarzellen haben die eigentliche sensorische Funktion. 2.2. LAUTHEITSWAHRNEHMUNG Kapitel 2: Gehör, Psychoakustik 14 / 34 Gehör Psychoakustik Cochlea Erhöhung der Frequenzauflösung durch äußere Haarzellen (OHCs) Figure: Fettiplace & Hackney, “The sensory and motor roles of auditory hair cells”, 2006. ca. 3500 innere Haarzellen in der menschlichen Cochlea. Kapitel 2: Gehör, Psychoakustik 15 / 34 empfindung behandelt. Schneller zu modellieren und universell in Spracherkennungssystemen Gehör verwendet ist dagegen die menschliche Frequenzwahrnehmung, die genau wie die Lautstär- Psychoakustik keempfindung zwar nichtlinear, trotzdem aber leichter zu modellieren ist und im folgenden Abschnitt 2.3 beschrieben wird. Cochlea 2.3. FREQUENZWAHRNEHMUNG Anordnung der Resonanzfrequenzen entlang der Cochlea: Die Abbildung der Frequenzen auf ihre Resonanzstellen in der Cochlea zeigt schematisch Abbildung 2.5. Wie auch in dieser schematischen Darstellung zu sehen ist, ist die Abbildung 2 kHz 1,5 kHz 3 kHz 400 Hz 600 Hz Ovales Fenster Helicotrema Rundes Fenster 200 Hz 800 Hz 1 kHz 4 kHz 20 kHz Basilarmembran 7 kHz 5 kHz Abbildung 2.5.: Frequenz-Ortsabbildung in der Cochlea. der Frequenz auf den Ort keineswegs linear, stattdessen steht ein16großer Kapitel 2: Gehör, Psychoakustik / 34 Bereich der Cochlea Gehör Psychoakustik Outline 1 Gehör 2 Psychoakustik Kapitel 2: Gehör, Psychoakustik 17 / 34 Gehör Psychoakustik Westliche Musik Westliche Musik benutzt folgende Einteilung des Frequenzbereichs: Kammerton a + 1 Oktaven + 2 Oktaven + 3 Oktaven def 440 Hz = f0 880 Hz 1760 Hz 3520 Hz f /f0 1 2 4 8 log2 (f /f0 ) 0 1 2 3 → Menschliche Frequenzwahrnehmung angenähert logarithmisch? Kapitel 2: Gehör, Psychoakustik 18 / 34 Gehör Psychoakustik Westliche Musik Westliche Musik benutzt folgende Einteilung des Frequenzbereichs: Kammerton a + 1 Oktaven + 2 Oktaven + 3 Oktaven def 440 Hz = f0 880 Hz 1760 Hz 3520 Hz f /f0 1 2 4 8 log2 (f /f0 ) 0 1 2 3 → Menschliche Frequenzwahrnehmung angenähert logarithmisch? Kapitel 2: Gehör, Psychoakustik 18 / 34 Gehör Psychoakustik Westliche Musik Westliche Musik benutzt folgende Einteilung des Frequenzbereichs: Kammerton a + 1 Oktaven + 2 Oktaven + 3 Oktaven def 440 Hz = f0 880 Hz 1760 Hz 3520 Hz f /f0 1 2 4 8 log2 (f /f0 ) 0 1 2 3 → Menschliche Frequenzwahrnehmung angenähert logarithmisch? Kapitel 2: Gehör, Psychoakustik 18 / 34 Gehör Psychoakustik Mel-Skala Erste hier betrachtete psychoakustische Skala: Mel-Skala Kapitel 2: Gehör, Psychoakustik 19 / 34 Gehör Psychoakustik Mel-Skala Erste hier betrachtete psychoakustische Skala: Mel-Skala Man erhält sie als die Skala der als gleich empfundenen Intervallgrößen: 16000 Hz Kapitel 2: Gehör, Psychoakustik 19 / 34 Gehör Psychoakustik Mel-Skala Erste hier betrachtete psychoakustische Skala: Mel-Skala Man erhält sie als die Skala der als gleich empfundenen Intervallgrößen: 16000 Hz Der Wert m in mel einer Frequenz f in Hz beträgt f m = 2595 log10 (1 + ) (1) 700 Kapitel 2: Gehör, Psychoakustik 19 / 34 Gehör Psychoakustik Bark-Skala (I) Kapitel 2: Gehör, Psychoakustik 20 / 34 Gehör Psychoakustik Bark-Skala (I) Kapitel 2: Gehör, Psychoakustik 21 / 34 Gehör Psychoakustik Bark-Skala (II) ⇒ Menschliches Gehör kann nur Töne innerhalb einer sogenannten “kritischen Bandbreite” zu einer Gesamtwahrnehmung integrieren, wenn es um Detektionsaufgaben geht. Kapitel 2: Gehör, Psychoakustik 22 / 34 die Lautheitsempfindung für Rauschen in Abhängigkeit von dessen Bandbreite. Bei diesem Gehör Experiment spieltPsychoakustik man Rauschen mit einer Bandbreite von 100 Hz um eine Mittenfrequenz von beispielsweise 2 kHz als Testton ab, und lässt dann die Testhörer die empfundene Laut- heit dieses Signals mit dem von breitbandigerem Rauschen vergleichen. Dabei hält man den Bark-Skala (III) des Testsignals konstant. So findet man ganz grob gezeichnet eine Kur- gesamten Schalldruck ve, wie sie in Abbildung 2.6 zu sehen ist. Wie zu erkennen ist, bleibt die empfundene Lautheit Andere Wahrnehmungsversuche, wie dieser, mit Rauschen konstanten Schalldrucks: 3.8 3.6 3.4 3.2 Lautheit [sone] 3 2.8 2.6 2.4 2.2 2 1.8 2 3 10 10 Bandbreite des Rauschens [Hz] führen zur selben Größe Abbildung 2.6.:von “kritischen Lautheit Bändern”. als Funktion der Bandbreite. Kapitel 2: Gehör, Psychoakustik 23 / 34 Gehör Psychoakustik Bark-Skala (IV) Figure: aus Huang, Acero und Hon, “Spoken Language Processing”, 2001. Kapitel 2: Gehör, Psychoakustik 24 / 34 Gehör Psychoakustik Bark-Skala (V) Damit ist die Bark-Skala der Mel-Skala sehr ähnlich, aber nicht identisch. Figure: aus Huang, Acero und Hon, “Spoken Language Processing”, 2001. Kapitel 2: Gehör, Psychoakustik 25 / 34 Gehör Psychoakustik Psychoakustik Interessant ist der Vergleich mit der Anordnung der Resonanzfrequenzen entlang der Cochlea: Kapitel 2: Gehör, Psychoakustik 26 / 34 Gehör Psychoakustik Psychoakustik Laut Zwicker und Fastl ist diese angenähert proportional zu beiden psychoakustischen Skalen Cochlea Ovales Fenster Helicotrema 0 8 16 24 32 Länge [mm] 0 160 320 480 640 Anzahl der Schritte 0 600 1200 1800 2400 Pitch [mel] 0 3 6 9 12 15 18 21 24 Kritische Bänder [Bark] 0 0,25 0,5 1 2 4 8 16 Frequenz [kHz] Figure: aus Zwicker und Fastl, “Psychoacoustics”, 1999. Kapitel 2: Gehör, Psychoakustik 27 / 34 Gehör Psychoakustik Psychoakustik Zur Nachbildung der menschlichen Wahrnehmung ist es interessant, wie bei der Bark-Skala innerhalb von kritischen Bändern die Signale zu summieren. Dabei hat sich aber gegenüber der Bark-Skala die Mel-Skala durchgesetzt: Figure: “HTK Book”, Version 3.0. Man erhält den p-ten Mel-Filterbankkoeffizienten mit X mp = Hp (f ) · |X (f )|. (2) f Kapitel 2: Gehör, Psychoakustik 28 / 34 Gehör Psychoakustik Psychoakustik Zur Nachbildung der menschlichen Wahrnehmung ist es interessant, wie bei der Bark-Skala innerhalb von kritischen Bändern die Signale zu summieren. Dabei hat sich aber gegenüber der Bark-Skala die Mel-Skala durchgesetzt: Figure: “HTK Book”, Version 3.0. Man erhält den p-ten Mel-Filterbankkoeffizienten mit X mp = Hp (f ) · |X (f )|. (2) f Kapitel 2: Gehör, Psychoakustik 28 / 34 Gehör Psychoakustik Maskierung (I) Bei den Mel-Filterbank-Koeffizienten noch nicht berücksichtigt sind die dynamische Frequenzmaskierung Figure: aus Huang, Acero und Hon, “Spoken Language Processing”, 2001. Kapitel 2: Gehör, Psychoakustik 29 / 34 Gehör Psychoakustik Maskierung (II) und die interessante zeitliche Maskierung des menschlichen Gehörs Figure: Huang, Acero & Hon, “Spoken Language Processing”, 2001. → Forschungsfrage: Wie optimiert man maschinelle Systeme, um solche Effekte optimal zu berücksichtigen? Kapitel 2: Gehör, Psychoakustik 30 / 34 Gehör Psychoakustik Maskierung (II) und die interessante zeitliche Maskierung des menschlichen Gehörs Postmasking Figure: Huang, Acero & Hon, “Spoken Language Processing”, 2001. → Forschungsfrage: Wie optimiert man maschinelle Systeme, um solche Effekte optimal zu berücksichtigen? Kapitel 2: Gehör, Psychoakustik 31 / 34 Gehör Psychoakustik Maskierung (II) und die interessante zeitliche Maskierung des menschlichen Gehörs Premasking Postmasking Figure: Huang, Acero & Hon, “Spoken Language Processing”, 2001. → Forschungsfrage: Wie optimiert man maschinelle Systeme, um solche Effekte optimal zu berücksichtigen? Kapitel 2: Gehör, Psychoakustik 32 / 34 Gehör Psychoakustik Maskierung (II) und die interessante zeitliche Maskierung des menschlichen Gehörs Premasking Postmasking Figure: Huang, Acero & Hon, “Spoken Language Processing”, 2001. → Forschungsfrage: Wie optimiert man maschinelle Systeme, um solche Effekte optimal zu berücksichtigen? Kapitel 2: Gehör, Psychoakustik 33 / 34 Gehör Psychoakustik Vielen Dank für Ihre Aufmerksamkeit! Kapitel 2: Gehör, Psychoakustik 34 / 34