Einführung Merkmalsextraktion im Zeit- und Frequenzbereich - Kapitel 3/4
43 Questions
1 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Was ist der Unterschied zwischen Intrasprechervariabilität und Intersprechervariabilität?

  • Intrasprechervariabilität bezieht sich auf die Variation der Aussprache bei einem Sprecher im Laufe der Zeit, während Intersprechervariabilität die Unterschiede in der Aussprache zwischen verschiedenen Sprechern beschreibt. (correct)
  • Intrasprechervariabilität ist die Variation der Aussprache zwischen verschiedenen Personen, während Intersprechervariabilität die Variation der Aussprache innerhalb einer Person im Laufe der Zeit beschreibt.
  • Intrasprechervariabilität bezieht sich auf die Variation der Aussprache zwischen verschiedenen Sprechern, während Intersprechervariabilität die Unterschiede in der Aussprache bei demselben Sprecher im Laufe der Zeit beschreibt.
  • Intrasprechervariabilität und Intersprechervariabilität beziehen sich auf die gleiche Art von Variation in der Aussprache.
  • Welche der folgenden Faktoren könnten zu Intrasprechervariabilität führen?

  • Der Akzent des Sprechers.
  • Der emotionale Zustand des Sprechers.
  • Alle oben genannten. (correct)
  • Die Sprachgeschwindigkeit des Sprechers.
  • Welche der folgenden Aussagen über die Merkmalsextraktion ist korrekt?

  • Merkmalsextraktion ist der Prozess der Extraktion von akustischen Merkmalen aus einem Sprachsignal. (correct)
  • Merkmalsextraktion ist der Prozess der Bewertung der Qualität eines Sprachsignals.
  • Merkmalsextraktion ist der Prozess der Umwandlung von Sprachsignalen in Text.
  • Merkmalsextraktion ist der Prozess der Identifizierung des Sprechers aus einer Sprachprobe.
  • Welche der folgenden Merkmalsextraktionsmethoden wird im Zeitbereich verwendet?

    <p>Zero-Crossing Rate. (C)</p> Signup and view all the answers

    Welche der folgenden Merkmalsextraktionsmethoden wird im Frequenzbereich verwendet?

    <p>Mel-Frequenz-Cepstral-Koeffizienten (MFCCs). (D)</p> Signup and view all the answers

    Welche der folgenden Aussagen über die Interprechervariabilität ist korrekt?

    <p>Interprechervariabilität kann für die automatische Spracherkennung ein großes Problem darstellen. (B)</p> Signup and view all the answers

    Welche der folgenden Aussagen über den Merkmalsextraktions-Prozess ist korrekt?

    <p>Alle oben genannten. (D)</p> Signup and view all the answers

    Was sind die zwei Arten von Fehlern, die bei der Quantisierung auftreten?

    <p>Quantisierungsrauschen und Überlastungsfehler (B)</p> Signup and view all the answers

    Wie wirkt sich ein kleinerer Maximalpegel $s_{max}$ auf den Gesamtfehler aus?

    <p>Der Gesamtfehler erhöht sich (B)</p> Signup and view all the answers

    Welche der folgenden Quantisierungskennlinien ist asymmetrisch?

    <p>Mid-Tread (B)</p> Signup and view all the answers

    Welches Einflussfaktor sinkt mit einem niedrigeren Maximalpegel im Arbeitsbereich?

    <p>Der Einfluss des Quantisierungsrauschens (C)</p> Signup and view all the answers

    Was passiert, wenn die Amplitude konstant null ist?

    <p>Leises Rauschen wird übertragen (C)</p> Signup and view all the answers

    Was stellt die Herausforderung bei der ersten Realisierung des Channel Vocoders dar?

    <p>Phasenabhängige Auslöschungen des Signals (A)</p> Signup and view all the answers

    Wie wird die Lösung zur Problematik der phasenabhängigen Auslöschungen im Channel Vocoder dargestellt?

    <p>Durch Summation der Beträge (D)</p> Signup and view all the answers

    Was beschreibt die Mel-Frequenzanalyse?

    <p>Eine Analyse, die auf der menschlichen Wahrnehmung basiert (D)</p> Signup and view all the answers

    Welche Rolle spielt die Arbeit von Homer Dudley bei der Entwicklung des Channel Vocoders?

    <p>Er führte die erste erfolgreiche Implementierung des Channel Vocoders durch. (C)</p> Signup and view all the answers

    Was beschreibt die Gleichung xMel(m, τ) in Bezug auf den Channel Vocoder?

    <p>Die Verarbeitung des Eingangssignals unter Verwendung des Mel-Filterbanksystems (B)</p> Signup and view all the answers

    Welche der folgenden Methoden ist für große Datenmengen geeignet?

    <p>Neurale Berechnung (B)</p> Signup and view all the answers

    Welches Merkmal ist typisch für die analytische Berechnung?

    <p>Großer Trainingsaufwand (D)</p> Signup and view all the answers

    Wofür ist die neutrale Berechnung optimal angepasst?

    <p>Kleine und mittlere Datenmengen (B)</p> Signup and view all the answers

    Welche Funktion hat die Flexibilität bei der Implementierung in Bezug auf die Merkmalsextraktion?

    <p>Sie sorgt für Anpassung an gewählte Tasks (B)</p> Signup and view all the answers

    Welche Aussage beschreibt die Parameterberechnung in der Merkmalsextraktion?

    <p>Sie umfasst sowohl analytische als auch neuronale Ansätze. (C)</p> Signup and view all the answers

    Wofür ist die Zeitbereichsanalyse hauptsächlich geeignet?

    <p>Emotionserkennung (A)</p> Signup and view all the answers

    Was charakterisiert die definierte Funktion in der analytischen Berechnung?

    <p>Sie basiert auf vorgegebenen mathematischen Modellen. (A)</p> Signup and view all the answers

    Welcher der folgenden Bereiche ist nicht direkt mit der Merkmalsextraktion verbunden?

    <p>Einfache Rechenarten (B)</p> Signup and view all the answers

    Was beschreibt der Mid-Rise-Quantisierer?

    <p>Er hat eine symmetrische Fehlerverteilung. (D)</p> Signup and view all the answers

    Wie beeinflusst das Quantisierungsrauschen die Qualität des Signals?

    <p>Es wirkt sich weniger aus, wenn der Maximalpegel smax kleiner wird. (D)</p> Signup and view all the answers

    Welche Fehlerarten treten bei der Quantisierung auf?

    <p>Quantisierungsrauschen und Überlastungsfehler. (B)</p> Signup and view all the answers

    Was sind die zwei Entscheidungen, die bei der Quantisierung getroffen werden müssen?

    <p>Maximalpegel smax und Wortbreite w. (B)</p> Signup and view all the answers

    Was geschieht mit dem Einfluss des Überlastungsrauschens, wenn der Maximalpegel smax gesenkt wird?

    <p>Der Einfluss sinkt. (A)</p> Signup and view all the answers

    Wie wird die Fehleranalyse bei der Quantisierung durchgeführt?

    <p>Durch die Analyse der quantisierten Werte. (D)</p> Signup and view all the answers

    Was unterscheidet die Mid-Tread-Quantisierung von der Mid-Rise-Quantisierung?

    <p>Die Fehlerverteilung ist asymmetrisch. (D)</p> Signup and view all the answers

    Welcher Aspekt wird im Zusammenhang mit der Wortbreite w berücksichtigt?

    <p>Sie bestimmt die Anzahl der quantisierten Werte. (B)</p> Signup and view all the answers

    Was beschreibt die Intersprechervariabilität?

    <p>Die Unterschiede in der Aussprache zwischen verschiedenen Sprechern. (A)</p> Signup and view all the answers

    Was hat keinen Einfluss auf die Merkmale im Zeit- und Frequenzbereich?

    <p>Die Anzahl der Sätze im Text. (D)</p> Signup and view all the answers

    Warum ist die Analyse im Frequenzbereich wichtig?

    <p>Sie ermöglicht die Untersuchung der Aussprachevariation. (D)</p> Signup and view all the answers

    Welche Frequenz ist bei der Analyse der Sprachsignale am häufigsten relevant?

    <p>Zwischen 500 Hz und 2000 Hz. (A)</p> Signup and view all the answers

    Welches der folgenden Elemente ist Teil der Merkmalsextraktion im Zeitbereich?

    <p>Rhythmus. (C)</p> Signup and view all the answers

    Was könnte den Frequenzbereich einer Sprachaufnahme beeinflussen?

    <p>Die Sprachgeschwindigkeit des Sprechers. (B)</p> Signup and view all the answers

    Welche Komponente ist typischerweise nicht Teil der Anspracheanalyse?

    <p>Längeneinheiten. (B)</p> Signup and view all the answers

    In welchem Kontext spielt die Analyse der Intersprechervariabilität eine essentielle Rolle?

    <p>In der automatischen Spracherkennung. (A)</p> Signup and view all the answers

    Wie kann die Variation der Aussprache zwischen Sprechern gemessen werden?

    <p>Durch quantitative Messung von Frequenzen. (D)</p> Signup and view all the answers

    Was könnte die Sprecheridentifikation in einer Analyse erschweren?

    <p>Das Vorhandensein von Hintergrundgeräuschen. (D)</p> Signup and view all the answers

    Flashcards

    Intrasprechervariabilität

    Variation der Aussprache bei demselben Sprecher.

    Intersprechervariabilität

    Variation der Aussprache zwischen verschiedenen Sprechern.

    Zeitbereich

    Bereich, in dem Merkmale im Zeitverlauf analysiert werden.

    Frequenzbereich

    Bereich, in dem Merkmale anhand der Frequenz analysiert werden.

    Signup and view all the flashcards

    Merkmalsextraktion

    Prozess zur Identifikation und Analyse charakteristischer Merkmale.

    Signup and view all the flashcards

    Aussprachevariation

    Unterschiedliche Weisen der Aussprache basierend auf verschiedenen Faktoren.

    Signup and view all the flashcards

    Sprecher

    Eine Person, die ein bestimmtes Thema verbal kommuniziert.

    Signup and view all the flashcards

    Akzent

    Besondere Aussprache, die aufgrund regionaler oder sozialer Herkunft entsteht.

    Signup and view all the flashcards

    Signalbeispiel

    Ein spezifiziertes Beispiel für ein akustisches Signal, oft grafisch dargestellt.

    Signup and view all the flashcards

    Amplitude

    Die Höhe eines Signals, oft verbunden mit Lautstärke.

    Signup and view all the flashcards

    Sprachsignal

    Ein akustisches Signal, das Sprachinformationen trägt.

    Signup and view all the flashcards

    Akustische Analysen

    Untersuchung der akustischen Eigenschaften eines Audiomaterials.

    Signup and view all the flashcards

    Frequenzachse

    Achsensystem, das Frequenzen in einer Darstellung ordnet.

    Signup and view all the flashcards

    Grafische Darstellung

    Visuelle Abbildung eines Signals im Zeit- oder Frequenzbereich.

    Signup and view all the flashcards

    Channel Vocoder

    Ein Gerät zur Sprachsignalverarbeitung, das Einkanal-Analyse verwendet.

    Signup and view all the flashcards

    Phasenabhängige Auslöschungen

    Signalverluste, die von der Phase der Frequenzen abhängen.

    Signup and view all the flashcards

    Summation der Beträge

    Die Methode, bei der die Beträge der Signale addiert werden, um Auslöschungen zu vermeiden.

    Signup and view all the flashcards

    Mel-Frequenzanalyse

    Eine Analyse, die die menschliche Wahrnehmung von Frequenzen besser abbildet.

    Signup and view all the flashcards

    Quantisierungsfehler

    Fehler, die aus der Quantisierung eines Signals resultieren.

    Signup and view all the flashcards

    Mid-Rise Quantisierer

    Ein Quantisierer, der zwischen zwei Schritten in der Mitte arbeitet.

    Signup and view all the flashcards

    Mid-Tread Quantisierer

    Ein Quantisierer, der direkt auf den Werten der Stufen arbeitet.

    Signup and view all the flashcards

    Quantisierungsrauschen

    Rauschen, das durch die Diskretisierung eines kontinuierlichen Signals entsteht.

    Signup and view all the flashcards

    Überlastungsfehler

    Fehler, die auftreten, wenn das Signal außerhalb des Arbeitsbereichs ist.

    Signup and view all the flashcards

    Aussteuergrenze smax

    Die maximale Grenze, bis zu der ein Signal verarbeitet werden kann.

    Signup and view all the flashcards

    Wortbreite w

    Die Anzahl der Bits, die zur Darstellung eines Wertes verwendet werden.

    Signup and view all the flashcards

    Kennlinie sq(k)

    Das Verhältnis zwischen dem Eingangssignal s(k) und dem quantisierten Signal sq(k).

    Signup and view all the flashcards

    Analytische Berechnung

    Eine Methode zur Merkmalsextraktion mit definierten Funktionen, gut für kleine/mittlere Datenmengen.

    Signup and view all the flashcards

    Neuronale Berechnung

    Eine Methode zur Merkmalsextraktion, die automatisch aus großen Datenmengen lernt.

    Signup and view all the flashcards

    Geeignet für große Datenmengen

    Die neuronale Berechnung ist optimal für umfangreiche Datenanalysen.

    Signup and view all the flashcards

    Geeignet für kleine/mittlere Datenmengen

    Analytische Berechnung ist optimal für begrenzte Datenvolumen.

    Signup and view all the flashcards

    Flexibler Einsatz

    Anpassungsfähigkeit der Methoden an verschiedene Aufgaben wie Spracherkennung.

    Signup and view all the flashcards

    Spracherkennung

    Die Technologie zur Identifikation und Verarbeitung menschlicher Sprache.

    Signup and view all the flashcards

    Emotionserkennung

    Die Fähigkeit, Gefühle durch gesprochene Sprache oder Gesichtsausdrücke zu identifizieren.

    Signup and view all the flashcards

    Mid-Rise Quantisierung

    Eine Art der Quantisierung, bei der die Kennlinie zwischen zwei Werten mittig liegt.

    Signup and view all the flashcards

    Mid-Tread Quantisierung

    Eine Art der Quantisierung, bei der die Kennlinie am Übergang zwischen Werten liegt.

    Signup and view all the flashcards

    $s_{max}$

    Der maximal zulässige Pegel eines Signals in einem Quantisierungssystem.

    Signup and view all the flashcards

    Study Notes

    Grundlagen der automatischen Spracherkennung - Kapitel 3: Merkmale im Zeit- und Frequenzbereich

    • Kapitel: 3, Thema: Merkmale im Zeit- und Frequenzbereich, Datum: 12. November 2024, Dozentin: Prof. Dr.-Ing. Dorothea Kolossa, Fachgebiet: Elektronische Systeme der Medizintechnik (mtec)
    • Ziel der Merkmalsextraktion: Starke Korrelation mit phonetischem Inhalt; Reduktion von: Intrasprechervariabilität, Intersprechervariabilität, nicht wahrnehmbaren Signalanteilen, Stimmungs- und Intonationsabhängigkeiten, Raumabhängigkeiten.
    • Intrasprechervariabilität: Variation der Aussprache desselben Sprechers. Beispiele (auf den Präsentationen) wurden gezeigt, um diese Variation zu veranschaulichen.
    • Intersprechervariabilität: Variation der Aussprache zwischen verschiedenen Sprechern. Beispiele (auf den Präsentationen) wurden gezeigt, um diese Variation zu veranschaulichen.
    • Quantisierung (I): Darstellung eines reellen Eingangssignals mit fester Wortbreite. Wichtig ist dabei die Linearität der Quantisierung. Eine einfache Option ist die gleichmäßige Quantisierung.
    • Quantisierung (II): Zwei wesentliche Entscheidungen: Aussteuergrenze (Smax) und Wortbreite (w) der Quantisierung. Eine Analyse der durch die Quantisierung entstehenden Fehler ist notwendig.
    • Quantisierung (III): Konzept der Überlastungs- und Quantisierungsrauschen wird grafisch illustriert
    • Quantisierung (V): Anforderungen in der Spracherkennung: Clipping vermeiden, gleichzeitig möglichst geringes Quantisierungsrauschen. Ein geeigneter Kompromiss ergibt sich aus der Verteilungsdichtefunktion der Sprachamplituden, wobei Smax= 40x oft eine gute Wahl für die Quantisierung ist.
    • Parameterberechnung: Zwei grundlegende Arten der Berechnung von Parametern gibt es:
      • Analytische Berechnung: Definierte Funktion, optimal für kleine/mittlere Datensätze, geradlinige Implementierung, flexibel einsetzbar (Spracherkennung, Sprechererkennung, Emotionserkennung, technische Diagnose).
      • Neuronale Berechnung: Automatisch gelernt, geeignet für große Datensätze, hoher Trainingsaufwand, optimal für den jeweiligen Aufgabentyp angepasst.
    • Analytische Parameterberechnung: Die Berechnung beinhaltet Schritte wie Zeitbereichsanalyse, ggf. Zeitbereichs-Featureanalyse, Frequenzanalyse, Cepstral-Analyse, Dimensionsreduktion und Vektorquantisierung.
    • Fensterfunktion: Ein Transformationspaar w(t) und W(jw) stellt eine Fensterfunktion dar, die bestimmte Eigenschaften (reell, symmetrisch, begrenzter Bereich ungleich Null, normalisiert, schmalbandig) aufweist. Fensterung im Zeitbereich entspricht einer Faltung im Frequenzbereich. Wichtige Fensterfunktionen sind Rechteck-, Hamming-, Hann- und Blackman-Fenster.
    • Wahl der Fensterlänge für Sprachanalyse: Ein Kompromiss zwischen breit- und schmalbandigen Spektrogrammen ist notwendig. Die Zeitlänge der Fenster ist wichtig, um die Kurzzeitstationarität der Sprache zu berücksichtigen (ca. 20-25ms).
    • Mel-Frequenzanalyse: Eine hörorientierten Analyse zur Annäherung menschlicher Wahrnehmung, inspiriert durch die Arbeiten von Homer Dudley (Bell Labs, 1930er Jahre). Phasenabhängige Auslöschung der Signale ist ein Problem, welches durch Summierung der Beträge gelöst werden kann. Mel-Filterbank-Design beinhaltet Dreiecksfilter.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Description

    In diesem Quiz werden die Merkmale im Zeit- und Frequenzbereich behandelt, die in der automatischen Spracherkennung eine wesentliche Rolle spielen. Besonderes Augenmerk liegt auf der Intrasprechervariabilität und der Intersprechervariabilität. Beispiele verdeutlichen die Variation der Aussprache und deren Einfluss auf die Merkmalsextraktion.

    More Like This

    Use Quizgecko on...
    Browser
    Browser