ASE-VL7 PDF - Grundlagen der automatischen Spracherkennung

Document Details

BenevolentPerception2174

Uploaded by BenevolentPerception2174

Technische Universität Berlin

2024

Dorothea Kolossa

Tags

statistical inference machine learning automatic speech recognition mathematics

Summary

This document provides an overview of the foundations of automatic speech recognition. It covers statistical concepts and classification techniques, including Bayes' theorem and probability theory, within the context of speech technology.

Full Transcript

Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Grundlagen der automatischen Spracherkennung Kapitel 7: Statistische Grundlagen & Klassifikation Prof. Dr.-Ing. Dorothea Kolossa...

Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Grundlagen der automatischen Spracherkennung Kapitel 7: Statistische Grundlagen & Klassifikation Prof. Dr.-Ing. Dorothea Kolossa November 26, 2024 FG Elektronische Systeme der Medizintechnik (mtec) Kapitel 7: Statistische Grundlagen & Klassifikation 1 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Outline 1 Statistik 2 Diskrete Zufallsvariablen 3 Satz von Bayes 4 Klassifikation Kapitel 7: Statistische Grundlagen & Klassifikation 1 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Zufallsexperimente Die klassische Wahrscheinlichkeitsrechnung befasst sich mit Ergebnissen von Zufallsexperimenten. Ein Zufallsexperiment ist ein Experiment zu dem der Raum aller möglichen Ergebnisse bekannt ist, bei dem man aber im Voraus den Ausgang eines konkreten Versuchs nicht kennt und das unter identischen Bedingungen wiederholt werden kann. Den Raum aller möglichen Ergebnisse eines Zufallsexperiments bezeichnet man als den Ereignisraum ⌦. Kapitel 7: Statistische Grundlagen & Klassifikation 2 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Wahrscheinlichkeit “klassisch” Wenn dann bei N Versuchen ein Ereignis aus Teilmenge A 2 ⌦ K -mal auftritt, bezeichnet man mit K PN (A ) = N die relative Häufigkeit von A. Die Wahrscheinlichkeit von A könnte definiert werden als der Grenzwert der relativen Häufigkeit.1 Dann wäre P(A ) = lim PN (A ) N !1 1 Das wäre die frequentistische Sicht, die Definition stammt von von Mises. Kapitel 7: Statistische Grundlagen & Klassifikation 3 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Wahrscheinlichkeit axiomatisch Drei Axiome von Kolmogoroff: 1 P(A ) 0 2 P(⌦) = 1 3 wenn A \ B = ? gilt: P(A [ B ) = P(A ) + P(B ) Kapitel 7: Statistische Grundlagen & Klassifikation 4 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Moderne, maßtheoretische Sicht (I) Sigma-Algebra: Eine Menge von Mengen A heißt -Algebra, wenn sie und alle ihre Elemente Ai den folgenden Bedingungen genügen: 1 ⌦2A 2 Für A 2 A gilt auch A 2 A, das heißt die Menge ist abgeschlossen unter Komplementbildung 3 Wenn für alle i gilt, dass Ai 2 A liegt, gilt auch [8i Ai 2 A, das heißt die Menge ist abgeschlossen unter der Vereinigung von endlich vielen (oder abzählbar unendlich vielen) Teilmengen. Kapitel 7: Statistische Grundlagen & Klassifikation 5 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Moderne, maßtheoretische Sicht (II) Wahrscheinlichkeitsmaß: Für eine Sigma-Algebra A, die zu einem Ereignisraum ⌦ passt, ist P (A ) für A 2 A genau dann ein Wahrscheinlichkeitsmaß, wenn folgende drei Bedingungen erfüllt sind: 1 P(A ) 0 2 P(⌦) = 1 3 wenn Ai \ Aj = ? gilt: P(Ai [ Aj ) = P(Ai ) + P(Aj ) Kapitel 7: Statistische Grundlagen & Klassifikation 6 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Wahrscheinlichkeiten mit Bayes & Jaynes Man kann Wahrscheinlichkeiten auch ganz anders einführen, unter Verzicht auf relative Häufigkeiten in unendlich vielen Experimenten, und ohne die obigen, expliziten Axiome. Das zeigt E.T. Jaynes in [Jay03], wo Wahrscheinlichkeiten mit dem Grad der Plausibilität eines bestimmten Ereignisses gleichgesetzt werden. Jaynes zeigt, wie aus folgenden drei Annahmen alle Regeln (und die obigen Axiome) der Wahrscheinlichkeitsrechnung folgen: Kapitel 7: Statistische Grundlagen & Klassifikation 7 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Wahrscheinlichkeiten mit Bayes & Jaynes Plausibilität P sollte durch reelle Zahlen dargestellt werden. Je größer P, desto größer die Plausibilität. Vernünftigkeit, z.B.: Wenn Aussage A durch die Wahrheit von Aussage C plausibler wird, soll gelten P (A |C ) > P (A |C ) Konsistenz, d.h. Jede äquivalente Art, eine Plausibilität zu berechnen, sollte zum selben Ergebnis führen, also z.B. P (A , B ) = P (B , A ). Alle äquivalenten Zustände der Welt sollten den gleichen Grad an Plausibilität besitzen. Es sollten immer alle vorhandenen Informationen verwendet werden. Kapitel 7: Statistische Grundlagen & Klassifikation 8 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Wahrscheinlichkeiten mit Bayes & Jaynes Jaynes zeigt in [Jay03], wie Kolmogoroffs Axiome aus seinen Desiderata folgen, wenn man P mit der bekannten Wahrscheinlichkeit P gleichsetzt. Damit können gleichzeitig die Werkzeuge der Aussagenlogik auf unsicheres Schließen erweitert werden. Diese Definition der Wahrscheinlichkeit ist objektiv - jeder rationale Agent mit dem selben Wissensstand muss zur selben Einschätzung einer Wahrscheinlichkeit kommen. So kann man mit geringen Datenmengen und in ’ill-posed problems’ - nicht exakt deterministisch lösbaren Fragen - optimal schließen. Siehe https://www.cantorsparadise.com/ the-two-schools-of-probability-theory-76d0c0c8198d für zugängliche Kurzfassung. Kapitel 7: Statistische Grundlagen & Klassifikation 9 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Outline 1 Statistik 2 Diskrete Zufallsvariablen 3 Satz von Bayes 4 Klassifikation Kapitel 7: Statistische Grundlagen & Klassifikation 10 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Zufallsvariablen Eine Zufallsvariable ist eine Funktion X : ⌦ ! R die aus dem Ereignisraum auf R abbildet. Beispiel (Skat): Kartenwert ! Punkte x:7 ! 0 8 ! 0 9 ! 0 10 ! 10 B ! 2 D ! 3 K ! 4 As ! 11 Man unterscheidet diskrete & kontinuierliche Zufallsvariablen. Kapitel 7: Statistische Grundlagen & Klassifikation 11 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Diskrete Zufallsvariablen (I) Diskrete Zufallsvariablen haben eine endliche Zahl möglicher Werte werden beschrieben durch eine Verteilungsdichte P(X = a ) = PX (a ) X ist die Zufallsvariable, a einer ihrer möglichen Werte. Beispiel Kapitel 7: Statistische Grundlagen & Klassifikation 12 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Diskrete Zufallsvariablen (II) Die Verteilungsfunktion ist die kumulative Summe über die Verteilungsdichte: def FX (a ) = P(X  a ) P ! Wichtig ist die Normierungsbedingung: a 2⌦ PX (a ) = 1. Kapitel 7: Statistische Grundlagen & Klassifikation 13 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Eigenschaften von Zufallsvariablen Den Mittelwert einer Meßreihe erhält man aus T 1X mT = x (i ). T i =1 Der Erwartungswert ist dagegen eine Eigenschaft der Zufallsvariable X X E( X ) = PX ( x ) · x 8x 2⌦ Man kann ihn sich als Mittelwert über unendlich viele Versuche (T ! 1) vorstellen. Kapitel 7: Statistische Grundlagen & Klassifikation 14 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Eigenschaften von Zufallsvariablen Der Erwartungswert einer Funktion g (X ) der Zufallsvariable wird fast wie der Erwartungswert selbst berechnet: X E( X ) = PX ( x ) · x 8x 2⌦ X E(g (X )) = PX ( x ) · g ( x ) 8x 2⌦ Kapitel 7: Statistische Grundlagen & Klassifikation 15 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Momente von Zufallsvariablen Mit Hilfe dieser Definition kann man folgende interessante Erwartungswerte betrachten: def 1. Moment: E (x ) = µx 2. Moment: E (x 2 ) 3. Moment: E (x 3 )... N. Moment: E (x N ) und 2. zentrales Moment: E ((x µx )2 ) = 2 x (Varianz) mit x als Standardabweichung 3. zentrales Moment: E ((x µx )3 )... N. zentrales Moment: E ((x µx )N ) Kapitel 7: Statistische Grundlagen & Klassifikation 16 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Outline 1 Statistik 2 Diskrete Zufallsvariablen 3 Satz von Bayes 4 Klassifikation Kapitel 7: Statistische Grundlagen & Klassifikation 17 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Bedingte Wahrscheinlichkeiten Die bedingte Wahrscheinlichkeit eines Ereignisses A , gegeben Ereignis B, ist: def P (A , B ) P(A |B ) =. P (B ) Einfaches Beispiel Ereignisraum E mit zwei Ereignissen A , B Kapitel 7: Statistische Grundlagen & Klassifikation 18 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Satz von Bayes Gemeinsame Wahrscheinlichkeiten können auf zwei Arten berechnet werden P(A , B ) = P(A |B )P(B )=P(A )P(B |A ) Deswegen gilt der Satz von Bayes P(B |A )P(A ) P(A |B ) = P(B ) (und umgekehrt) Kapitel 7: Statistische Grundlagen & Klassifikation 19 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Satz von Bayes Wichtige Anwendung: Umkehr von Schlussrichtungen. Angenommen, wir wissen, dass 1 Ein diagnostischer Test T auf eine seltene Erkrankung bei uns positiv war. 2 Der Test sehr sensitiv ist, also quasi immer anschlägt, wenn die Erkrankung vorliegt: P (T |E ) = 0.9999 6 3 die Krankheit aber sehr selten: P (E ) = 1 ⇥ 10 4 und der Test nicht sehr spezifisch ist, sodass er in 10% der Tests anschlägt, P (T ) = 0.1 Wie große Sorgen sollten wir uns machen? Kapitel 7: Statistische Grundlagen & Klassifikation 20 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Statistische Unabhängigkeit Zwei Ereignisse A und B sind genau dann statistisch unabhängig, wenn gilt P(A , B ) = P(A )P(B ) Wann ist das der Fall? Dafür muss also gelten: P(A |B ) = P(A ) bzw. P(B |A ) = P(B ) Kapitel 7: Statistische Grundlagen & Klassifikation 21 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Outline 1 Statistik 2 Diskrete Zufallsvariablen 3 Satz von Bayes 4 Klassifikation Kapitel 7: Statistische Grundlagen & Klassifikation 22 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Klassifikation Aufgabe: Teile Objekte automatisch in Klassen ein Figure: Beispiele von https://www.kaggle.com/competitions Kapitel 7: Statistische Grundlagen & Klassifikation 23 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Klassifikation Struktur s(t) Feature x Klassifikation Klassenidentität k Extraction Feature Extraction Featurevektor x sollte diskriminativ sein (für die gegebenen Klassen) Klassifikation Viele interessante Methoden! Zwei besonders interessante für Zeitreihen (wie Sprache) Statistische Klassifikatoren Deep Neural Networks (DNNs) Kapitel 7: Statistische Grundlagen & Klassifikation 24 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Maximum-Likelihood-Klassifikation Gegeben Klassen k = 1... K , z.B. k=1 - Konsonant k=2 - Vokal k=3 - Hintergrundgeräusche Merkmalsvektor x zugehörige Verteilungsdichten pX (x|k = 1)... pX (x|k = K ) Klassifikation Versuch 1: Maximum-Likelihood-Klassifikation k̂ = arg max p(x|k ) k =1...K Kapitel 7: Statistische Grundlagen & Klassifikation 25 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Maximum-Likelihood-Klassifikation Klassifikation Versuch 1: Maximum-Likelihood-Klassifikation k̂ = arg max p(x|k ) k =1...K 0.6 p(x|k2 ) 0.5 p(x|k1 ) 0.4 p(x|k) 0.3 p(x|k3 ) 0.2 0.1 0 0 1 2 3 4 5 6 7 Nulldurchgangsrate Kapitel 7: Statistische Grundlagen & Klassifikation 26 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Bayes-Klassifikation Klassifikation Versuch 2: Bayes-Klassifikation k̂ = arg max p(k |x) k =1...K p(x|k )p(k ) = arg max k =1...K p(x) = arg max p(x|k )p(k ) k =1...K Weil der Bayes-Klassifikator k̂ = arg max P(k |x). k immer die Klasse auswählt, deren a-posteriori-Wahrscheinlichkeit P(k |x) maximal ist, wird er in der Literatur auch als MAP-Klassifikator bezeichnet. Kapitel 7: Statistische Grundlagen & Klassifikation 27 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Maximum-a-Posteriori-Klassifikation Klassifikation: Versuch 2: Bayes-Klassifikation k̂ = arg max p(x|k )p(k ) k =1...K 0.6 0.5 0.4 p(x|k) 0.3 0.2 p(x|k2 ) · p(k2 ) p(x|k1 ) · p(k1 ) p(x|k3 ) · p(k3 ) 0.1 0 0 1 2 3 4 5 6 7 Nulldurchgangsrate Kapitel 7: Statistische Grundlagen & Klassifikation 28 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Optimale Klassifikation Maximum-Likelihood vs. Bayes-Klassifikation Der Bayes-Klassifikator “erkennt” häufiger die wahrscheinlichen Klassen Positiv daran: Vorwissen kann berücksichtigt werden, dadurch oft geringere Fehlerrate Negativ: Unwahrscheinliche Klassen werden selten erkannt. Problematisch, wenn seltene Fälle hohe Kosten verursachen. Naheliegende Frage: Wie findet man für jeden Fall den optimalen Klassifikator? Kapitel 7: Statistische Grundlagen & Klassifikation 29 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Optimale Klassifikation (I) Optimale Klassifikation 1. Schritt: Festlegung des Kriteriums für Optimalität. Am einfachsten: Jeder Fehlentscheidung Kosten zuordnen, also eine Kostenfunktion definieren. Z.B.: cij beschreibt die Kosten, die entstehen, wenn Klasse i als Klasse j klassifiziert wird. Bei zwei Klassen, 0 mit defekten Teilen und 1 mit Teilen, die o.k. sind, könnte man die Kostenfunktion so definieren: c00 = 0 c11 = 0 c10 = Herstellungskosten, evtl. Entsorgungskosten c01 = Ausfallkosten, Haftung, Imageschäden. Kapitel 7: Statistische Grundlagen & Klassifikation 30 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Optimale Klassifikation (II) 2. Schritt Nach Festlegung der Kostenfunktion cij : Minimierung der im Mittel auftretenden Kosten, also des Erwartungswerts der Kostenfunktion E(cij ). Definition: Risikofunktion Rj = E(cij ). Berechnung der Risikofunktion als Funktion v. Merkmalsvektor x & Klassifikationsentscheidung N X Rj (x) = E(cij ) = P(i |x)cij (1) i =1 Dabei ist i die wahre Klasse, die den Daten zugrundeliegt, und j ist die, die vom Klassifikationsverfahren “erkannt” wird. Kapitel 7: Statistische Grundlagen & Klassifikation 31 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Optimale Klassifikation (III) Treffe für Merkmalsvektor x die Klassifikationsentscheidung, mit der die zu erwartenden Kosten minimiert werden: N X k̂ = arg min Rj (x) = arg min P(i |x)cij. j j i =1 So ist die Klassifikationsvorschrift vollständig bestimmt, sobald die Entscheidung für eine Kostenfunktion cij gefallen ist. Kapitel 7: Statistische Grundlagen & Klassifikation 32 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Beispiel zu optimaler Klassifikation (I) Bestrafe alle Fehlentscheidungen gleich hart: 8 > cij = > > :c sonst kurz: cij = c(1 ij ) mit der Delta-Funktion 8 > ij => > :0 sonst Kapitel 7: Statistische Grundlagen & Klassifikation 33 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Beispiel zu optimaler Klassifikation (II) Die Risikofunktion Rj (x) bei Entscheidung für Klasse j folgt aus Gleichung (1): N X Rj (x) = cij P(i |x) i =1 N X = c(1 ij )P(i |x) i =1 N X = c P(i |x) i =1,i ,j Kapitel 7: Statistische Grundlagen & Klassifikation 34 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Beispiel zu optimaler Klassifikation (III)... N X Rj (x) = c P(i |x) i =1,i ,j 2 3 666 X N 777 = c 66664 P(i |x) + P(j |x) P(j |x)77775 i =1,i ,j 2 N 3 666X 777 = c 646 6 P(i |x) P(j |x)7757 i =1, = c [1 P(j |x)]. Daher ist die Risikofunktion bei konstanten Kosten: Rj (x) = c cP(j |x). Kapitel 7: Statistische Grundlagen & Klassifikation 35 / 37 Statistik Diskrete Zufallsvariablen Satz von Bayes Klassifikation Beispiel zu optimaler Klassifikation (IV) Um diese Risikofunktion bei konstanten Kosten Rj (x) = c cP(j |x). durch Wahl der Klasse j zu minimieren, muss P(j |x) maximiert werden k̂ = arg min Rj (x) = arg max P(j |x). j j Das ist genau die Klassifikationsregel des Bayes-Klassifikators - dieser ist also immer dann optimal, wenn alle Fehlklassifikation gleich große Problemen verursachen & man P(j |x) halbwegs zuverlässig berechnen kann. Hierfür in der nächsten Vorlesung: Tiefe neuronale Netze zur Klassifikation, mit der Schätzung von P(j |x) als Zwischenschritt Kapitel 7: Statistische Grundlagen & Klassifikation 36 / 37

Use Quizgecko on...
Browser
Browser