Automatische Spracherkennung: Sprachmodelle - Kapitel 13

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

Welche der folgenden Aussagen beschreibt am besten die Hauptaufgabe von Sprachmodellen in hybriden Spracherkennungssystemen?

  • Die Reduzierung des Rechenaufwands bei der Merkmalsextraktion.
  • Die Umwandlung von akustischen Signalen in phonetische Darstellungen.
  • Die Schätzung der Wahrscheinlichkeit von Wortfolgen oder Sätzen. (correct)
  • Die Optimierung der HMM-Struktur und Parameter.

Wie beeinflusst die Perplexität die Leistung eines Sprachmodells?

  • Die Perplexität misst die Anzahl der benötigten Trainingsdaten.
  • Eine höhere Perplexität führt zu einer geringeren Wortfehlerrate.
  • Die Perplexität hat keinen direkten Einfluss auf die Wortfehlerrate.
  • Eine niedrigere Perplexität deutet auf eine bessere Vorhersagefähigkeit des Modells hin. (correct)

Die Wortfehlerrate (WER) steht in welcher Beziehung zur Perplexität?

  • WER ist umgekehrt proportional zur Quadratwurzel der Perplexität.
  • WER ist direkt proportional zur Perplexität.
  • WER ist unabhängig von der Perplexität.
  • WER ist ungefähr proportional zur Quadratwurzel der Perplexität. (correct)

Welche der folgenden Formeln wird verwendet, um die Perplexität (Q) eines Sprachmodells basierend auf seiner Entropie (H(p)) zu berechnen?

<p>$Q = 2^{H(p)}$ (C)</p> Signup and view all the answers

Was kennzeichnet stochastische Grammatikmodelle?

<p>Sie sind allgemein verwendbar und müssen aus Daten gelernt werden. (D)</p> Signup and view all the answers

Was ist ein wesentlicher Unterschied zwischen stochastischen und formalen Grammatiken im Kontext von Spracherkennungssystemen?

<p>Formale Grammatiken sind spezifisch für eine bestimmte Aufgabe, während stochastische Grammatiken allgemein anwendbar sind. (C)</p> Signup and view all the answers

Welche der folgenden Approximationen wird in einer Bigram-Grammatik verwendet?

<p>$p(w_k | w_{k-1}, ..., w_1) ≈ p(w_k | w_{k-1})$ (B)</p> Signup and view all the answers

Welche Aussage trifft auf N-Gramm-Grammatiken zu, wenn N größer als 2 ist?

<p>Sie passen nicht zur First-Order-Markov-Eigenschaft. (D)</p> Signup and view all the answers

Welche Art von Information wird für die statistische Schätzung von N-Gramm-Sprachmodellen hauptsächlich genutzt?

<p>Relative Häufigkeiten von Wortfolgen in einem Korpus. (C)</p> Signup and view all the answers

Was bedeutet die Interpolation im Kontext von N-Gramm-Sprachmodellen?

<p>Die Kombination von Wahrscheinlichkeiten verschiedener N-Gramm-Ordnungen mit Gewichtungsfaktoren. (D)</p> Signup and view all the answers

Welchen Vorteil bietet das Masked LM Training bei Transformer-Modellen?

<p>Es ermöglicht ein Selbstüberwachtes Lernen auf großen, ungelabelten Datenmengen. (B)</p> Signup and view all the answers

Was beschreibt der Begriff 'Perplexität' im Kontext von Sprachmodellen?

<p>Ein Maß für die Unsicherheit oder Verzweigung in einem Sprachmodell. (B)</p> Signup and view all the answers

Was sind LLMs (Large Language Models) im Kontext der Sprachmodellierung?

<p>Resultierende Modelle, die oft auf der Basis von Transformer trainiert wurden. (A)</p> Signup and view all the answers

Wie funktioniert das Masked LM Training?

<p>Es maskiert zufällig ausgewählte Wörter in einem Satz und trainiert das Modell, diese vorherzusagen. (D)</p> Signup and view all the answers

Was sind formale Grammatiken?

<p>Grammatiken, die spezifisch für eine bestimmte Erkennungsaufgabe sind. (C)</p> Signup and view all the answers

Was ist die 'First-Order Markov Property'?

<p>Beschränkt die Wahrscheinlichkeit eines Wortes nur auf das vorhergehende Wort. (C)</p> Signup and view all the answers

Welchen Vorteil haben Transformer-Modelle, die mit Masked LM Training trainiert wurden?

<p>Sie ermöglichen ein Selbstüberwachtes Lernen auf großen Datenmengen. (D)</p> Signup and view all the answers

Welche Formel wird verwendet, um ein Bigram-Sprachmodell unter Verwendung relativer Häufigkeiten zu schätzen?

<p>$p(w_k | w_{k-1}) = \frac{\text{Anzahl von } w_k \text{ gefolgt von } w_{k-1}}{\text{Anzahl von } w_{k-1}}$ (A)</p> Signup and view all the answers

Welche sind die Hauptbestandteile der Architektur eines Transformer-Modells für die Sprachmodellierung?

<p>Attention-Mechanismen und Feedforward-Netzwerke. (A)</p> Signup and view all the answers

Was ist die Interpretation der Perplexität als 'mittlerer Verzweigungsfaktor'?

<p>Die mittlere Anzahl an möglichen folgenden Wörtern an jeder Position in einem Satz. (C)</p> Signup and view all the answers

Welche Aussage beschreibt am besten, wie Transformer-Modelle trainiert werden?

<p>Sie werden typischerweise durch Selbstüberwachtes Lernen trainiert. (D)</p> Signup and view all the answers

Welche Aufgabe haben Sprachmodelle in der automatischen Spracherkennung?

<p>Sie bewerten die Wahrscheinlichkeit von Wortfolgen. (D)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt korrekt den Nutzen von Sprachmodellen in Spracherkennungssystemen?

<p>Sprachmodelle verbessern die Genauigkeit der Spracherkennung durch die Berücksichtigung grammatikalischer und semantischer Zusammenhänge. (B)</p> Signup and view all the answers

Was ist der Unterschied zwischen Unigram-, Bigram- und N-Gramm-Modellen in Bezug auf die Berücksichtigung von Kontext?

<p>Unigram-Modelle betrachten keinen Kontext, Bigram-Modelle berücksichtigen das vorherige Wort, und N-Gramm-Modelle berücksichtigen N-1 vorherige Wörter. (C)</p> Signup and view all the answers

Welche Rolle spielt die Größe des Vokabulars (Wortschatzes) bei der Erzeugung der Input-Layer in einem N-Gramm-basierten neuronalen Netzwerk?

<p>Die Größe des Vokabulars bestimmt die Anzahl der Neuronen im Input-Layer. (B)</p> Signup and view all the answers

Welchen Vorteil bietet es Transformer-Modelle via Transformer-Training zu schätzen?

<p>Es ermöglicht eine effizientere Nutzung von großen und komplexen Datensätzen. (C)</p> Signup and view all the answers

Was ist der Unterschied zwischen einer Test-Set-Perplexität und der normalen Perplexität?

<p>Die Test-Set-Perplexität wird mithilfe eines separaten Datensatzes berechnet, der nicht zum Trainieren verwendet wurde. (D)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt die Rolle von Sprachmodellen bei der Konstruktion von Verbundwort-HMMs (Hidden Markov Models) am besten?

<p>Sprachmodelle bestimmen die Übergangswahrscheinlichkeiten zwischen den Wortmodellen innerhalb des Verbundwort-HMMs. (C)</p> Signup and view all the answers

Welchen Vorteil bietet die Verwendung von Transformer-Modellen anstelle von traditionellen N-Gramm-Modellen?

<p>Transformer-Modelle berücksichtigen globale Abhängigkeiten in Sequenzen. (D)</p> Signup and view all the answers

Wie unterscheidet sich die Berechnung der Wahrscheinlichkeit einer Wortfolge in einem Unigram-Modell von der in einem Bigram-Modell?

<p>Im Unigram-Modell werden die Wahrscheinlichkeiten der einzelnen Wörter multipliziert, während im Bigram-Modell bedingte Wahrscheinlichkeiten berücksichtigt werden. (B)</p> Signup and view all the answers

Was bedeutet es, dass ein Sprachmodell 'die Wahrscheinlichkeit von Wortfolgen schätzt'?

<p>Das Modell ordnet jeder möglichen Wortfolge eine Wahrscheinlichkeit zu, die angibt, wie wahrscheinlich diese Folge in der betrachteten Sprache ist. (B)</p> Signup and view all the answers

Welche Auswirkung hat die 'Lattice Rescoring'-Technik auf die Leistung eines Spracherkennungssystems?

<p>Sie verbessert die Genauigkeit, indem sie mehrere Hypothesen gleichzeitig berücksichtigt und neu bewertet. (C)</p> Signup and view all the answers

Welche der folgenden Aufgaben kann direkt durch die Anwendung von N-Gramm-Modellen unterstützt werden?

<p>Rechtschreibprüfung. (C)</p> Signup and view all the answers

Inwiefern unterscheidet sich die Funktionsweise von Transformer-basierten Sprachmodellen von traditionellen N-Gramm-Modellen?

<p>Transformer Basierte Sprachmodelle lernen aus weit mehr Informationen als N-Gramm Modelle. (A)</p> Signup and view all the answers

Wozu dient der Projection-Layer in einem neuronalen Netzwerk, das für N-Gramm-Sprachmodellierung verwendet wird?

<p>Die Dimensionalität des Eingangs zu reduzieren. (C)</p> Signup and view all the answers

Wie beeinflusst die Größe des Trainingsdatensatzes die Leistung von N-Gramm-Sprachmodellen?

<p>Ein größerer Datensatz ermöglicht eine bessere Schätzung der Wahrscheinlichkeiten und reduziert die Perplexität, jedoch nur bis zu einem gewissen Punkt. (C)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten den Prozess der 'Lattice Rescoring' im Kontext der Spracherkennung?

<p>Ein Verfahren zur nachträglichen Bewertung verschiedener Hypothesen (Lattices) unter Verwendung eines komplexeren Sprachmodells. (B)</p> Signup and view all the answers

Wie beeinflusst die 'First-Order Markov Property' die Modellierung von Sprache in N-Gramm-Modellen?

<p>Sie vereinfacht die Berechnung, indem sie annimmt, dass die Wahrscheinlichkeit eines Wortes nur vom unmittelbar vorhergehenden Wort abhängt (Bigram-Modell). (B)</p> Signup and view all the answers

Welche Rolle spielen formale Grammatiken bei der Erstellung von Suchgraphen für Command-&-Control-Anwendungen?

<p>Sie definieren die zulässigen Satzstrukturen und Befehle, die das System verstehen kann. (C)</p> Signup and view all the answers

Warum ist die Interpolation eine nützliche Technik bei der Arbeit mit N-Gramm-Sprachmodellen?

<p>Sie kombiniert Wahrscheinlichkeiten verschiedener N-Gramm-Ordnungen, um die Generalisierung zu verbessern und Daten-Sparsamkeit zu adressieren. (D)</p> Signup and view all the answers

Was ist der Hauptvorteil der Verwendung von Transformer-Modellen anstelle von DNNs (Deep Neural Networks) für die Sprachmodellierung?

<p>Transformer-Modelle können längere Abhängigkeiten in Texten besser erfassen und parallelisiert werden. (C)</p> Signup and view all the answers

Wie unterscheidet sich das Training von Transformer-Modellen durch Masked LM von traditionellen Methoden?

<p>Masked LM Training zielt darauf ab, fehlende Wörter in einem Satz vorherzusagen, was dem Modell erlaubt, Kontext besser zu verstehen. (D)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt das Hauptziel der statistischen Schätzung in N-Gramm-Sprachmodellen?

<p>Die Wahrscheinlichkeiten von Wortfolgen basierend auf Trainingsdaten zu bestimmen. (C)</p> Signup and view all the answers

Welche der folgenden Optionen ist ein Vorteil der Verwendung von stochastischen Grammatikmodellen?

<p>Sie sind allgemein verwendbar und können aus Daten gelernt werden. (A)</p> Signup and view all the answers

Wie kann die Perplexität eines Sprachmodells interpretiert werden?

<p>Als Maß für die durchschnittliche Anzahl möglicher folgender Wörter an jeder Position im Text. (C)</p> Signup and view all the answers

Wie beeinflusst die Ordnung eines N-Gramm-Modells die Genauigkeit der Vorhersage und den Bedarf an Trainingsdaten?

<p>Höhere Ordnung erfordert mehr Daten und kann zu höherer Genauigkeit führen, solange genügend Daten vorhanden sind. (C)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt am besten die Beziehung zwischen der Perplexität eines Sprachmodells und der Wortfehlerrate (WER) in einem Spracherkennungssystem?

<p>Die Wortfehlerrate ist proportional zur Quadratwurzel der Perplexität. (D)</p> Signup and view all the answers

Inwiefern unterscheidet sich ein Unigram-Sprachmodell von einem Bigram-Sprachmodell hinsichtlich der Kontextberücksichtigung?

<p>Ein Bigram-Modell berücksichtigt den vorhergehenden Kontext, während ein Unigram-Modell jedes Wort unabhängig behandelt. (A)</p> Signup and view all the answers

Wie beeinflusst das Masked LM Training in Transformer-Modellen die Fähigkeit des Modells, Sprache zu verstehen?

<p>Es ermöglicht dem Modell, bidirektionale Kontexte zu lernen, was zu einem besseren Verständnis der Wortbedeutung im Kontext führt. (B)</p> Signup and view all the answers

Was sind die typischen Bestandteile eines Verbundwort-HMMs (Hidden Markov Model) für die Spracherkennung?

<p>Einzelne Wortmodelle, kombiniert gemäß einem Sprachmodell. (C)</p> Signup and view all the answers

Welche Rolle spielt das 'Development-Set' bei der Optimierung der Gewichte (λ) in interpolierten N-Gramm-Sprachmodellen?

<p>Es wird verwendet, um die Gewichte der verschiedenen N-Gramm-Ordnungen so anzupassen, dass die Perplexität minimiert wird. (C)</p> Signup and view all the answers

Wie wirkt sich die Verwendung einer regulären Grammatik im Vergleich zu einer kontextfreien Grammatik auf die Komplexität eines Spracherkennungssystems aus?

<p>Reguläre Grammatiken sind einfacher zu verarbeiten und führen zu effizienteren Spracherkennungssystemen, sind aber weniger ausdrucksstark. (C)</p> Signup and view all the answers

Welche Eigenschaft von Transformer-Modellen ermöglicht es ihnen, lange Abhängigkeiten in Sequenzen effektiver zu modellieren als traditionelle rekurrenten neuronalen Netze (RNNs)?

<p>Die Implementierung von Aufmerksamkeitsmechanismen (Attention Mechanisms). (C)</p> Signup and view all the answers

Was ist der Hauptunterschied zwischen einem stochastischen und einem formalen Grammatikmodell?

<p>Stochastische Grammatiken lernen aus Daten, während formale Grammatiken vordefiniert sind. (D)</p> Signup and view all the answers

Warum ist es wichtig, die Perplexität auf einem Testdatensatz und nicht nur auf den Trainingsdaten zu messen?

<p>Die Perplexität auf dem Testdatensatz gibt eine Schätzung der Generalisierungsfähigkeit des Modells auf unbekannte Daten. (A)</p> Signup and view all the answers

Welche der folgenden Formeln beschreibt die Interpolation eines Trigramm-Sprachmodells am genauesten, wobei $P_{interp}(w_k | w_{k-1}, w_{k-2})$ die interpolierte Wahrscheinlichkeit, $\lambda$ die Gewichte und $P$ die jeweiligen N-Gramm-Wahrscheinlichkeiten sind?

<p>$P_{interp}(w_k | w_{k-1}, w_{k-2}) = \lambda_{trigram} \cdot P(w_k | w_{k-1}, w_{k-2}) + \lambda_{bigram} \cdot P(w_k | w_{k-1}) + \lambda_{unigram} \cdot P(w_k)$ (C)</p> Signup and view all the answers

Warum ist die Verwendung von Sprachmodellen in hybriden Spracherkennungssystemen wichtig?

<p>Sprachmodelle helfen, plausible Wortfolgen zu identifizieren und die Erkennungsgenauigkeit zu verbessern. (D)</p> Signup and view all the answers

Welche Aussage trifft auf N-Gramm-Modelle höherer Ordnung (N > 2) im Vergleich zu Bigram-Modellen zu?

<p>Sie modellieren Abhängigkeiten über weitere Distanzen im Satz. (B)</p> Signup and view all the answers

Was ist das Hauptziel des Masked Language Model (MLM) Trainings bei Transformer-basierten Sprachmodellen?

<p>Dem Modell beizubringen, fehlende Wörter in einem Satz basierend auf dem umgebenden Kontext vorherzusagen. (C)</p> Signup and view all the answers

Was ist ein entscheidender Unterschied zwischen formalen und stochastischen Grammatiken im Kontext der automatischen Spracherkennung?

<p>Formale Grammatiken beschreiben explizit syntaktische Strukturen, während stochastische Grammatiken Wahrscheinlichkeiten für verschiedene Wortfolgen zuordnen. (A)</p> Signup and view all the answers

Welche der folgenden Aussagen charakterisiert am besten die Anwendung von N-Gramm-Modellen in der Praxis, insbesondere bei begrenzten Datenmengen?

<p>Die Verwendung von Interpolationstechniken ist entscheidend, um die Leistung zu verbessern und das Problem der Datensparsamkeit zu mildern. (B)</p> Signup and view all the answers

Welche der folgenden Methoden wird verwendet, um die Leistung von Sprachmodellen in Bezug auf ihre Fähigkeit, unbekannte Sätze zu verarbeiten, zu bewerten?

<p>Berechnung der Perplexität auf einem separaten Testdatensatz. (A)</p> Signup and view all the answers

Warum werden stochastische Grammatikmodelle als 'allgemein verwendbar' im Kontext der Spracherkennung beschrieben?

<p>Weil sie aus Daten gelernt werden können und somit an verschiedene Sprachen und Domänen anpassbar sind. (C)</p> Signup and view all the answers

Was geschieht bei der 'Interpolation' in N-Gramm-Sprachmodellen?

<p>Die Wahrscheinlichkeiten verschiedener N-Gramm-Ordnungen werden kombiniert, um bessere Vorhersagen zu treffen. (A)</p> Signup and view all the answers

In welchen Bereichen der Forschung und Entwicklung werden N-Gramm-Modelle typischerweise eingesetzt?

<p>In verschiedenen Bereichen wie maschinelle Übersetzung, Spracherkennung und Rechtschreibkorrektur. (D)</p> Signup and view all the answers

Welche Auswirkung hat eine hohe Perplexität auf die Leistung eines Spracherkennungssystems?

<p>Sie deutet auf eine schlechtere Erkennungsgenauigkeit hin, da das Modell unsicher ist. (D)</p> Signup and view all the answers

Welche der folgenden Architekturen wird typischerweise für die neuronale Modellierung von N-Gramm-Sprachmodellen verwendet, um die Dimensionalität der Eingabe zu reduzieren?

<p>Projection Layer (C)</p> Signup and view all the answers

Flashcards

Was sind Sprachmodelle?

Verbindungen von Wortmodellen durch statistische Grammatiken.

Was ist Perplexität?

Die durchschnittliche Anzahl möglicher verschiedener Worte in jedem Dialogschritt.

WER und Perplexität?

Die Wortfehlerrate (WER) ist proportional zur Wurzel der Perplexität.

Was ist die Wirkung der Perplexitätsreduktion?

Eine Reduktion der Perplexität führt zu einer geringeren Wortfehlerrate.

Signup and view all the flashcards

Was ist Entropie?

Die mittlere Anzahl von Bits, die zur Codierung aller Zeichen eines Datensatzes benötigt werden.

Signup and view all the flashcards

Stochastische Grammatikmodelle

Allgemein verwendbare Modelle, die gelernt werden müssen.

Signup and view all the flashcards

Formale Grammatiken

Spezifisch für Erkenner-Task, können vorab definiert werden.

Signup and view all the flashcards

Unigram-Grammatik

Approximiert die Wahrscheinlichkeit eines Wortes unabhängig vom Kontext.

Signup and view all the flashcards

Bigram-Grammatik

Approximiert die Wahrscheinlichkeit eines Wortes basierend auf dem vorherigen Wort.

Signup and view all the flashcards

N-gram-Grammatik

Approximiert die Wahrscheinlichkeit eines Wortes basierend auf den N-1 vorherigen Wörtern.

Signup and view all the flashcards

Interpolation

Kombiniert Wahrscheinlichkeiten verschiedener N-Gram-Modelle.

Signup and view all the flashcards

Vorteil von Transformer-Training?

Selbstüberwachtes Lernen auf großen Datenmengen.

Signup and view all the flashcards

Generative Pre-trained Transformer (GPT)

Modelle wie GPT, die mit Transformer-Architektur trainiert wurden.

Signup and view all the flashcards

Transformer-Modelle

Die Modellstruktur, die in modernen Sprachmodellen verwendet wird.

Signup and view all the flashcards

Masked LM Training

Eine Technik, bei der fehlende Wörter im Training geschätzt werden.

Signup and view all the flashcards

Was ist p(wk|Wk-1...W₁) ?

Darstellung der Wahrscheinlichkeit einer Wortfolge.

Signup and view all the flashcards

Formel für Test-Set-Perplexität?

Q = P(W₁, W₂... Wₘ)^(-1/M)

Signup and view all the flashcards

Study Notes

Grundlagen der automatischen Spracherkennung

  • Kapitel 13 behandelt Grammatiken & Sprachmodelle.
  • Die Vorlesung wird von Prof. Dr.-Ing. Dorothea Kolossa gehalten.
  • Das Datum ist der 4. Februar 2025.
  • Die Veranstaltung findet am FG Elektronische Systeme der Medizintechnik (mtec) statt.

Überblick und Ziele von Sprachmodellen

  • Sprachmodelle sind ein notwendiger Bestandteil von hybriden Spracherkennungssystemen.
  • Sie schätzen die Wahrscheinlichkeit von Wortfolgen oder Sätzen.
  • Sprachmodelle werden auch in statistischen und Ende-zu-Ende-Modellen verwendet.
  • Gute Statistische Sprachmodelle sind in statistischen, in hybriden & in Ende-zu-Ende-Modellen sehr effektiv (z.B. [SLNK20]).

Nutzen von Sprachmodellen

  • Sprachmodelle beschreiben die Verbindung von Wortmodellen durch eine statistische Grammatik.
  • Die statistische Grammatik wird dargestellt als: p̂ (wk |wk −1... w1 ).
  • Perplexität: Die Perplexität ist ein Maß für die mittlere Anzahl möglicher unterschiedlicher Worte in jedem Dialogschritt.
  • Die Wortfehlerrate (WER) ist ungefähr proportional zur Wurzel der Perplexität.
  • Sprachmodelle tragen zur Reduzierung der Perplexität bei.
  • Sprachmodelle können die Perplexität um einen Faktor von 10 bis 100 senken.

Berechnung der Perplexität

  • Die Formel zur Berechnung der Perplexität ist Q = 2H(p̂ ).
  • H(p̂ ) ist die Entropie des Sprachmodells.
  • Entropie ist die mittlere Anzahl von Bits, die zur Kodierung aller Zeichen (Worte) eines Datensatzes benötigt werden.
  • Formel zur Berechnung der Perplexität:
    • = 2E(− log2 (p̂ (wk |wk −1...w1 )))
    • = 2PMk =1− M1 log2 (p̂ (wk |wk −1...w1 ))
    • =QPMk =12− M log2 (p̂ (wk |wk −1...w1 ))
    • = PMk =11p̂ (wk |wk −1... w1 )1M
    • = 1P̂ (w1 , w2... wM )1M
    • == P̂ (w1 , w2... wM )− M1

Grammatiktypen

  • Es gibt zwei Haupttypen von Grammatiken: stochastische und formale.
  • Stochastische Grammatikmodelle: diese sind allgemein verwendbar und müssen gelernt werden
  • Formale Grammatiken: Spezifisch für Erkenner-Tasks und können vorab definiert werden.

Stochastische Modelle

  • Stochastische Modelle approximieren p(wk | wk-1, ..., w1).
  • Unigramm-Grammatik: p(wk | wk-1, ..., w1) ≈ p(wk)
  • Bigramm-Grammatik: p(wk | wk-1, ..., w1) ≈ p(wk | wk-1)
  • N-Gramm-Grammatik: p(wk | wk-1, ..., w1) ≈ p(wk | wk-1, ..., wk-(N-1))
  • N-Gramm-Grammatik eignet sich nicht für die First-Order-Markov-Eigenschaft.

Statistische Schätzung

  • Die statistische Schätzung erfolgt über relative Häufigkeiten.
  • Unigramm-Grammatik: p̂ (wk ) =PMk :Wk =wk 1PMk 1
  • Bigramm-Grammatik: p̂ (wk | wk −1 ) =PMk :Wk =wk &Wk −1 =wk −1 1PMk :Wk −1 =wk −1 1
  • N-Gramm-Grammatik: p̂ (wk | wk −1 ,... , wk −(N −1) ) =PMk :Wk =wk &Wk −1 =wk −1...&Wk −(N −1) =wk −(N −1)1PMk :Wk −1 =wk −1...&Wk −(N −1) =wk −(N −1) 1

Interpolation für Trigramme

  • Eine Lösung für Trigramme ist die Interpolation.
  • Die Formel für die Interpolation ist:
  • p̂interp (wk | wk −1 , wk −2 ) = λtrigram · p̂ (wk | wk −1 , wk −2 )+ λbigram · p̂ (wk | wk −1 )+ λunigram · p̂ (wk )
  • Die Gewichte λ können auf einem Development-Set optimiert werden.

Google N-Grams

Schätzung via DNN

  • N-Gramm-Modelle können neuronal modelliert werden
  • Frühe erfolgreiche Modelltopologie:
  • Input-Layer: (N − 1) × W , wobei jedes Wort 1-aus-W codiert wird (mit W als Größe des Wortschatzes + 1 ). Der Input-Layer erhält die Wort-Historie bis wk −1.
  • Projection-Layer: Reduziert Dimension, z.B. auf (N − 1) × 30
  • Output-Layer: Softmax-Layer, Größe = W , interpretiert als p̂DNN (wk | wk −1 ,... , w(K −(N −1)) )
  • [BDV03]

Schätzung via Transformer-Training

Formale Grammatiken

  • Formale Grammatiken können entsprechend der Chomsky-Hierarchie in Typen eingeteilt werden.
  • Die Chomsky-Hierarchie gliedert sich wie folgt:
    • Allgemeine Grammatiken (Typ 0)
    • Kontextsensitive Grammatiken (Typ 1)
    • Kontextfreie Grammatiken (Typ 2)
    • Reguläre Grammatiken (Typ 3)
  • Reguläre Grammatiken werden bei der Erzeugung von Suchgraphen für Command-&-Control-Anwendungen oft spezifiziert.

Bewertung von Sprachmodellen

  • Die Wortfehlerrate (WER) sinkt etwa um die Wurzel der Perplexitätsreduktion.
  • Es ist wichtig, das Sprachmodell zu finden, das die kleinste Perplexität für eine gegebene Aufgabe bietet.
  • Hierfür benötigt man die Perplexität, formal Q = 2H(p̂ ), wobei H(p̂ ) die Entropie des Sprachmodells ist.

Test-Set-Perplexität

  • Die Test-Set-Perplexität wird durch folgende Formel berechnet: Q = P̂ (w1 , w2... wM )− M1
  • Interessante Beispiele sind Ziffernketten und GPT-2.
  • Die Perplexität kann als mittlerer Verzweigungsfaktor des Sprachmodells interpretiert werden.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

Use Quizgecko on...
Browser
Browser