Podcast
Questions and Answers
Welche der folgenden Aussagen beschreibt am besten die Hauptaufgabe von Sprachmodellen in hybriden Spracherkennungssystemen?
Welche der folgenden Aussagen beschreibt am besten die Hauptaufgabe von Sprachmodellen in hybriden Spracherkennungssystemen?
- Die Reduzierung des Rechenaufwands bei der Merkmalsextraktion.
- Die Umwandlung von akustischen Signalen in phonetische Darstellungen.
- Die Schätzung der Wahrscheinlichkeit von Wortfolgen oder Sätzen. (correct)
- Die Optimierung der HMM-Struktur und Parameter.
Wie beeinflusst die Perplexität die Leistung eines Sprachmodells?
Wie beeinflusst die Perplexität die Leistung eines Sprachmodells?
- Die Perplexität misst die Anzahl der benötigten Trainingsdaten.
- Eine höhere Perplexität führt zu einer geringeren Wortfehlerrate.
- Die Perplexität hat keinen direkten Einfluss auf die Wortfehlerrate.
- Eine niedrigere Perplexität deutet auf eine bessere Vorhersagefähigkeit des Modells hin. (correct)
Die Wortfehlerrate (WER) steht in welcher Beziehung zur Perplexität?
Die Wortfehlerrate (WER) steht in welcher Beziehung zur Perplexität?
- WER ist umgekehrt proportional zur Quadratwurzel der Perplexität.
- WER ist direkt proportional zur Perplexität.
- WER ist unabhängig von der Perplexität.
- WER ist ungefähr proportional zur Quadratwurzel der Perplexität. (correct)
Welche der folgenden Formeln wird verwendet, um die Perplexität (Q) eines Sprachmodells basierend auf seiner Entropie (H(p)) zu berechnen?
Welche der folgenden Formeln wird verwendet, um die Perplexität (Q) eines Sprachmodells basierend auf seiner Entropie (H(p)) zu berechnen?
Was kennzeichnet stochastische Grammatikmodelle?
Was kennzeichnet stochastische Grammatikmodelle?
Was ist ein wesentlicher Unterschied zwischen stochastischen und formalen Grammatiken im Kontext von Spracherkennungssystemen?
Was ist ein wesentlicher Unterschied zwischen stochastischen und formalen Grammatiken im Kontext von Spracherkennungssystemen?
Welche der folgenden Approximationen wird in einer Bigram-Grammatik verwendet?
Welche der folgenden Approximationen wird in einer Bigram-Grammatik verwendet?
Welche Aussage trifft auf N-Gramm-Grammatiken zu, wenn N größer als 2 ist?
Welche Aussage trifft auf N-Gramm-Grammatiken zu, wenn N größer als 2 ist?
Welche Art von Information wird für die statistische Schätzung von N-Gramm-Sprachmodellen hauptsächlich genutzt?
Welche Art von Information wird für die statistische Schätzung von N-Gramm-Sprachmodellen hauptsächlich genutzt?
Was bedeutet die Interpolation im Kontext von N-Gramm-Sprachmodellen?
Was bedeutet die Interpolation im Kontext von N-Gramm-Sprachmodellen?
Welchen Vorteil bietet das Masked LM Training bei Transformer-Modellen?
Welchen Vorteil bietet das Masked LM Training bei Transformer-Modellen?
Was beschreibt der Begriff 'Perplexität' im Kontext von Sprachmodellen?
Was beschreibt der Begriff 'Perplexität' im Kontext von Sprachmodellen?
Was sind LLMs (Large Language Models) im Kontext der Sprachmodellierung?
Was sind LLMs (Large Language Models) im Kontext der Sprachmodellierung?
Wie funktioniert das Masked LM Training?
Wie funktioniert das Masked LM Training?
Was sind formale Grammatiken?
Was sind formale Grammatiken?
Was ist die 'First-Order Markov Property'?
Was ist die 'First-Order Markov Property'?
Welchen Vorteil haben Transformer-Modelle, die mit Masked LM Training trainiert wurden?
Welchen Vorteil haben Transformer-Modelle, die mit Masked LM Training trainiert wurden?
Welche Formel wird verwendet, um ein Bigram-Sprachmodell unter Verwendung relativer Häufigkeiten zu schätzen?
Welche Formel wird verwendet, um ein Bigram-Sprachmodell unter Verwendung relativer Häufigkeiten zu schätzen?
Welche sind die Hauptbestandteile der Architektur eines Transformer-Modells für die Sprachmodellierung?
Welche sind die Hauptbestandteile der Architektur eines Transformer-Modells für die Sprachmodellierung?
Was ist die Interpretation der Perplexität als 'mittlerer Verzweigungsfaktor'?
Was ist die Interpretation der Perplexität als 'mittlerer Verzweigungsfaktor'?
Welche Aussage beschreibt am besten, wie Transformer-Modelle trainiert werden?
Welche Aussage beschreibt am besten, wie Transformer-Modelle trainiert werden?
Welche Aufgabe haben Sprachmodelle in der automatischen Spracherkennung?
Welche Aufgabe haben Sprachmodelle in der automatischen Spracherkennung?
Welche der folgenden Aussagen beschreibt korrekt den Nutzen von Sprachmodellen in Spracherkennungssystemen?
Welche der folgenden Aussagen beschreibt korrekt den Nutzen von Sprachmodellen in Spracherkennungssystemen?
Was ist der Unterschied zwischen Unigram-, Bigram- und N-Gramm-Modellen in Bezug auf die Berücksichtigung von Kontext?
Was ist der Unterschied zwischen Unigram-, Bigram- und N-Gramm-Modellen in Bezug auf die Berücksichtigung von Kontext?
Welche Rolle spielt die Größe des Vokabulars (Wortschatzes) bei der Erzeugung der Input-Layer in einem N-Gramm-basierten neuronalen Netzwerk?
Welche Rolle spielt die Größe des Vokabulars (Wortschatzes) bei der Erzeugung der Input-Layer in einem N-Gramm-basierten neuronalen Netzwerk?
Welchen Vorteil bietet es Transformer-Modelle via Transformer-Training zu schätzen?
Welchen Vorteil bietet es Transformer-Modelle via Transformer-Training zu schätzen?
Was ist der Unterschied zwischen einer Test-Set-Perplexität und der normalen Perplexität?
Was ist der Unterschied zwischen einer Test-Set-Perplexität und der normalen Perplexität?
Welche der folgenden Aussagen beschreibt die Rolle von Sprachmodellen bei der Konstruktion von Verbundwort-HMMs (Hidden Markov Models) am besten?
Welche der folgenden Aussagen beschreibt die Rolle von Sprachmodellen bei der Konstruktion von Verbundwort-HMMs (Hidden Markov Models) am besten?
Welchen Vorteil bietet die Verwendung von Transformer-Modellen anstelle von traditionellen N-Gramm-Modellen?
Welchen Vorteil bietet die Verwendung von Transformer-Modellen anstelle von traditionellen N-Gramm-Modellen?
Wie unterscheidet sich die Berechnung der Wahrscheinlichkeit einer Wortfolge in einem Unigram-Modell von der in einem Bigram-Modell?
Wie unterscheidet sich die Berechnung der Wahrscheinlichkeit einer Wortfolge in einem Unigram-Modell von der in einem Bigram-Modell?
Was bedeutet es, dass ein Sprachmodell 'die Wahrscheinlichkeit von Wortfolgen schätzt'?
Was bedeutet es, dass ein Sprachmodell 'die Wahrscheinlichkeit von Wortfolgen schätzt'?
Welche Auswirkung hat die 'Lattice Rescoring'-Technik auf die Leistung eines Spracherkennungssystems?
Welche Auswirkung hat die 'Lattice Rescoring'-Technik auf die Leistung eines Spracherkennungssystems?
Welche der folgenden Aufgaben kann direkt durch die Anwendung von N-Gramm-Modellen unterstützt werden?
Welche der folgenden Aufgaben kann direkt durch die Anwendung von N-Gramm-Modellen unterstützt werden?
Inwiefern unterscheidet sich die Funktionsweise von Transformer-basierten Sprachmodellen von traditionellen N-Gramm-Modellen?
Inwiefern unterscheidet sich die Funktionsweise von Transformer-basierten Sprachmodellen von traditionellen N-Gramm-Modellen?
Wozu dient der Projection-Layer in einem neuronalen Netzwerk, das für N-Gramm-Sprachmodellierung verwendet wird?
Wozu dient der Projection-Layer in einem neuronalen Netzwerk, das für N-Gramm-Sprachmodellierung verwendet wird?
Wie beeinflusst die Größe des Trainingsdatensatzes die Leistung von N-Gramm-Sprachmodellen?
Wie beeinflusst die Größe des Trainingsdatensatzes die Leistung von N-Gramm-Sprachmodellen?
Welche der folgenden Aussagen beschreibt am besten den Prozess der 'Lattice Rescoring' im Kontext der Spracherkennung?
Welche der folgenden Aussagen beschreibt am besten den Prozess der 'Lattice Rescoring' im Kontext der Spracherkennung?
Wie beeinflusst die 'First-Order Markov Property' die Modellierung von Sprache in N-Gramm-Modellen?
Wie beeinflusst die 'First-Order Markov Property' die Modellierung von Sprache in N-Gramm-Modellen?
Welche Rolle spielen formale Grammatiken bei der Erstellung von Suchgraphen für Command-&-Control-Anwendungen?
Welche Rolle spielen formale Grammatiken bei der Erstellung von Suchgraphen für Command-&-Control-Anwendungen?
Warum ist die Interpolation eine nützliche Technik bei der Arbeit mit N-Gramm-Sprachmodellen?
Warum ist die Interpolation eine nützliche Technik bei der Arbeit mit N-Gramm-Sprachmodellen?
Was ist der Hauptvorteil der Verwendung von Transformer-Modellen anstelle von DNNs (Deep Neural Networks) für die Sprachmodellierung?
Was ist der Hauptvorteil der Verwendung von Transformer-Modellen anstelle von DNNs (Deep Neural Networks) für die Sprachmodellierung?
Wie unterscheidet sich das Training von Transformer-Modellen durch Masked LM von traditionellen Methoden?
Wie unterscheidet sich das Training von Transformer-Modellen durch Masked LM von traditionellen Methoden?
Welche der folgenden Aussagen beschreibt das Hauptziel der statistischen Schätzung in N-Gramm-Sprachmodellen?
Welche der folgenden Aussagen beschreibt das Hauptziel der statistischen Schätzung in N-Gramm-Sprachmodellen?
Welche der folgenden Optionen ist ein Vorteil der Verwendung von stochastischen Grammatikmodellen?
Welche der folgenden Optionen ist ein Vorteil der Verwendung von stochastischen Grammatikmodellen?
Wie kann die Perplexität eines Sprachmodells interpretiert werden?
Wie kann die Perplexität eines Sprachmodells interpretiert werden?
Wie beeinflusst die Ordnung eines N-Gramm-Modells die Genauigkeit der Vorhersage und den Bedarf an Trainingsdaten?
Wie beeinflusst die Ordnung eines N-Gramm-Modells die Genauigkeit der Vorhersage und den Bedarf an Trainingsdaten?
Welche der folgenden Aussagen beschreibt am besten die Beziehung zwischen der Perplexität eines Sprachmodells und der Wortfehlerrate (WER) in einem Spracherkennungssystem?
Welche der folgenden Aussagen beschreibt am besten die Beziehung zwischen der Perplexität eines Sprachmodells und der Wortfehlerrate (WER) in einem Spracherkennungssystem?
Inwiefern unterscheidet sich ein Unigram-Sprachmodell von einem Bigram-Sprachmodell hinsichtlich der Kontextberücksichtigung?
Inwiefern unterscheidet sich ein Unigram-Sprachmodell von einem Bigram-Sprachmodell hinsichtlich der Kontextberücksichtigung?
Wie beeinflusst das Masked LM Training in Transformer-Modellen die Fähigkeit des Modells, Sprache zu verstehen?
Wie beeinflusst das Masked LM Training in Transformer-Modellen die Fähigkeit des Modells, Sprache zu verstehen?
Was sind die typischen Bestandteile eines Verbundwort-HMMs (Hidden Markov Model) für die Spracherkennung?
Was sind die typischen Bestandteile eines Verbundwort-HMMs (Hidden Markov Model) für die Spracherkennung?
Welche Rolle spielt das 'Development-Set' bei der Optimierung der Gewichte (λ) in interpolierten N-Gramm-Sprachmodellen?
Welche Rolle spielt das 'Development-Set' bei der Optimierung der Gewichte (λ) in interpolierten N-Gramm-Sprachmodellen?
Wie wirkt sich die Verwendung einer regulären Grammatik im Vergleich zu einer kontextfreien Grammatik auf die Komplexität eines Spracherkennungssystems aus?
Wie wirkt sich die Verwendung einer regulären Grammatik im Vergleich zu einer kontextfreien Grammatik auf die Komplexität eines Spracherkennungssystems aus?
Welche Eigenschaft von Transformer-Modellen ermöglicht es ihnen, lange Abhängigkeiten in Sequenzen effektiver zu modellieren als traditionelle rekurrenten neuronalen Netze (RNNs)?
Welche Eigenschaft von Transformer-Modellen ermöglicht es ihnen, lange Abhängigkeiten in Sequenzen effektiver zu modellieren als traditionelle rekurrenten neuronalen Netze (RNNs)?
Was ist der Hauptunterschied zwischen einem stochastischen und einem formalen Grammatikmodell?
Was ist der Hauptunterschied zwischen einem stochastischen und einem formalen Grammatikmodell?
Warum ist es wichtig, die Perplexität auf einem Testdatensatz und nicht nur auf den Trainingsdaten zu messen?
Warum ist es wichtig, die Perplexität auf einem Testdatensatz und nicht nur auf den Trainingsdaten zu messen?
Welche der folgenden Formeln beschreibt die Interpolation eines Trigramm-Sprachmodells am genauesten, wobei $P_{interp}(w_k | w_{k-1}, w_{k-2})$ die interpolierte Wahrscheinlichkeit, $\lambda$ die Gewichte und $P$ die jeweiligen N-Gramm-Wahrscheinlichkeiten sind?
Welche der folgenden Formeln beschreibt die Interpolation eines Trigramm-Sprachmodells am genauesten, wobei $P_{interp}(w_k | w_{k-1}, w_{k-2})$ die interpolierte Wahrscheinlichkeit, $\lambda$ die Gewichte und $P$ die jeweiligen N-Gramm-Wahrscheinlichkeiten sind?
Warum ist die Verwendung von Sprachmodellen in hybriden Spracherkennungssystemen wichtig?
Warum ist die Verwendung von Sprachmodellen in hybriden Spracherkennungssystemen wichtig?
Welche Aussage trifft auf N-Gramm-Modelle höherer Ordnung (N > 2) im Vergleich zu Bigram-Modellen zu?
Welche Aussage trifft auf N-Gramm-Modelle höherer Ordnung (N > 2) im Vergleich zu Bigram-Modellen zu?
Was ist das Hauptziel des Masked Language Model (MLM) Trainings bei Transformer-basierten Sprachmodellen?
Was ist das Hauptziel des Masked Language Model (MLM) Trainings bei Transformer-basierten Sprachmodellen?
Was ist ein entscheidender Unterschied zwischen formalen und stochastischen Grammatiken im Kontext der automatischen Spracherkennung?
Was ist ein entscheidender Unterschied zwischen formalen und stochastischen Grammatiken im Kontext der automatischen Spracherkennung?
Welche der folgenden Aussagen charakterisiert am besten die Anwendung von N-Gramm-Modellen in der Praxis, insbesondere bei begrenzten Datenmengen?
Welche der folgenden Aussagen charakterisiert am besten die Anwendung von N-Gramm-Modellen in der Praxis, insbesondere bei begrenzten Datenmengen?
Welche der folgenden Methoden wird verwendet, um die Leistung von Sprachmodellen in Bezug auf ihre Fähigkeit, unbekannte Sätze zu verarbeiten, zu bewerten?
Welche der folgenden Methoden wird verwendet, um die Leistung von Sprachmodellen in Bezug auf ihre Fähigkeit, unbekannte Sätze zu verarbeiten, zu bewerten?
Warum werden stochastische Grammatikmodelle als 'allgemein verwendbar' im Kontext der Spracherkennung beschrieben?
Warum werden stochastische Grammatikmodelle als 'allgemein verwendbar' im Kontext der Spracherkennung beschrieben?
Was geschieht bei der 'Interpolation' in N-Gramm-Sprachmodellen?
Was geschieht bei der 'Interpolation' in N-Gramm-Sprachmodellen?
In welchen Bereichen der Forschung und Entwicklung werden N-Gramm-Modelle typischerweise eingesetzt?
In welchen Bereichen der Forschung und Entwicklung werden N-Gramm-Modelle typischerweise eingesetzt?
Welche Auswirkung hat eine hohe Perplexität auf die Leistung eines Spracherkennungssystems?
Welche Auswirkung hat eine hohe Perplexität auf die Leistung eines Spracherkennungssystems?
Welche der folgenden Architekturen wird typischerweise für die neuronale Modellierung von N-Gramm-Sprachmodellen verwendet, um die Dimensionalität der Eingabe zu reduzieren?
Welche der folgenden Architekturen wird typischerweise für die neuronale Modellierung von N-Gramm-Sprachmodellen verwendet, um die Dimensionalität der Eingabe zu reduzieren?
Flashcards
Was sind Sprachmodelle?
Was sind Sprachmodelle?
Verbindungen von Wortmodellen durch statistische Grammatiken.
Was ist Perplexität?
Was ist Perplexität?
Die durchschnittliche Anzahl möglicher verschiedener Worte in jedem Dialogschritt.
WER und Perplexität?
WER und Perplexität?
Die Wortfehlerrate (WER) ist proportional zur Wurzel der Perplexität.
Was ist die Wirkung der Perplexitätsreduktion?
Was ist die Wirkung der Perplexitätsreduktion?
Signup and view all the flashcards
Was ist Entropie?
Was ist Entropie?
Signup and view all the flashcards
Stochastische Grammatikmodelle
Stochastische Grammatikmodelle
Signup and view all the flashcards
Formale Grammatiken
Formale Grammatiken
Signup and view all the flashcards
Unigram-Grammatik
Unigram-Grammatik
Signup and view all the flashcards
Bigram-Grammatik
Bigram-Grammatik
Signup and view all the flashcards
N-gram-Grammatik
N-gram-Grammatik
Signup and view all the flashcards
Interpolation
Interpolation
Signup and view all the flashcards
Vorteil von Transformer-Training?
Vorteil von Transformer-Training?
Signup and view all the flashcards
Generative Pre-trained Transformer (GPT)
Generative Pre-trained Transformer (GPT)
Signup and view all the flashcards
Transformer-Modelle
Transformer-Modelle
Signup and view all the flashcards
Masked LM Training
Masked LM Training
Signup and view all the flashcards
Was ist p(wk|Wk-1...W₁) ?
Was ist p(wk|Wk-1...W₁) ?
Signup and view all the flashcards
Formel für Test-Set-Perplexität?
Formel für Test-Set-Perplexität?
Signup and view all the flashcards
Study Notes
Grundlagen der automatischen Spracherkennung
- Kapitel 13 behandelt Grammatiken & Sprachmodelle.
- Die Vorlesung wird von Prof. Dr.-Ing. Dorothea Kolossa gehalten.
- Das Datum ist der 4. Februar 2025.
- Die Veranstaltung findet am FG Elektronische Systeme der Medizintechnik (mtec) statt.
Überblick und Ziele von Sprachmodellen
- Sprachmodelle sind ein notwendiger Bestandteil von hybriden Spracherkennungssystemen.
- Sie schätzen die Wahrscheinlichkeit von Wortfolgen oder Sätzen.
- Sprachmodelle werden auch in statistischen und Ende-zu-Ende-Modellen verwendet.
- Gute Statistische Sprachmodelle sind in statistischen, in hybriden & in Ende-zu-Ende-Modellen sehr effektiv (z.B. [SLNK20]).
Nutzen von Sprachmodellen
- Sprachmodelle beschreiben die Verbindung von Wortmodellen durch eine statistische Grammatik.
- Die statistische Grammatik wird dargestellt als: p̂ (wk |wk −1... w1 ).
- Perplexität: Die Perplexität ist ein Maß für die mittlere Anzahl möglicher unterschiedlicher Worte in jedem Dialogschritt.
- Die Wortfehlerrate (WER) ist ungefähr proportional zur Wurzel der Perplexität.
- Sprachmodelle tragen zur Reduzierung der Perplexität bei.
- Sprachmodelle können die Perplexität um einen Faktor von 10 bis 100 senken.
Berechnung der Perplexität
- Die Formel zur Berechnung der Perplexität ist Q = 2H(p̂ ).
- H(p̂ ) ist die Entropie des Sprachmodells.
- Entropie ist die mittlere Anzahl von Bits, die zur Kodierung aller Zeichen (Worte) eines Datensatzes benötigt werden.
- Formel zur Berechnung der Perplexität:
- = 2E(− log2 (p̂ (wk |wk −1...w1 )))
- = 2PMk =1− M1 log2 (p̂ (wk |wk −1...w1 ))
- =QPMk =12− M log2 (p̂ (wk |wk −1...w1 ))
- = PMk =11p̂ (wk |wk −1... w1 )1M
- = 1P̂ (w1 , w2... wM )1M
- == P̂ (w1 , w2... wM )− M1
Grammatiktypen
- Es gibt zwei Haupttypen von Grammatiken: stochastische und formale.
- Stochastische Grammatikmodelle: diese sind allgemein verwendbar und müssen gelernt werden
- Formale Grammatiken: Spezifisch für Erkenner-Tasks und können vorab definiert werden.
Stochastische Modelle
- Stochastische Modelle approximieren p(wk | wk-1, ..., w1).
- Unigramm-Grammatik: p(wk | wk-1, ..., w1) ≈ p(wk)
- Bigramm-Grammatik: p(wk | wk-1, ..., w1) ≈ p(wk | wk-1)
- N-Gramm-Grammatik: p(wk | wk-1, ..., w1) ≈ p(wk | wk-1, ..., wk-(N-1))
- N-Gramm-Grammatik eignet sich nicht für die First-Order-Markov-Eigenschaft.
Statistische Schätzung
- Die statistische Schätzung erfolgt über relative Häufigkeiten.
- Unigramm-Grammatik: p̂ (wk ) =PMk :Wk =wk 1PMk 1
- Bigramm-Grammatik: p̂ (wk | wk −1 ) =PMk :Wk =wk &Wk −1 =wk −1 1PMk :Wk −1 =wk −1 1
- N-Gramm-Grammatik: p̂ (wk | wk −1 ,... , wk −(N −1) ) =PMk :Wk =wk &Wk −1 =wk −1...&Wk −(N −1) =wk −(N −1)1PMk :Wk −1 =wk −1...&Wk −(N −1) =wk −(N −1) 1
Interpolation für Trigramme
- Eine Lösung für Trigramme ist die Interpolation.
- Die Formel für die Interpolation ist:
- p̂interp (wk | wk −1 , wk −2 ) = λtrigram · p̂ (wk | wk −1 , wk −2 )+ λbigram · p̂ (wk | wk −1 )+ λunigram · p̂ (wk )
- Die Gewichte λ können auf einem Development-Set optimiert werden.
Google N-Grams
- Google N-Grams ist ein stochastisches sprachmodell
- Unter dem Link https://www.emarketeers.com/e-insight/10-fascinating-charts-from-googles-ngram-viewer/ findest du mehr dazu.
- Viewer: https://books.google.com/ngrams
Schätzung via DNN
- N-Gramm-Modelle können neuronal modelliert werden
- Frühe erfolgreiche Modelltopologie:
- Input-Layer: (N − 1) × W , wobei jedes Wort 1-aus-W codiert wird (mit W als Größe des Wortschatzes + 1 ). Der Input-Layer erhält die Wort-Historie bis wk −1.
- Projection-Layer: Reduziert Dimension, z.B. auf (N − 1) × 30
- Output-Layer: Softmax-Layer, Größe = W , interpretiert als p̂DNN (wk | wk −1 ,... , w(K −(N −1)) )
- [BDV03]
Schätzung via Transformer-Training
- Die Modellstruktur ist ein Transformer-Modell.
- Die Trainingsmethode ist Masked LM Training, wobei das fehlende Wort geschätzt wird.
- Der Vorteil von selbstüberwachtem Lernen auf großen Datenmengen wird dadurch ermöglicht.
- Resultierende Modelle werden als LLM (Large Language Model) oder als Generative Pre-trained Transformer (GPT) bezeichnet.
- Beispiel: GPT-2 auf https://github.com/openai/gpt-2
- Demo: https://colab.research.google.com/drive/12qO8PmDP8-PNBVEwNi-aUb825fVYjr_S
Formale Grammatiken
- Formale Grammatiken können entsprechend der Chomsky-Hierarchie in Typen eingeteilt werden.
- Die Chomsky-Hierarchie gliedert sich wie folgt:
- Allgemeine Grammatiken (Typ 0)
- Kontextsensitive Grammatiken (Typ 1)
- Kontextfreie Grammatiken (Typ 2)
- Reguläre Grammatiken (Typ 3)
- Reguläre Grammatiken werden bei der Erzeugung von Suchgraphen für Command-&-Control-Anwendungen oft spezifiziert.
Bewertung von Sprachmodellen
- Die Wortfehlerrate (WER) sinkt etwa um die Wurzel der Perplexitätsreduktion.
- Es ist wichtig, das Sprachmodell zu finden, das die kleinste Perplexität für eine gegebene Aufgabe bietet.
- Hierfür benötigt man die Perplexität, formal Q = 2H(p̂ ), wobei H(p̂ ) die Entropie des Sprachmodells ist.
Test-Set-Perplexität
- Die Test-Set-Perplexität wird durch folgende Formel berechnet: Q = P̂ (w1 , w2... wM )− M1
- Interessante Beispiele sind Ziffernketten und GPT-2.
- Die Perplexität kann als mittlerer Verzweigungsfaktor des Sprachmodells interpretiert werden.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.