Tokenizzazione JSON

ThrillingAlbuquerque avatar
ThrillingAlbuquerque
·
·
Download

Start Quiz

Study Flashcards

8 Questions

Qual è il tipo di normalizzatore utilizzato nel tokenizer?

BertNormalizer

Quale specialty token è utilizzato per indicare la fine di una sequenza?

[SEP]

Qual è il tipo di preprocessore utilizzato nel tokenizer?

BertPreTokenizer

Quale è il valore di id del token [PAD]?

0

Quale è il tipo di decoder utilizzato nel tokenizer?

WordPiece

Quale è il prefisso utilizzato per le sottoparole nel tokenizer?

Quale è il valore di max input chars per parola nel tokenizer?

100

Quale è il tipo di modello utilizzato nel tokenizer?

WordPiece

Study Notes

Il file tokenizer.json

  • Il file contiene informazioni sulla tokenizzazione di un modello di linguaggio.
  • La versione del file è la "1.0".
  • Sono presenti cinque token speciali: [PAD], [UNK], [CLS], [SEP] e [MASK].
  • I token speciali hanno attributi come "id", "content", "single_word", "lstrip", "rstrip", "normalized" e "special".
  • La normalizzazione dei token è gestita da un oggetto "BertNormalizer".
  • La normalizzazione prevede la rimozione di accenti, la conversione in minuscolo e la gestione di caratteri cinesi.

Le configurazioni del tokenizzatore

  • Il pre-tokenizzatore è di tipo "BertPreTokenizer".
  • Il post-processore è di tipo "TemplateProcessing".
  • Sono presenti quattro configurazioni di coppia di token.

Il vocabolario

  • Il vocabolario contiene cinque token speciali: [PAD], [UNK], [CLS], [SEP] e [MASK].
  • Il vocabolario contiene anche altri token, come "##>".

Il modello di linguaggio

  • Il modello di linguaggio utilizza il tokenizzatore "WordPiece".
  • Il token di UNKNOWN è "[UNK]".
  • Il prefisso per i sottoparole è "##".
  • Il numero massimo di caratteri di input per parola è 100.

Questo quiz copre la struttura e il contenuto di un file di tokenizzazione JSON. Prova la tua conoscenza delle proprietà e dei valori all'interno del file.

Make Your Own Quizzes and Flashcards

Convert your notes into interactive study material.

Get started for free

More Quizzes Like This

JSON Fundamentals Quiz
3 questions

JSON Fundamentals Quiz

FruitfulCarnelian avatar
FruitfulCarnelian
JSON Format Quiz
3 questions

JSON Format Quiz

SubsidizedEnlightenment avatar
SubsidizedEnlightenment
Use Quizgecko on...
Browser
Browser