Tokenizzazione JSON
8 Questions
3 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Qual è il tipo di normalizzatore utilizzato nel tokenizer?

  • BertPreTokenizer
  • TemplateProcessing
  • WordPiece
  • BertNormalizer (correct)

Quale specialty token è utilizzato per indicare la fine di una sequenza?

  • [MASK]
  • [SEP] (correct)
  • [UNK]
  • [CLS]

Qual è il tipo di preprocessore utilizzato nel tokenizer?

  • BertNormalizer
  • BertPreTokenizer (correct)
  • TemplateProcessing
  • WordPiece

Quale è il valore di id del token [PAD]?

<p>0 (B)</p> Signup and view all the answers

Quale è il tipo di decoder utilizzato nel tokenizer?

<p>WordPiece (C)</p> Signup and view all the answers

Quale è il prefisso utilizzato per le sottoparole nel tokenizer?

<h2>(C)</h2> Signup and view all the answers

Quale è il valore di max input chars per parola nel tokenizer?

<p>100 (C)</p> Signup and view all the answers

Quale è il tipo di modello utilizzato nel tokenizer?

<p>WordPiece (C)</p> Signup and view all the answers

Study Notes

Il file tokenizer.json

  • Il file contiene informazioni sulla tokenizzazione di un modello di linguaggio.
  • La versione del file è la "1.0".
  • Sono presenti cinque token speciali: [PAD], [UNK], [CLS], [SEP] e [MASK].
  • I token speciali hanno attributi come "id", "content", "single_word", "lstrip", "rstrip", "normalized" e "special".
  • La normalizzazione dei token è gestita da un oggetto "BertNormalizer".
  • La normalizzazione prevede la rimozione di accenti, la conversione in minuscolo e la gestione di caratteri cinesi.

Le configurazioni del tokenizzatore

  • Il pre-tokenizzatore è di tipo "BertPreTokenizer".
  • Il post-processore è di tipo "TemplateProcessing".
  • Sono presenti quattro configurazioni di coppia di token.

Il vocabolario

  • Il vocabolario contiene cinque token speciali: [PAD], [UNK], [CLS], [SEP] e [MASK].
  • Il vocabolario contiene anche altri token, come "##>".

Il modello di linguaggio

  • Il modello di linguaggio utilizza il tokenizzatore "WordPiece".
  • Il token di UNKNOWN è "[UNK]".
  • Il prefisso per i sottoparole è "##".
  • Il numero massimo di caratteri di input per parola è 100.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Description

Questo quiz copre la struttura e il contenuto di un file di tokenizzazione JSON. Prova la tua conoscenza delle proprietà e dei valori all'interno del file.

More Like This

JSON Fundamentals Quiz
3 questions

JSON Fundamentals Quiz

FruitfulCarnelian avatar
FruitfulCarnelian
JSON Format and Python Quiz
3 questions
JSON Format Quiz
3 questions

JSON Format Quiz

SubsidizedEnlightenment avatar
SubsidizedEnlightenment
Use Quizgecko on...
Browser
Browser