Recent Lessons

Show all results for ""

Tokenizzazione JSON

Tokenizzazione JSON

Choose a study mode

Play Quiz

Study Flashcards

Spaced Repetition

Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

Qual è il tipo di normalizzatore utilizzato nel tokenizer?

BertPreTokenizer
TemplateProcessing
WordPiece
BertNormalizer (correct)

Quale specialty token è utilizzato per indicare la fine di una sequenza?

[MASK]
[SEP] (correct)
[UNK]
[CLS]

Qual è il tipo di preprocessore utilizzato nel tokenizer?

BertNormalizer
BertPreTokenizer (correct)
TemplateProcessing
WordPiece

Quale è il valore di id del token [PAD]?

<p>0 (B)</p>

Signup and view all the answers

Quale è il tipo di decoder utilizzato nel tokenizer?

<p>WordPiece (C)</p>

Signup and view all the answers

Quale è il prefisso utilizzato per le sottoparole nel tokenizer?

<h2>(C)</h2>

Signup and view all the answers

Quale è il valore di max input chars per parola nel tokenizer?

<p>100 (C)</p>

Signup and view all the answers

Quale è il tipo di modello utilizzato nel tokenizer?

<p>WordPiece (C)</p>

Signup and view all the answers

Flashcards are hidden until you start studying

Study Notes

Il file tokenizer.json

Il file contiene informazioni sulla tokenizzazione di un modello di linguaggio.
La versione del file è la "1.0".
Sono presenti cinque token speciali: [PAD], [UNK], [CLS], [SEP] e [MASK].
I token speciali hanno attributi come "id", "content", "single_word", "lstrip", "rstrip", "normalized" e "special".
La normalizzazione dei token è gestita da un oggetto "BertNormalizer".
La normalizzazione prevede la rimozione di accenti, la conversione in minuscolo e la gestione di caratteri cinesi.

Le configurazioni del tokenizzatore

Il pre-tokenizzatore è di tipo "BertPreTokenizer".
Il post-processore è di tipo "TemplateProcessing".
Sono presenti quattro configurazioni di coppia di token.

Il vocabolario

Il vocabolario contiene cinque token speciali: [PAD], [UNK], [CLS], [SEP] e [MASK].
Il vocabolario contiene anche altri token, come "##>".

Il modello di linguaggio

Il modello di linguaggio utilizza il tokenizzatore "WordPiece".
Il token di UNKNOWN è "[UNK]".
Il prefisso per i sottoparole è "##".
Il numero massimo di caratteri di input per parola è 100.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

More Like This

JSON Format and Multiple Choice Questions Quiz

6 questions

JSON Format and Multiple Choice Questions Quiz

MagicalStarfish

JSON Quiz

9 questions

JSON Quiz: Test Your JSON Skills with Free Quiz and Flashcards

EnhancedBowenite

JSON Quiz Generator Tutorial

4 questions

JSON Quiz Generator Tutorial

ColorfulSwamp

JSON Format Quiz

3 questions

JSON Format Quiz

SubsidizedEnlightenment

Use Quizgecko on...

Browser