10 Questions
Quale è il tipo di id dell'elemento '[CLS]'?
0
Quale è il valore associato a '[MASK]'?
4
Quale è la parola con valore associato 57?
##happy
Quale è il tipo di id dell'elemento '[SEP]'?
0
Quale è la parola con valore associato 448?
##date
Quale è la parola con valore associato 176?
##heart
Quale è il tipo di id dell'elemento '[MASK]'?
0
Quale è la parola con valore associato 199?
##sad
Quale è la parola con valore associato 340?
##time
Quale è la parola con valore associato 592?
conto
Study Notes
Tokenizer JSON
- Il file
tokenizer.json
contiene informazioni sulla tokenizzazione di un dataset. - Il file contiene un oggetto JSON con gli ID dei token speciali, come ad esempio
[CLS]
,[SEP]
,[MASK]
, ecc. - Sono presenti anche informazioni sui tipo di token ID e sulle frequenze dei token.
Token Frequencies
- I token sono conteggiati in base alla loro frequenza di apparizione nel dataset.
- Ad esempio, il token
"[CLS]"
ha una frequenza di 0, mentre il token"##happy"
ha una frequenza di 57. - I token più comuni includono
"anche"
,"ancora"
,"andare"
,"amore"
, ecc.
Token Categories
- I token sono categorizzati in base al loro significato e utilizzo, ad esempio
"##annoyed"
è una forma di emozione, mentre"##date"
è una forma di data. - Le categorie includono emozioni, date, hashtag, nomi di persona, luoghi, ecc.
Special Tokens
- I token speciali sono utilizzati per specifiche funzioni, ad esempio
[CLS]
è utilizzato per la classificazione di testi, mentre[SEP]
è utilizzato per separare i token. - I token speciali includono anche
[MASK]
, che è utilizzato per la mascheratura di token durante l'addestramento di modelli di language.
Il file tokenizer.json contiene informazioni sulla tokenizzazione di un dataset, incluso ID di token speciali e frequenze di token.
Make Your Own Quizzes and Flashcards
Convert your notes into interactive study material.
Get started for free