Podcast
Questions and Answers
Qual è il tipo di normalizzatore utilizzato nel tokenizer?
Qual è il tipo di normalizzatore utilizzato nel tokenizer?
Quale specialty token è utilizzato per indicare la fine di una sequenza?
Quale specialty token è utilizzato per indicare la fine di una sequenza?
Qual è il tipo di preprocessore utilizzato nel tokenizer?
Qual è il tipo di preprocessore utilizzato nel tokenizer?
Quale è il valore di id del token [PAD]?
Quale è il valore di id del token [PAD]?
Signup and view all the answers
Quale è il tipo di decoder utilizzato nel tokenizer?
Quale è il tipo di decoder utilizzato nel tokenizer?
Signup and view all the answers
Quale è il prefisso utilizzato per le sottoparole nel tokenizer?
Quale è il prefisso utilizzato per le sottoparole nel tokenizer?
Signup and view all the answers
Quale è il valore di max input chars per parola nel tokenizer?
Quale è il valore di max input chars per parola nel tokenizer?
Signup and view all the answers
Quale è il tipo di modello utilizzato nel tokenizer?
Quale è il tipo di modello utilizzato nel tokenizer?
Signup and view all the answers
Study Notes
Il file tokenizer.json
- Il file contiene informazioni sulla tokenizzazione di un modello di linguaggio.
- La versione del file è la "1.0".
- Sono presenti cinque token speciali: [PAD], [UNK], [CLS], [SEP] e [MASK].
- I token speciali hanno attributi come "id", "content", "single_word", "lstrip", "rstrip", "normalized" e "special".
- La normalizzazione dei token è gestita da un oggetto "BertNormalizer".
- La normalizzazione prevede la rimozione di accenti, la conversione in minuscolo e la gestione di caratteri cinesi.
Le configurazioni del tokenizzatore
- Il pre-tokenizzatore è di tipo "BertPreTokenizer".
- Il post-processore è di tipo "TemplateProcessing".
- Sono presenti quattro configurazioni di coppia di token.
Il vocabolario
- Il vocabolario contiene cinque token speciali: [PAD], [UNK], [CLS], [SEP] e [MASK].
- Il vocabolario contiene anche altri token, come "##>".
Il modello di linguaggio
- Il modello di linguaggio utilizza il tokenizzatore "WordPiece".
- Il token di UNKNOWN è "[UNK]".
- Il prefisso per i sottoparole è "##".
- Il numero massimo di caratteri di input per parola è 100.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Questo quiz copre la struttura e il contenuto di un file di tokenizzazione JSON. Prova la tua conoscenza delle proprietà e dei valori all'interno del file.