Podcast
Questions and Answers
Qual è il tipo di normalizzatore utilizzato nel tokenizer?
Qual è il tipo di normalizzatore utilizzato nel tokenizer?
- BertPreTokenizer
- TemplateProcessing
- WordPiece
- BertNormalizer (correct)
Quale specialty token è utilizzato per indicare la fine di una sequenza?
Quale specialty token è utilizzato per indicare la fine di una sequenza?
- [MASK]
- [SEP] (correct)
- [UNK]
- [CLS]
Qual è il tipo di preprocessore utilizzato nel tokenizer?
Qual è il tipo di preprocessore utilizzato nel tokenizer?
- BertNormalizer
- BertPreTokenizer (correct)
- TemplateProcessing
- WordPiece
Quale è il valore di id del token [PAD]?
Quale è il valore di id del token [PAD]?
Quale è il tipo di decoder utilizzato nel tokenizer?
Quale è il tipo di decoder utilizzato nel tokenizer?
Quale è il prefisso utilizzato per le sottoparole nel tokenizer?
Quale è il prefisso utilizzato per le sottoparole nel tokenizer?
Quale è il valore di max input chars per parola nel tokenizer?
Quale è il valore di max input chars per parola nel tokenizer?
Quale è il tipo di modello utilizzato nel tokenizer?
Quale è il tipo di modello utilizzato nel tokenizer?
Study Notes
Il file tokenizer.json
- Il file contiene informazioni sulla tokenizzazione di un modello di linguaggio.
- La versione del file è la "1.0".
- Sono presenti cinque token speciali: [PAD], [UNK], [CLS], [SEP] e [MASK].
- I token speciali hanno attributi come "id", "content", "single_word", "lstrip", "rstrip", "normalized" e "special".
- La normalizzazione dei token è gestita da un oggetto "BertNormalizer".
- La normalizzazione prevede la rimozione di accenti, la conversione in minuscolo e la gestione di caratteri cinesi.
Le configurazioni del tokenizzatore
- Il pre-tokenizzatore è di tipo "BertPreTokenizer".
- Il post-processore è di tipo "TemplateProcessing".
- Sono presenti quattro configurazioni di coppia di token.
Il vocabolario
- Il vocabolario contiene cinque token speciali: [PAD], [UNK], [CLS], [SEP] e [MASK].
- Il vocabolario contiene anche altri token, come "##>".
Il modello di linguaggio
- Il modello di linguaggio utilizza il tokenizzatore "WordPiece".
- Il token di UNKNOWN è "[UNK]".
- Il prefisso per i sottoparole è "##".
- Il numero massimo di caratteri di input per parola è 100.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Questo quiz copre la struttura e il contenuto di un file di tokenizzazione JSON. Prova la tua conoscenza delle proprietà e dei valori all'interno del file.