Tokenizzazione JSON
8 Questions
3 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Qual è il tipo di normalizzatore utilizzato nel tokenizer?

  • BertPreTokenizer
  • TemplateProcessing
  • WordPiece
  • BertNormalizer (correct)
  • Quale specialty token è utilizzato per indicare la fine di una sequenza?

  • [MASK]
  • [SEP] (correct)
  • [UNK]
  • [CLS]
  • Qual è il tipo di preprocessore utilizzato nel tokenizer?

  • BertNormalizer
  • BertPreTokenizer (correct)
  • TemplateProcessing
  • WordPiece
  • Quale è il valore di id del token [PAD]?

    <p>0</p> Signup and view all the answers

    Quale è il tipo di decoder utilizzato nel tokenizer?

    <p>WordPiece</p> Signup and view all the answers

    Quale è il prefisso utilizzato per le sottoparole nel tokenizer?

    <h2></h2> Signup and view all the answers

    Quale è il valore di max input chars per parola nel tokenizer?

    <p>100</p> Signup and view all the answers

    Quale è il tipo di modello utilizzato nel tokenizer?

    <p>WordPiece</p> Signup and view all the answers

    Study Notes

    Il file tokenizer.json

    • Il file contiene informazioni sulla tokenizzazione di un modello di linguaggio.
    • La versione del file è la "1.0".
    • Sono presenti cinque token speciali: [PAD], [UNK], [CLS], [SEP] e [MASK].
    • I token speciali hanno attributi come "id", "content", "single_word", "lstrip", "rstrip", "normalized" e "special".
    • La normalizzazione dei token è gestita da un oggetto "BertNormalizer".
    • La normalizzazione prevede la rimozione di accenti, la conversione in minuscolo e la gestione di caratteri cinesi.

    Le configurazioni del tokenizzatore

    • Il pre-tokenizzatore è di tipo "BertPreTokenizer".
    • Il post-processore è di tipo "TemplateProcessing".
    • Sono presenti quattro configurazioni di coppia di token.

    Il vocabolario

    • Il vocabolario contiene cinque token speciali: [PAD], [UNK], [CLS], [SEP] e [MASK].
    • Il vocabolario contiene anche altri token, come "##>".

    Il modello di linguaggio

    • Il modello di linguaggio utilizza il tokenizzatore "WordPiece".
    • Il token di UNKNOWN è "[UNK]".
    • Il prefisso per i sottoparole è "##".
    • Il numero massimo di caratteri di input per parola è 100.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Description

    Questo quiz copre la struttura e il contenuto di un file di tokenizzazione JSON. Prova la tua conoscenza delle proprietà e dei valori all'interno del file.

    More Like This

    Use Quizgecko on...
    Browser
    Browser