Word2vec v NLP
10 Questions
1 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Jaký algoritmus se používá k odhadu slovních embeddingů?

  • ElMo
  • FastText
  • Word2vec (correct)
  • GloVe
  • Jaké jsou architektury používané v modelu word2vec?

  • Generativní a diskrétní modely
  • Naivní Bayes a skryté Markovské modely
  • Kontinuální Bag-Of-Words a sklučující skip-gram (correct)
  • Klasický Bag-Of-Words a LSTM
  • Jaké měřítko se používá k určení úrovně sémantické podobnosti mezi slovy v word2vec?

  • Manhattanova vzdálenost
  • Jaccardova podobnost
  • Eukleidovská vzdálenost
  • Kosinusová podobnost (correct)
  • Co reprezentuje slovo embedding v architektuře CBOW?

    <p>Způsob, jakým slovo ovlivňuje pravděpodobnosti ostatních slov v kontextovém okně</p> Signup and view all the answers

    Kdo vyvinul algoritmus word2vec?

    <p>Tomáš Mikolov a spolupracovníci z Google</p> Signup and view all the answers

    Jakým způsobem skip-gram architektura ovlivňuje váhu kontextových slov během predikce?

    <p>Váha kontextových slov se mění podle vzdálenosti od cílového slova.</p> Signup and view all the answers

    Jaký je hlavní rozdíl mezi architekturou CBOW a skip-gram?

    <p>CBOW je rychlejší než skip-gram.</p> Signup and view all the answers

    Jaký je cíl při trénování modelu pro predikci slov v korpusu?

    <p>Maximalizovat celkovou pravděpodobnost pro korpus.</p> Signup and view all the answers

    Co měří 'blízkost' ve frameworku pro učení slovních embeddingů?

    <p>Vzdálenost mezi vektory slov.</p> Signup and view all the answers

    Jaký je účel vzoru sousedství N uvedeného ve studii?

    <p>Predikovat každé slovo na základě čtyř sousedních slov.</p> Signup and view all the answers

    Study Notes

    Word2vec a jeho funkce

    • Word2vec je technika v přirozeném zpracování jazyka pro získávání vektorových reprezentací slov.
    • Vektory odrážejí význam slova na základě okolních slov.
    • Algoritmus odhaduje reprezentace modelováním textu ve velkém korpusu.
    • Umožňuje detekci synonymních slov a návrhy dalších slov pro neúplné věty.
    • Vyvinuli Tomáš Mikolov a jeho kolegové ve společnosti Google, publikováno v roce 2013.

    Architektura a modely

    • Word2vec reprezentuje slovo jako vektor čísel ve vysoké dimenzi, který zachycuje vztahy mezi slovy.
    • Slova, která se objevují v podobných kontextech, jsou přiřazena k vektorům, které jsou blízko sebe, měřeno kosinovou podobností.
    • Modely jsou mělké, dvouvrstvé neuronové sítě trénované k rekonstrukci jazykových kontextů slov.

    Architektury CBOW a skip-gram

    • Word2vec má dvě architektury: Continuous Bag-Of-Words (CBOW) a skipping-gram.
    • CBOW funguje jako úkol "doplnění", kde embedding slova ovlivňuje pravděpodobnosti ostatních slov v kontextovém okně.
    • Architektura skip-gram používá aktuální slovo k predikci okolních kontextových slov, přičemž klade větší váhu na blízká slova.
    • CBOW je rychlejší, zatímco skip-gram lépe pracuje pro méně častá slova.

    Členění a tréninkový cíl

    • Po tréninku jsou slova vektorově umístěna tak, aby slova se společnými kontexty byla blízko sebe.
    • Dissimilarita mezi slovy se odráží v jejich vzdálenosti ve vektorovém prostoru.
    • Hlavním cílem je maximalizovat pravděpodobnost pro korpus pomocí sousedních slov pro predikci.

    Sousední slova a predikční model

    • Uvažováno je každé slovo v korpusu predikované každým dalším slovem v malém rozpětí, např. 4 slova.
    • Tréninkový cíl maximalizuje celkovou pravděpodobnost korpusu viděnou modelem, který využívá sousední slova k predikci.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Description

    Tento kvíz se zaměřuje na techniku Word2vec v oblasti zpracování přirozeného jazyka. Prozkoumá jeho použití při vytváření vektorových reprezentací slov a jak tyto modely fungují při odhadu významu slov. Dozvíte se také, kdo Word2vec vyvinul a jaké má aplikace.

    More Like This

    Contextual Embedding in Language Models
    28 questions
    Neural Networks for NLP
    7 questions

    Neural Networks for NLP

    GlimmeringJasper6910 avatar
    GlimmeringJasper6910
    Use Quizgecko on...
    Browser
    Browser