Word2vec v NLP
10 Questions
1 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Jaký algoritmus se používá k odhadu slovních embeddingů?

  • ElMo
  • FastText
  • Word2vec (correct)
  • GloVe

Jaké jsou architektury používané v modelu word2vec?

  • Generativní a diskrétní modely
  • Naivní Bayes a skryté Markovské modely
  • Kontinuální Bag-Of-Words a sklučující skip-gram (correct)
  • Klasický Bag-Of-Words a LSTM

Jaké měřítko se používá k určení úrovně sémantické podobnosti mezi slovy v word2vec?

  • Manhattanova vzdálenost
  • Jaccardova podobnost
  • Eukleidovská vzdálenost
  • Kosinusová podobnost (correct)

Co reprezentuje slovo embedding v architektuře CBOW?

<p>Způsob, jakým slovo ovlivňuje pravděpodobnosti ostatních slov v kontextovém okně (B)</p> Signup and view all the answers

Kdo vyvinul algoritmus word2vec?

<p>Tomáš Mikolov a spolupracovníci z Google (C)</p> Signup and view all the answers

Jakým způsobem skip-gram architektura ovlivňuje váhu kontextových slov během predikce?

<p>Váha kontextových slov se mění podle vzdálenosti od cílového slova. (D)</p> Signup and view all the answers

Jaký je hlavní rozdíl mezi architekturou CBOW a skip-gram?

<p>CBOW je rychlejší než skip-gram. (D)</p> Signup and view all the answers

Jaký je cíl při trénování modelu pro predikci slov v korpusu?

<p>Maximalizovat celkovou pravděpodobnost pro korpus. (A)</p> Signup and view all the answers

Co měří 'blízkost' ve frameworku pro učení slovních embeddingů?

<p>Vzdálenost mezi vektory slov. (B)</p> Signup and view all the answers

Jaký je účel vzoru sousedství N uvedeného ve studii?

<p>Predikovat každé slovo na základě čtyř sousedních slov. (D)</p> Signup and view all the answers

Study Notes

Word2vec a jeho funkce

  • Word2vec je technika v přirozeném zpracování jazyka pro získávání vektorových reprezentací slov.
  • Vektory odrážejí význam slova na základě okolních slov.
  • Algoritmus odhaduje reprezentace modelováním textu ve velkém korpusu.
  • Umožňuje detekci synonymních slov a návrhy dalších slov pro neúplné věty.
  • Vyvinuli Tomáš Mikolov a jeho kolegové ve společnosti Google, publikováno v roce 2013.

Architektura a modely

  • Word2vec reprezentuje slovo jako vektor čísel ve vysoké dimenzi, který zachycuje vztahy mezi slovy.
  • Slova, která se objevují v podobných kontextech, jsou přiřazena k vektorům, které jsou blízko sebe, měřeno kosinovou podobností.
  • Modely jsou mělké, dvouvrstvé neuronové sítě trénované k rekonstrukci jazykových kontextů slov.

Architektury CBOW a skip-gram

  • Word2vec má dvě architektury: Continuous Bag-Of-Words (CBOW) a skipping-gram.
  • CBOW funguje jako úkol "doplnění", kde embedding slova ovlivňuje pravděpodobnosti ostatních slov v kontextovém okně.
  • Architektura skip-gram používá aktuální slovo k predikci okolních kontextových slov, přičemž klade větší váhu na blízká slova.
  • CBOW je rychlejší, zatímco skip-gram lépe pracuje pro méně častá slova.

Členění a tréninkový cíl

  • Po tréninku jsou slova vektorově umístěna tak, aby slova se společnými kontexty byla blízko sebe.
  • Dissimilarita mezi slovy se odráží v jejich vzdálenosti ve vektorovém prostoru.
  • Hlavním cílem je maximalizovat pravděpodobnost pro korpus pomocí sousedních slov pro predikci.

Sousední slova a predikční model

  • Uvažováno je každé slovo v korpusu predikované každým dalším slovem v malém rozpětí, např. 4 slova.
  • Tréninkový cíl maximalizuje celkovou pravděpodobnost korpusu viděnou modelem, který využívá sousední slova k predikci.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Description

Tento kvíz se zaměřuje na techniku Word2vec v oblasti zpracování přirozeného jazyka. Prozkoumá jeho použití při vytváření vektorových reprezentací slov a jak tyto modely fungují při odhadu významu slov. Dozvíte se také, kdo Word2vec vyvinul a jaké má aplikace.

More Like This

Neural Networks for NLP
7 questions

Neural Networks for NLP

GlimmeringJasper6910 avatar
GlimmeringJasper6910
Embeddings in Natural Language Processing
13 questions
Word Embeddings and Bag of Words Overview
37 questions
Use Quizgecko on...
Browser
Browser