Word2vec v NLP

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

Jaký algoritmus se používá k odhadu slovních embeddingů?

  • ElMo
  • FastText
  • Word2vec (correct)
  • GloVe

Jaké jsou architektury používané v modelu word2vec?

  • Generativní a diskrétní modely
  • Naivní Bayes a skryté Markovské modely
  • Kontinuální Bag-Of-Words a sklučující skip-gram (correct)
  • Klasický Bag-Of-Words a LSTM

Jaké měřítko se používá k určení úrovně sémantické podobnosti mezi slovy v word2vec?

  • Manhattanova vzdálenost
  • Jaccardova podobnost
  • Eukleidovská vzdálenost
  • Kosinusová podobnost (correct)

Co reprezentuje slovo embedding v architektuře CBOW?

<p>Způsob, jakým slovo ovlivňuje pravděpodobnosti ostatních slov v kontextovém okně (B)</p> Signup and view all the answers

Kdo vyvinul algoritmus word2vec?

<p>Tomáš Mikolov a spolupracovníci z Google (C)</p> Signup and view all the answers

Jakým způsobem skip-gram architektura ovlivňuje váhu kontextových slov během predikce?

<p>Váha kontextových slov se mění podle vzdálenosti od cílového slova. (D)</p> Signup and view all the answers

Jaký je hlavní rozdíl mezi architekturou CBOW a skip-gram?

<p>CBOW je rychlejší než skip-gram. (D)</p> Signup and view all the answers

Jaký je cíl při trénování modelu pro predikci slov v korpusu?

<p>Maximalizovat celkovou pravděpodobnost pro korpus. (A)</p> Signup and view all the answers

Co měří 'blízkost' ve frameworku pro učení slovních embeddingů?

<p>Vzdálenost mezi vektory slov. (B)</p> Signup and view all the answers

Jaký je účel vzoru sousedství N uvedeného ve studii?

<p>Predikovat každé slovo na základě čtyř sousedních slov. (D)</p> Signup and view all the answers

Flashcards are hidden until you start studying

Study Notes

Word2vec a jeho funkce

  • Word2vec je technika v přirozeném zpracování jazyka pro získávání vektorových reprezentací slov.
  • Vektory odrážejí význam slova na základě okolních slov.
  • Algoritmus odhaduje reprezentace modelováním textu ve velkém korpusu.
  • Umožňuje detekci synonymních slov a návrhy dalších slov pro neúplné věty.
  • Vyvinuli Tomáš Mikolov a jeho kolegové ve společnosti Google, publikováno v roce 2013.

Architektura a modely

  • Word2vec reprezentuje slovo jako vektor čísel ve vysoké dimenzi, který zachycuje vztahy mezi slovy.
  • Slova, která se objevují v podobných kontextech, jsou přiřazena k vektorům, které jsou blízko sebe, měřeno kosinovou podobností.
  • Modely jsou mělké, dvouvrstvé neuronové sítě trénované k rekonstrukci jazykových kontextů slov.

Architektury CBOW a skip-gram

  • Word2vec má dvě architektury: Continuous Bag-Of-Words (CBOW) a skipping-gram.
  • CBOW funguje jako úkol "doplnění", kde embedding slova ovlivňuje pravděpodobnosti ostatních slov v kontextovém okně.
  • Architektura skip-gram používá aktuální slovo k predikci okolních kontextových slov, přičemž klade větší váhu na blízká slova.
  • CBOW je rychlejší, zatímco skip-gram lépe pracuje pro méně častá slova.

Členění a tréninkový cíl

  • Po tréninku jsou slova vektorově umístěna tak, aby slova se společnými kontexty byla blízko sebe.
  • Dissimilarita mezi slovy se odráží v jejich vzdálenosti ve vektorovém prostoru.
  • Hlavním cílem je maximalizovat pravděpodobnost pro korpus pomocí sousedních slov pro predikci.

Sousední slova a predikční model

  • Uvažováno je každé slovo v korpusu predikované každým dalším slovem v malém rozpětí, např. 4 slova.
  • Tréninkový cíl maximalizuje celkovou pravděpodobnost korpusu viděnou modelem, který využívá sousední slova k predikci.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

More Like This

Contextual Embedding in Language Models
28 questions
Neural Networks for NLP
7 questions

Neural Networks for NLP

GlimmeringJasper6910 avatar
GlimmeringJasper6910
Word Embeddings and Bag of Words Overview
37 questions
Use Quizgecko on...
Browser
Browser