Podcast
Questions and Answers
Jaký algoritmus se používá k odhadu slovních embeddingů?
Jaký algoritmus se používá k odhadu slovních embeddingů?
- ElMo
- FastText
- Word2vec (correct)
- GloVe
Jaké jsou architektury používané v modelu word2vec?
Jaké jsou architektury používané v modelu word2vec?
- Generativní a diskrétní modely
- Naivní Bayes a skryté Markovské modely
- Kontinuální Bag-Of-Words a sklučující skip-gram (correct)
- Klasický Bag-Of-Words a LSTM
Jaké měřítko se používá k určení úrovně sémantické podobnosti mezi slovy v word2vec?
Jaké měřítko se používá k určení úrovně sémantické podobnosti mezi slovy v word2vec?
- Manhattanova vzdálenost
- Jaccardova podobnost
- Eukleidovská vzdálenost
- Kosinusová podobnost (correct)
Co reprezentuje slovo embedding v architektuře CBOW?
Co reprezentuje slovo embedding v architektuře CBOW?
Kdo vyvinul algoritmus word2vec?
Kdo vyvinul algoritmus word2vec?
Jakým způsobem skip-gram architektura ovlivňuje váhu kontextových slov během predikce?
Jakým způsobem skip-gram architektura ovlivňuje váhu kontextových slov během predikce?
Jaký je hlavní rozdíl mezi architekturou CBOW a skip-gram?
Jaký je hlavní rozdíl mezi architekturou CBOW a skip-gram?
Jaký je cíl při trénování modelu pro predikci slov v korpusu?
Jaký je cíl při trénování modelu pro predikci slov v korpusu?
Co měří 'blízkost' ve frameworku pro učení slovních embeddingů?
Co měří 'blízkost' ve frameworku pro učení slovních embeddingů?
Jaký je účel vzoru sousedství N uvedeného ve studii?
Jaký je účel vzoru sousedství N uvedeného ve studii?
Study Notes
Word2vec a jeho funkce
- Word2vec je technika v přirozeném zpracování jazyka pro získávání vektorových reprezentací slov.
- Vektory odrážejí význam slova na základě okolních slov.
- Algoritmus odhaduje reprezentace modelováním textu ve velkém korpusu.
- Umožňuje detekci synonymních slov a návrhy dalších slov pro neúplné věty.
- Vyvinuli Tomáš Mikolov a jeho kolegové ve společnosti Google, publikováno v roce 2013.
Architektura a modely
- Word2vec reprezentuje slovo jako vektor čísel ve vysoké dimenzi, který zachycuje vztahy mezi slovy.
- Slova, která se objevují v podobných kontextech, jsou přiřazena k vektorům, které jsou blízko sebe, měřeno kosinovou podobností.
- Modely jsou mělké, dvouvrstvé neuronové sítě trénované k rekonstrukci jazykových kontextů slov.
Architektury CBOW a skip-gram
- Word2vec má dvě architektury: Continuous Bag-Of-Words (CBOW) a skipping-gram.
- CBOW funguje jako úkol "doplnění", kde embedding slova ovlivňuje pravděpodobnosti ostatních slov v kontextovém okně.
- Architektura skip-gram používá aktuální slovo k predikci okolních kontextových slov, přičemž klade větší váhu na blízká slova.
- CBOW je rychlejší, zatímco skip-gram lépe pracuje pro méně častá slova.
Členění a tréninkový cíl
- Po tréninku jsou slova vektorově umístěna tak, aby slova se společnými kontexty byla blízko sebe.
- Dissimilarita mezi slovy se odráží v jejich vzdálenosti ve vektorovém prostoru.
- Hlavním cílem je maximalizovat pravděpodobnost pro korpus pomocí sousedních slov pro predikci.
Sousední slova a predikční model
- Uvažováno je každé slovo v korpusu predikované každým dalším slovem v malém rozpětí, např. 4 slova.
- Tréninkový cíl maximalizuje celkovou pravděpodobnost korpusu viděnou modelem, který využívá sousední slova k predikci.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Tento kvíz se zaměřuje na techniku Word2vec v oblasti zpracování přirozeného jazyka. Prozkoumá jeho použití při vytváření vektorových reprezentací slov a jak tyto modely fungují při odhadu významu slov. Dozvíte se také, kdo Word2vec vyvinul a jaké má aplikace.