Úvod do strojového učenia

ConstructiveSerenity avatar
ConstructiveSerenity
·
·
Download

Start Quiz

Study Flashcards

5 Questions

Multimodálny jazykový model môže spracovávať len text.

False

Token je najväčšou jednotkou jazykových dát.

False

Vektory sú matematické reprezentácie tokenov alebo slov ako numerické vektory.

True

Tokenizácia je proces generovania vektorov z jazykových dát.

False

Slovní vloženia zachytávajú len gramatické významy slov.

False

Study Notes

Machine Learning

  • A subset of Artificial Intelligence that enables machines to learn from data without being explicitly programmed
  • Involves training models on data to make predictions or decisions
  • Types of Machine Learning:
    • Supervised Learning: models learn from labeled data
    • Unsupervised Learning: models learn from unlabeled data
    • Reinforcement Learning: models learn from feedback in the form of rewards or penalties

Deep Learning

  • A subset of Machine Learning that uses artificial neural networks to analyze data
  • Inspired by the structure and function of the human brain
  • Key features:
    • Multiple layers of artificial neurons (perceptrons)
    • Ability to learn complex patterns and representations from data
    • Often used for image and speech recognition, natural language processing, and other applications

Large Language Models

  • A type of Deep Learning model designed to process and generate human-like language
  • Trained on vast amounts of text data to learn patterns and relationships between words and phrases
  • Key features:
    • Ability to generate text that is coherent and contextually relevant
    • Can be fine-tuned for specific tasks such as language translation, question-answering, and text summarization
    • Examples: BERT, RoBERTa, and transformer-based models

Multimodality

  • The ability of a model to process and integrate data from multiple sources or modalities (e.g. text, images, audio, etc.)
  • Enables models to capture complex relationships between different types of data
  • Applications:
    • Multimodal language models that can process text and images simultaneously
    • Models that can generate captions for images or videos

Tokens

  • The smallest unit of language data, such as words, characters, or subwords
  • Tokens are used as input to language models and are often embedded into numerical vectors
  • Tokenization: the process of breaking down text into individual tokens

Vectors

  • Mathematical representations of tokens or words as numerical vectors
  • Enable models to perform mathematical operations on language data
  • Key features:
    • Vector space models: words with similar meanings are mapped to nearby points in the vector space
    • Word embeddings: vectors that capture the semantic meaning of words
    • Examples: Word2Vec, GloVe, and FastText

Strojové učenie

  • Podmnožina umelej inteligencie, ktorá umožňuje strojom učenie sa z dát bez explicitného programovania
  • Zahŕňa tréning modelov na dátach, aby mohli robiť predpovede alebo rozhodnutí
  • Typy strojového učenia:
    • Dozorné učenie: modely sa učia z označených dát
    • Nezdozorné učenie: modely sa učia z neoznamenaných dát
    • Učenie podľa odmeny: modely sa učia z návratnej väzby v podobe odmeny alebo trestu

Hlboké učenie

  • Podmnožina strojového učenia, ktorá používa umelej neuronovej siete na analýzu dát
  • Inšpirované štruktúrou a funkciou ľudského mozgu
  • Kľúčové črty:
    • Viaceré vrstvy umelejších neurónov (perceptrónov)
    • Schopnosť učenia sa komplexných vzorov a reprezentácií z dát
    • Často používané pre rozpoznávanie obrazov, rozpoznávanie reči, spracovanie prirodzeného jazyka a iné aplikácie

Veľké jazykové modely

  • Typ hlbokého učenia, ktorý je navrhnutý na spracovanie a generovanie ľudského jazyka
  • Trénované na obrovských množstvách textových dát, aby sa naučili vzory a vzťahy mezi slovami a frázami
  • Kľúčové črty:
    • Schopnosť generovať text, ktorý je koherentný a kontextovo relevantný
    • môže byť fine-tuned pre špecifické úlohy ako jazykový preklad, odpovedanie na otázky a zhrnutie textu
    • Príklady: BERT, RoBERTa, transformer-based modely

Multimodalita

  • Schopnosť modelu spracovať a integrovať dáta z rôznych zdrojov alebo modalít (napr. text, obrázky, audio, atd.)
  • Umožňuje modelom captťovat komplexné vzťahy medzi rôznymi typmi dát
  • Aplikácie:
    • Multimodálne jazykové modely, ktoré môžu spracovať text a obrázky súčasne
    • Modely, ktoré môžu generovať tituly pre obrázky alebo videá

Tokeny

  • Najmenšia jednotka jazykových dát, ako sú slova, znaky, alebo subwords
  • Tokeny sú používané ako vstup do jazykových modelov a sú často zabudované do numerických vektorov
  • Tokenizácia: proces rozdelenia textu na jednotlivé tokeny

Vektory

  • Matematické reprezentácie tokenov alebo slov ako numerických vektorov
  • Umožňujú modelom vykonávať matematické operácie na jazykových dátach
  • Kľúčové črty:
    • Vektorové priestory: slova s podobnými významami sú mapované do blízkych bodov v vektorovom priestore
    • Word.embeddings: vektory, ktoré zachytávajú semantický význam slov
    • Príklady: Word2Vec, GloVe, FastText

Strojové učenie je súčasťou umelej inteligencie, ktorá umožňuje strojom učenie sa z dát bez explicitného programovania. Zahŕňuje trénovanie modelov na údaje, aby robili predpovede alebo rozhodnutí.

Make Your Own Quizzes and Flashcards

Convert your notes into interactive study material.

Get started for free

More Quizzes Like This

Use Quizgecko on...
Browser
Browser