Învățarea prin întărire - Q-learning
33 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Ce se numește acțiunea optimă obținută prin maximizarea funcției Q?

  • Explorare
  • Învățare activă
  • Învățare pasivă
  • Off-policy learning (correct)

Care este un dezavantaj al strategiei de explorare ϵ-greedy?

  • Aruncă experiența la gunoi pe măsură ce învățarea evoluează (correct)
  • Exploatează întotdeauna acțiunile curente
  • Reduce probabilitatea de a ajunge la soluții optime
  • Nu permite explorarea suficientă a spațiului de acțiune

Ce se recomandă să facem cu probabilitatea ϵ pe măsură ce timpul trece?

  • Să o eliminăm complet
  • Să o menținem constantă
  • Să o creștem continuu
  • Să o diminuează (correct)

Care metodă este folosită pentru explorarea spațiului de acțiune în reinforcement learning?

<p>Alegerea aleatorie a acțiunilor (C)</p> Signup and view all the answers

De câte tipuri poate fi explorarea în reinforcement learning?

<p>Mai multe metode (A)</p> Signup and view all the answers

Ce necesită Q-learning pentru a funcționa eficient?

<p>Memorarea valorilor tuturor stărilor (D)</p> Signup and view all the answers

Ce problemă apare în Q-learning când sunt prea multe stări?

<p>Dificultatea în memorarea stărilor (A)</p> Signup and view all the answers

Cum se poate generaliza experiența în contexte de învățare?

<p>Prin învățarea unui număr mic de stări (D)</p> Signup and view all the answers

Care dintre următoarele caracteristici nu este asociată cu mediul agentului?

<p>Numărul de stări: 50 (B)</p> Signup and view all the answers

Care este proprietatea fundamentală a machine learning menționată în contextul generalizării?

<p>Învățarea din experiență pentru a aplica la stări similare (C)</p> Signup and view all the answers

Ce reprezintă funcția de actualizare a valorii Q în contextul învățării prin întărire?

<p>Actualizarea valorii Q pe baza recompenselor și a valorilor optime viitoare (D)</p> Signup and view all the answers

Care este scopul minimizării regretului în procesul de învățare?

<p>Dezvoltarea unei metode de învățare care devine optimă (B)</p> Signup and view all the answers

Ce îmbunătățire oferă funcția de explorare comparativ cu explorarea aleatorie?

<p>Oferă o politică optimă cu un regret mai mic (B)</p> Signup and view all the answers

Care dintre următoarele enunțuri descrie cel mai bine regretul în învățarea prin întărire?

<p>Regretul este o măsură a costului total al greșelilor (A)</p> Signup and view all the answers

Ce indică o funcție de explorare optimă în învățarea prin întărire?

<p>Optimizarea explorării în spații complexe (A)</p> Signup and view all the answers

Care este metoda de bază utilizată în căutarea politicii în reinforcement learning?

<p>Folosirea funcției liniare pentru valori sau o q-funcție (D)</p> Signup and view all the answers

Ce problemă majoră apare atunci când se evaluează politica în rafinarea prin hill-climbing?

<p>Necesitatea de a executa multe episoade pentru evaluarea politicii (C)</p> Signup and view all the answers

În studiul jocurilor Atari, care este forma de reprezentare a stării?

<p>Imaginea unui joc cu dimensiunea de 25684×84 (B)</p> Signup and view all the answers

Ce tehnici sunt folosite în aproximarea reinforcement learning?

<p>Structuri de mediu cunoscute și schimbarea parametrilor (B)</p> Signup and view all the answers

Ce tip de acțiune este specificat în modelul MDP al jocurilor Atari?

<p>Combinarea tastelor săgeți și a altor butoane (D)</p> Signup and view all the answers

Care este provocarea principală atunci când se calculează maxa Q(s, a) pentru acțiuni continue?

<p>Numărul infinit de acțiuni posibile (B)</p> Signup and view all the answers

Ce metodă se poate folosi pentru a îmbunătăți procesul de învățare a asistenților lingvistici?

<p>Fine tuning (C)</p> Signup and view all the answers

Ce reprezintă 'starea' într-un model MDP utilizat pentru asistenții lingvistici?

<p>O secvență de cuvinte întâlnite anterior (B)</p> Signup and view all the answers

Cum se verifică bonificația într-un model de învățare pentru asistenți lingvistici?

<p>Evaluând corectitudinea răspunsului (D)</p> Signup and view all the answers

Care metodă nu este asociată cu învățarea în lumea reală pentru roboți?

<p>Învățarea directă în condiții reale (D)</p> Signup and view all the answers

Care este numărul total de stări pentru problema eat-all-dots?

<p>120x(230) (D)</p> Signup and view all the answers

Ce reprezintă o caracteristică (feature) în contextul aproximării reinforcement learning?

<p>O funcție care mapează stările la numere reale sau 0/1 (B)</p> Signup and view all the answers

Care dintre următoarele este un exemplu de proprietate în contextul reinforce learning?

<p>Distanța față de strigoiul cel mai apropiat (C)</p> Signup and view all the answers

În q-learning, ce se știe despre starea rea descoperită prin experiență?

<p>Nu se știe nimic despre această stare (D)</p> Signup and view all the answers

Cum se poate scrie o funcție de valoare pentru o stare folosind o reprezentare cu proprietăți?

<p>Prin utilizarea unui set de ponderi pentru fiecare caracteristică (B)</p> Signup and view all the answers

Ce se poate afirma despre avantajul reprezentării stărilor prin funcții liniare?

<p>Experiența este sumarizată de un set de ponderi (B)</p> Signup and view all the answers

Ce reprezintă termenul Q(s, a) în cadrul q-learning?

<p>O funcție ce calculează valoarea unei stări și acțiuni (A)</p> Signup and view all the answers

Care dintre următoarele aspecte NU este o caracteristică a unei stări?

<p>Nivelul de dificultate al jocului (B)</p> Signup and view all the answers

Flashcards

π∗ = argmaxa Q(s, a)

Aceasta se referă la găsirea celei mai bune acțiuni conform valorilor asociate stărilor și acțiunilor, reprezentate de funcția Q.

Off-policy learning

Aceasta se referă la o strategie de invatare în care nu ne bazăm exclusiv pe politica curentă, ci explorăm și alte alternative.

Negajarea experienței

O problemă a acestei strategii este ca explorarea excesivă poate duce la ignoriri ale informațiilor utile.

Diminuarea lui ϵ în timp

Această strategie se bazează pe reducerea treptată a explorării pe măsură ce agentul învață.

Signup and view all the flashcards

Functia de explorare

Această strategie se bazează pe o reglă care dictează când să se exploreze.

Signup and view all the flashcards

Regretul (Regret)

Măsura costului total al erorilor făcute în timpul învățării, reprezentând diferența dintre bonificările totale (așteptate), inclusiv cele recente suboptime și cele optime (așteptate).

Signup and view all the flashcards

Explorarea aleatorie

O strategie de explorare care presupune explorarea random a spațiului de stări, fără a lua în considerare informația acumulată. Rezultă adesea în regret mare.

Signup and view all the flashcards

Actualizarea modificată a valorii Q

O strategie de actualizare a valorii Q care ia în considerare funcția de explorare, oferind o valoare mai optimistă pentru starea-acțiune, dacă aceasta a fost vizitată de mai puține ori.

Signup and view all the flashcards

Reinforcement learning activ

Un mecanism de îmbunătățire a învățării prin care alegerile între acțiunile disponibile țin cont de o anumită doză de explorare. Scopul este de a descoperi strategii optime, chiar și în spații de cautare complexe.

Signup and view all the flashcards

Căutarea simplă a politicii

Cea mai simplă formă de optimizare a unei politici în reinforcement learning implică ajustarea ponderilor asociate caracteristicilor unei stări pentru a îmbunătăți performanța, modificând fiecare pondere în sus sau în jos și evaluând impactul asupra politicii.

Signup and view all the flashcards

Evaluarea politicii

O problemă majoră a căutării simple a politicii este determinarea dacă o nouă politică este mai bună decât cea anterioară, ceea ce necesită executarea a mai multor episoade, ceea ce poate deveni o provocare pentru probleme cu un număr vast de caracteristici.

Signup and view all the flashcards

Metode mai avansate de optimizare a politicii

O alternativă la simpla ajustare a ponderilor este exploatarea structurii cunoscute a mediului, identificarea stărilor importante și modificarea mai multor parametri simultan pentru a imbunătăți eficiența optimizării.

Signup and view all the flashcards

Starea, acțiunea și recompensa în jocurile Atari

În cadrul studiului de caz al jocurilor Atari, starea este reprezentată de o imagine a jocului care poate fi descompusă în caracteristici semnificative sau procesată printr-o rețea neuronală. Acțiunile sunt combinații de taste din joc, iar recompensa este scorul obținut în joc.

Signup and view all the flashcards

Starea, acțiunea și recompensa în controlul roboților

Miscarea robotilor este o altă problemă de reinforcement learning, unde starea este definită de imaginea camerei robotului, unghiurile, accelerometrele etc. Acțiunile sunt comenzi la motorul robotului, iar recompensa este de obicei legată de finalizarea sarcinilor robotului.

Signup and view all the flashcards

De ce este nevoie de aproximarea reinforcement learning?

Reinforcement learning tradițional necesită stocarea valorilor Q în tabele, dar în situații reale, cu un număr mare de stări, acest lucru devine imposibil. Aproximarea cu funcții permite generalizarea experienței învățate dintr-un set limitat de stări către stări noi asemănătoare, reducând dependența de memorarea explicită a valorilor Q.

Signup and view all the flashcards

Cum funcționează generalizarea în aproximarea funcției?

Învățarea prin aproximare funcții presupune învățarea dintr-un set limitat de stări și generalizarea acestei experiențe către alte stări similare. Acest lucru ne permite să gestionăm spații de stări mari, reducând necesitatea memorării explicite a tuturor valorilor Q.

Signup and view all the flashcards

Ce impact are dimensiunea spațiului de stări?

Dimensiunea spațiului de stări este determinată de numărul de combinații posibile ale factorilor de mediu, cum ar fi poziția agentului, numărul elementelor din mediu și direcția agentului. Un spațiu de stări mare indică o complexitate ridicată a problemei, care poate fi greu de gestionat prin metode tradiționale de reinforcement learning.

Signup and view all the flashcards

Cum ajută aproximarea funcției la gestionarea spațiilor de stări mari?

Aproximarea funcțiilor permite gestionarea spațiilor de stări mari prin construirea unor modele abstracte care capturează relația dintre stări și valori Q. Aceste modele pot fi reprezentate sub formă de rețele neuronale sau alte funcții, reducând necesitatea memorării explicite a valorilor Q pentru fiecare stare.

Signup and view all the flashcards

Care este importanța aproximare reinforcement learning cu funcție?

Aproximarea reinforcement learning prin funcții este esențială pentru gestionarea spațiilor de stări complexe. Ne permite să generalizăm din experiența învățată dintr-un set limitat de stări către stări noi, reducând astfel memoria necesară și facilitând procesul de învățare.

Signup and view all the flashcards

Antrenarea LLM-urilor cu învățare întărită

Învățarea întărită poate fi utilizată pentru a antrena un model de limbaj (LLM) pentru a genera text util, după ce a fost antrenat inițial să reproducă text uman.

Signup and view all the flashcards

Starea chatbotului

În cadrul unui chatbot antrenat cu învățare întărită, starea este reprezentată de secvența de cuvinte din conversație.

Signup and view all the flashcards

Acțiunea chatbotului

Acțiunea unui chatbot antrenat cu învățare întărită este cuvântul următor pe care îl generează.

Signup and view all the flashcards

Tranziția chatbotului

În chatbot-uri antrenate cu învățare întărită, tranziția se realizează prin adăugarea cuvântului ales la secvența de cuvinte existente.

Signup and view all the flashcards

Recompensa chatbotului

Recompensa într-un chatbot antrenat cu învățare întărită poate fi o valoare pozitivă dacă răspunsul este corect, sau negativă dacă este incorect.

Signup and view all the flashcards

Reprezentarea bazată pe proprietăți

Reprezentarea spațiului de stări printr-un vector de proprietăți (features), unde fiecare proprietate este o funcție care mapează o stare la un număr real (sau la 0/1), reflectând aspecte importante ale stării respective.

Signup and view all the flashcards

Funcție liniară pentru valori

O funcție care calculează valoarea unei stări (V(s)) sau valoarea unei pereche (stare, acțiune) (Q(s, a)) folosind o combinație liniară ponderată a proprietăților stării.

Signup and view all the flashcards

Ponderi pentru funcția liniară

Setul de greutăți w1, w2,... asociate cu proprietățile stării, care se adaptează pe măsură ce agentul învață din experiență.

Signup and view all the flashcards

Învățarea funcției liniare

Un proces de învățare care utilizează experiența anterioară pentru a actualiza ponderile funcției liniare, îmbunătățind astfel predicția valorilor.

Signup and view all the flashcards

Experiența sumarizată de ponderi

Experiența este sumarizată prin setul de ponderi w1, w2,... pentru a reprezenta cunoștințele agentului.

Signup and view all the flashcards

Reguli de actualizare a ponderilor

Un set de reguli de învățare care actualizează ponderile funcției liniare, bazându-se pe experiența agentului și pe diferența dintre valorile estimate și valorile reale.

Signup and view all the flashcards

Selecția atentă a proprietăților

Proprietățile care definesc o stare sunt selectate cu grijă pentru a reflecta aspecte relevante pentru rezolvarea problemei.

Signup and view all the flashcards

Utilizarea funcției liniare pentru q-functie

Utilizarea unei funcții liniare pentru a reprezenta q-functia, care prezice valoarea unei acțiuni într-o anumită stare, simplificând procesul de luare a deciziilor.

Signup and view all the flashcards

Study Notes

Curs 12 - Reinforcement Learning II

  • Subiectul cursului este Reinforcement Learning II.
  • Data cursului este 9 Ianuarie 2024.

Cuprins

  • Activități de învățare prin întărire.
  • Aproximarea învățării prin întărire.
  • Studii de caz.

Probleme rezolvate cu RL

  • Problemele sunt modelate ca probleme MDP (Markov Decision Processes).
  • Acestea includ un set de stări (s), un set de acțiuni (A) în fiecare stare, un model probabilistic (T(s, a, s')), și o funcție de recompensă (reward) R(s, a, s').
  • Se caută o politică optimă π(s).
  • Valorile T sau R sunt de obicei necunoscute.
  • Este nevoie de strategii de învățare pentru a determina acțiuni și stări favorabile.
  • O strategie este estimarea valorilor medii ale modelului probabilistic T, folosind rezultatele acțiunilor.

Rezolvare cu MDP și RL (pasiv)

  • MDP cu informații complete: Se calculează V*, Q*, π* și se evaluează o politică fixă π. (Iterarea valorilor / politicilor).
  • MDP fără informații complete - estimarea modelului: Se calculează V*, Q*, π* prin iterarea valorilor/politicii pentru estimarea MDP-ului, evaluarea politicii pentru MDP-ul estimat.
  • MDP fără informații complete - rezolvare fără model: Se calculează V*, Q*, π* și se evaluează o politică π. Utilizarea Q-learning și a învățării valorilor.

Învățare prin diferențe temporale (Temporal-Difference Learning)

  • Se primește o secvență de experiență din mediu (s, a, r, s', a', r', s'', a'', r'', s''',...).
  • Se actualizează estimarea pentru fiecare tranziție (s, a, r, s').

Q-learning

  • Q-iteration: Actualizare valorilor Q pentru fiecare stare Q.
  • Se inițializează Q0(s, a) = 0 și apoi se iterează.
  • Qk+1(s, a) ← Σs' T(s, a, s') [R(s, a, s') + γ maxa' Qk(s', a')].
  • Se calculează mediile valorilor Q pe parcursul învățării.
  • Se simulează o tranziție (s, a, r, s').
  • Q(s, a) ← r + γ maxa' Q(s', a').
  • Se aplică o medie pentru rezultatele obținute din tranziția(s, a).
  • Actualizarea: Q(s, a) ← (1 – α) Q(s,a) + α [r + γ max a' Q(s', a')].

Proprietăți Q-Learning

  • Q-learning converge la politica optimă, chiar dacă acțiunile sunt suboptimale.
  • Se obține un mod optim de acțiune π* = argmaxa Q(s, a).
  • Acest mod se numește învățare off-policy.
  • Are dezavantaje: trebuie explorate multe acțiuni și stări, rata de învățare trebuie să fie mică.
  • În limită, nu contează modul de selectare a acțiunilor.

Explorare vs. exploatare

  • Sunt disponibile câteva modalități: alegerea aleatorie a acțiunilor (e-greedy).
  • La fiecare moment de timp se aruncă o monedă pentru a decide dacă se alege o acțiune aleatorie sau conform politicii curente.
  • Problema cu această strategie: se explorează spațiul disponibil dar se aruncă la gunoi experiența pe parcursul învățării.
  • Soluția: se reduce probabilitatea de alegere aleatoare pe măsură ce timpul trece, sau se definește o funcție de explorare.

Funcții de explorare

  • Când să explorăm: acțiuni aleatorii, explorare într-o măsură fixată, explorare în zone neevaluate ca defavorabile, oprirea explorării în zone evaluate favorabile.
  • Funcțiile de explorare: se ia o valoare estimată (u) și un număr de vizite (n) pentru a produce o utilitate optimistă (f(u, n) = u + k/n).
  • Se aplică regularizări pentru a se obține o actualizare utilă a valorilor Q: Q(s, a) ←a R(s, a, s') + y maxa, Q(s', a').
  • Actualizare modificată: Q(s, a) ←a R(s, a, s') + y maxa, f(Q(s', a'), N(s', a')).

Evaluarea metodelor de explorare - Regret

  • Regretul este o măsură a costului total al greșelilor.
  • Diferența dintre recompensele obținute, inclusiv cele suboptimale și cele optime.
  • Minimizarea regretului este mai mult decât învățarea optimă, necesitând metode de învățare care devin optime.
  • Un exemplu este explorarea aleatorie, care produce un regret crescut.

Este problema rezolvată?

  • În principiu da, dacă este găsită o funcție de explorare optimă.
  • Dar ce se face în cazul spațiilor de căutare mari și complexe?

Aproximarea învățării prin întărire

  • Generalizarea peste stările problemei este necesară.
  • Q-learning necesită memorarea unei tabele cu toate valorile Q, dar în situații reale, acest lucru nu este posibil din cauza volumului mare de stări.
  • Soluția: generalizarea pentru stări similare din experiența obținută.

Mărimea spațiului de stări

  • Proprietăți ale mediului (în exemplele date, jocuri Atari, Pac-Man): poziții agent, mâncare, dușmani (strigoi), direcții.
  • Se calculează numărul total de stări posibile.

Pacman - exemplu

  • Starea jocului este relevantă pentru învățare.
  • În Q-learning, informațiile despre anumite stări sunt necunoscute.

Reprezentare bazată pe proprietăți (features)

  • Reprezentarea spațiului de stări folosind un vector de proprietăți f1, f2, ...
  • Proprietățile sunt funcții care mapeează stările la numere reale (0/1) pentru a reprezenta aspecte importante ale stării.
  • Exemple: distanță față de dușman, distanță față de mâncare.

Funcții liniare pentru valori

  • Folosind proprietățile, se reprezintă o valoare Q (funcții de valoare) pentru fiecare stare, utilizând un set de ponderi w1, w2. . .
  • V(s) = w1f1(s) + w2f2(s) + ... + wnfn(s)
  • Q(s, a) = w1f1(s,a) + w2f2(s,a) + ... + wnfn(s,a)
  • Avantaj: experiența este rezumată de setul de ponderi.
  • Dezavantaj: stările pot avea proprietăți comune, dar în realitate pot avea valori diferite.
  • Exemplu: cele două stări pot avea aceeași valoare dacă nu consideră pozitia strigoilor ca proprietate.

Q-learning aproximat

  • Presupune Q(s, a) = w1f1(s, a) + w2f2(s, a) + ... + wnfn(s, a).

  • Q-learning cu funcție liniară pentru valorile Q.

  • Înscrie diferența prin (s, a, r, s')

  • Diferența: [r + y maxa' Q(s', a')] – Q(s, a)

  • Actualizarea: Wi ← Wi + α × diferenta × fi(s,a).

  • Reprezentare intuitivă: se ajustează ponderile proprietăților active dacă o situație este nefavorabilă.

Exemplu: Q-Pacman

  • Q(s,a) = 4.0fDOT(s, a) – 1.0fGST(s,a).
  • Exemplu de calcul al ponderilor și actualizărilor.

Căutarea politicii

  • Problema: majoritatea politicilor bazate pe proprietăți funcționează bine în situațiile multi-agent, dar nu aproximează bine valorile V și Q.
  • Prioritatea Q-learning: obținerea valorilor Q (sarcina de modelare).
  • Prioritatea selecției acțiunii: obținerea unei ordonări a valorilor Q (sarcina de predicție).
  • Soluția: învățarea politicii π care maximizează recompensa, nu valorile Q care prezic recompensa.
  • Cautarea politicii: se pornește cu o soluție ok (de exemplu, Q- learning) și se rafinează ponderile folosind hill climbing.

Cea mai simplă căutare a politicii

  • Se pornește cu o funcție liniară pentru valori sau funcție Q.
  • Se mută fiecare pondere a unei proprietăți pentru a vedea dacă se obține o politică mai bună.
  • Problema: cum se stabilește dacă o politică este mai bună? (necesitatea de a rula multe episoade, multe proprietăți pot complica).

Jocuri Atari

  • Stare: imagine a jocului.
  • 256 stări posibile.
  • Procesarea stărilor cu un vector de proprietăți sau o rețea neuronală.
  • Acțiune: combinații de taste de joc.
  • Tranziție: specific jocurilor.
  • Recompensă: scorul jocului.
  • Se folosește Q-learning.

Mișcarea roboților

  • Stare: imagine a camerei robotului, unghiuri și date accelerometru.
  • Acțiune: comenzi la motoarele robotului.
  • Tranziție: lumea reală.
  • Recompensă: proiectată a priori.
  • Este vorba despre învățare în medii dinamice.
  • Poate fi necesară o simulare virtuală pentru a testa comportamentul robotului.

Asistenți lingvistici

  • Pas 1: se antrenează un LLM (Large Language Model) pentru a reproduce text uman.
  • Pas 2: se face rafinare (fine-tuning) pentru a produce text util.
  • Se poate folosi reinforcement learning în pasul 2.
  • Stare: secvența de cuvinte până la momentul respectiv.
  • Spațiu imens de stări, procesat folosind vectori de proprietăți sau rețele neuronale.
  • Acțiune: cuvântul următor.
  • Tranziție: concatenarea cuvântului următor la cuvintele din stare.
  • Recompensă: pozitivă când răspunsul este corect, se poate învăța un model R.
  • Se face căutare a politicii (Proximal policy optimization) și Q-learning.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Description

Acest quiz testează cunoștințele despre Q-learning în contextul învățării prin întărire. Vei explora concepte precum explorarea și exploatarea, funcția Q și problemele întâmpinate în învățare. Răspunde la întrebări despre caracteristicile agentului și metodologiile de învățare eficientă.

Use Quizgecko on...
Browser
Browser