Curs 11-12 - Învățare prin întărire
36 Questions
2 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Ce reprezintă un set de stări în cadrul problemelor MDP?

  • Un set de stări s ∈ S (correct)
  • Un model probabilistic T
  • Un set de recompense R
  • Acțiuni posibile în fiecare stare

Care este scopul învățării prin întărire pasivă?

  • Să evalueze o politică fixată π(s) (correct)
  • Să calculeze politica pe măsura acumulării experienței
  • Să cunoască tranzitiile T și câștigurile R
  • Să determine o politică optimă fără acțiuni active

Ce se întâmplă în soluția offline a problemelor MDP?

  • Soluția nu depinde de experiențele anterioare
  • Politica este determinată în prealabil (correct)
  • Se folosesc acțiuni active pentru a acumula experiență
  • Politica se calculează în timpul jocului

Ce informații sunt cunoscute în cadrul învățării prin întărire pasivă?

<p>O secvență de tranzitii și recompensa corespunzătoare (B)</p> Signup and view all the answers

Ce necesită problemele de învățare prin întărire pentru a se adapta la politici?

<p>Încercarea de acțiuni și stări pentru învățare (B)</p> Signup and view all the answers

Care este principalul obiectiv al procesului de învățare în contextul prezentat?

<p>Să învățăm valorile fiecărei stări (C)</p> Signup and view all the answers

Cum se învață un model în învățarea bazată pe model?

<p>Pe baza experienței și observării ieșirilor (B)</p> Signup and view all the answers

Ce se întâmplă în Pasul 1 al învățării modelului?

<p>Se numără ieșirile pentru fiecare stare și acțiune (A)</p> Signup and view all the answers

Ce algoritm este menționat ca fiind utilizat pentru rezolvarea problemei MDP?

<p>Iterarea valorilor (D)</p> Signup and view all the answers

Ce presupunem în exemplul de învățare bazată pe model referitor la gamma?

<p>γ = 1 (C)</p> Signup and view all the answers

Care este scopul principal al analizei varstei asteptate a studentilor?

<p>Calcularea varstei medii a studenților din clasă (D)</p> Signup and view all the answers

Ce reprezintă P(A) în contextul analizelor de vârstă?

<p>Frecvența de apariție a vârstei A (B)</p> Signup and view all the answers

Cum se estimă P(a) atunci când nu este cunoscută?

<p>Se colectează un esantion [a1, a2, ..., aN] (A)</p> Signup and view all the answers

Care este formula pentru varsta asteptata E[A] atunci când avem P(a)?

<p>E[A] = a P(a) · a (D)</p> Signup and view all the answers

Ce reprezintă P̂(a) în contextul analizei varstei?

<p>Estimarea frecvenței de apariție a unei vârste (C)</p> Signup and view all the answers

Care este scopul evaluării politicii în învățarea prin întărire pasivă?

<p>Îmbunătățirea estimării lui V pe baza mediei valorilor. (C)</p> Signup and view all the answers

Ce reprezintă termenul γ în formula lui Bellman?

<p>Coeficientul de discount care determină importanța recompenselor viitoare. (D)</p> Signup and view all the answers

Ce se întâmplă în învățarea prin diferență temporală?

<p>Valorile lui V sunt actualizate de fiecare dată când apare o tranziție. (A)</p> Signup and view all the answers

Care este formula pentru modificarea lui V(s) în învățarea prin diferență temporală?

<p>V(s) ← (α)sample + (1 - α)V(s). (C)</p> Signup and view all the answers

Ce metodă propune evaluarea lui V prin medie în învățarea prin întărire pasivă?

<p>Se calculează media valorilor obținute din toate tranzițiile. (A)</p> Signup and view all the answers

Ce reprezintă V(s) în evaluarea directă?

<p>Suma câștigurilor reduse pornind din starea s până la final (C)</p> Signup and view all the answers

Care este un avantaj al evaluării directe?

<p>Calcularea valorilor medii corecte în caz fericit (B)</p> Signup and view all the answers

Ce dezavantaj al evaluării directe este menționat?

<p>Risipește informații despre conexiunile dintre stări (A)</p> Signup and view all the answers

Ce permite formula lui Bellman în evaluarea unei politici fixe?

<p>Exploatează toate conexiunile dintre stări (C)</p> Signup and view all the answers

De ce este important să cunoaștem T și R în evoluția calculului lui V?

<p>Pentru a face calculele necesare (C)</p> Signup and view all the answers

Ce problemă poate apărea în evaluarea unei politici fixe?

<p>Valorile stărilor pot fi aceleași, indiferent de regiuni (A)</p> Signup and view all the answers

Cum se poate face evaluarea lui V fără a cunoaște T și R?

<p>Calculând media ponderată fără a cunoaște ponderile (D)</p> Signup and view all the answers

Care dintre următoarele afirmații este falsă în contextul evaluării directe?

<p>Este foarte precisă în toate cazurile (D)</p> Signup and view all the answers

Ce se urmărește în evaluarea directă folosind metoda Monte Carlo?

<p>Estimarea valorilor pentru fiecare stare sub o politică dată. (B)</p> Signup and view all the answers

Cum se obțin valorile observate în metoda Monte Carlo?

<p>Prin memorarea recompenselor reduse pe parcursul unui episod. (C)</p> Signup and view all the answers

Ce reprezintă simbolul $ ho(s)$ în metoda Monte Carlo?

<p>Politica de acțiune într-o stare. (C)</p> Signup and view all the answers

Care este formula folosită pentru a calcula evaluarea directă a valorii unei stări?

<p>$V(s) ext{ ← } rac{1}{N} ext{samples}_i(s)$ (B)</p> Signup and view all the answers

Ce reprezintă simbolul $ ext{γ}$ în contextul evaluării directe?

<p>Un factor de discount pentru recompensele viitoare. (D)</p> Signup and view all the answers

Ce informații sunt memorate la fiecare vizitare a unei stări în evaluarea directă?

<p>Suma recompenselor obținute în acea stare. (D)</p> Signup and view all the answers

În metoda Monte Carlo, ce se întâmplă după fiecare episod?

<p>Se calculează media recompenselor observate. (C)</p> Signup and view all the answers

Care dintre următoarele afirmatii este adevărată despre politica π?

<p>Stabilește acțiunile sub care se evaluează stările. (C)</p> Signup and view all the answers

Flashcards

Învățare prin întărire (Reinforcement Learning)

Un tip de învățare automată unde un agent învață să se comporte într-un mediu prin încercare și eroare, primind feedback sub formă de recompense sau pedepse.

Învățarea prin întărire pasivă

Agentul nu are control asupra mediului, ci doar observă și evaluează o politică fixă.

Secvența tranzițiilor

O succesiune de stări, acțiuni, recompense și stări următoare, observate dintr-un sistem.

Modelul probabilistic T(s, a, s')

O funcție care descrie probabilitatea ca un agent să treacă dintr-o stare s în starea s', luând acțiunea a.

Signup and view all the flashcards

Funcția de recompensă R(s, a, s')

O funcție care asociază o recompensă agentului pentru a fi într-o stare s, a lua acțiunea a și a ajunge în starea s'.

Signup and view all the flashcards

Învățare pasivă

Metoda de învățare în care agentul învață un model al mediului pentru a estima valori, dar nu ia decizii cu privire la acțiunile pe care să le realizeze.

Signup and view all the flashcards

Învățarea unui model

Procesul de a învăța o reprezentare simplificată a mediului, bazată pe experiența agentului.

Signup and view all the flashcards

Model empiric T̂(s, a, s ′)

O funcție care estimează probabilitatea tranziției între două stări, dată fiind o acțiune.

Signup and view all the flashcards

Rezolvarea modelului MDP empiric

Procesul de a rezolva o problemă de planificare bazată pe modelul empiric învățat.

Signup and view all the flashcards

Model-based learning

Metoda de învățare care se bazează pe estimarea probabilităților de tranziție între stări, bazate pe observații.

Signup and view all the flashcards

Secvența tranzițiilor (s, a, s', R)

O secvență de stări, acțiuni, recompense și stări următoare, observate dintr-un sistem.

Signup and view all the flashcards

Estimarea probabilității P̂*(a)

O aproximare a probabilității de aparitie a unei anumite valori, folosind date din observații.

Signup and view all the flashcards

Evaluare directă (Monte Carlo)

Evaluarea valorii fiecărei stări sub o politică dată, prin calcularea mediei valorilor observate din esantion.

Signup and view all the flashcards

Factor de reducere (γ)

Un factor folosit pentru a reduce importanța recompensei viitoare, reflectând faptul că valoarea recompensei scade odată cu trecerea timpului.

Signup and view all the flashcards

Valoarea unei stări (V(s))

Suma beneficiilor acumulate de la o anumită stare până la finalul episodului.

Signup and view all the flashcards

Politica (π)

O politică fixă ce determină acțiunile pe care agentul le ia în fiecare stare.

Signup and view all the flashcards

Evaluare directa (Monte Carlo)

Procesul de a calcula valoarea fiecărei stări, bazat pe informații din mediul real, fără a utiliza un model al mediului.

Signup and view all the flashcards

Tranziții observate (s, a, s', R)

Un set de tranziții observate, reprezentând experința unui agent în interactionarea cu mediul.

Signup and view all the flashcards

Valoarea de iesire V(s)

Suma castigurilor reduse pornind dintr-o stare s pana la final, calculata prin media peste toate aparitiile starii s.

Signup and view all the flashcards

Evaluarea directa

O abordare simplă pentru a calcula valoarea unei stări, bazată pe medie aritmetică a recompenselor observate.

Signup and view all the flashcards

Evaluarea politicii

Această abordare exploatează toate conexiunile dintre stări, dar necesită cunoașterea tranzițiilor și recompenselor.

Signup and view all the flashcards

De ce evaluarea directa nu este optimă?

O problemă cu evaluarea directa este că nu ia in considerare conexiunile intre stări.

Signup and view all the flashcards

Formulele lui Bellman iterate

Un set de ecuații care permit calcularea valorilor stărilor într-o politică fixă, cu un număr finit de iterații.

Signup and view all the flashcards

Intrebarea fundamentala

Cum putem calcula media ponderata fără să cunoaștem ponderile?

Signup and view all the flashcards

Evaluarea politicii pasive

Evaluarea valorii unei stări (V(s)) pe baza valorilor stărilor succesive, folosind o politică fixă π. Este o metodă de a estima V(s) bazată pe experiența din mediu, unde agentul nu are control asupra acțiunilor.

Signup and view all the flashcards

Învățarea prin diferența temporală (Temporal Difference Learning)

O tehnică de învățare prin întărire în care agentul învață din toate experiențele (tranzitiile) dintr-un mediu.

Signup and view all the flashcards

Actualizarea valorilor prin diferența temporală

Un proces de învățare în care agentul actualizate valoarea unei state, V(s), treptat, prin combinarea valorii vechi cu o nouă valoare calculată din experiența actuală.

Signup and view all the flashcards

Eșantionul (Sample) în TD Learning

O valoare care reprezintă o estimare a valorii viitoare a unei stări, calculate din experiența actuală într-o tranziție (s, a, s', r).

Signup and view all the flashcards

Rata de învățare (α) în TD Learning

Parametrul care determină cât de mult luăm în considerare noua informație din experiența actuală (sample) pentru a actualiza valoarea unei stări (V(s)).

Signup and view all the flashcards

Study Notes

Curs 11-12 - Învățare prin întărire

  • Curs susținut pe data de 18 decembrie 2023
  • Subiecte abordate în cadrul cursului:
    • Învățare prin întărire pasivă
    • Învățare prin întărire activă
    • Aproximarea învățării prin întărire
    • Studiu de caz

Probleme rezolvate cu RL

  • Probleme rezolvate prin metode MDP (Markov Decision Process)
  • Set de stări (s)
  • Set de acțiuni (A) în fiecare stare
  • Model probabilistic T(s, a, s')
  • Funcție de recompensă (reward) R(s, a, s')
  • Se caută o politică π(s)
  • Modelul nu cunoaște T și R, dar trebuie găsite acțiuni și stări optime

Offline (MDP) vs. online (RL)

  • Soluție offline: politica se calculează înainte de joc.
  • Soluție online: politica se calculează pe măsură ce se acumulează experiența.

RL pasiv - rezumat

  • Se evaluează o politică fixată π(s)
  • Input: o politică fixată π(s)
  • Inexistă tranziții T(s, a, s') sau recompense R(s, a, s') cunoscute
  • Cunoscută o secvență de tranziții (s, π(s), s', R), (s', π(s'), s", R'), ...
  • Obiectiv: învățarea valorilor fiecărei stări

Învățarea unui model

  • Ideea învățării unui model: învățarea pe baza experienței
  • Rezolvarea problemelor pentru determinarea valorilor, aşa cum ar fi un model corect
  • Pas 1: învățare empirică a unui model MDP
  • Se numără stările s' pentru fiecare stare s și acțiune a și se normalizează pentru o estimare a funcției de tranziție T(s,a,s')
  • Se descoperă recompensa R(s,a,s') atunci când se acumulează experiența (s,a,s')
  • Pas 2: rezolvarea problemei MDP astfel obținută
  • Folosirea unui algoritm pentru rezolvarea unei probleme MDP, cum ar fi iterația valorilor

Analogie: vârsta aşteptată

  • Obiectiv: calcularea vârstei medii a studenților din clasă
  • Se cunoaște frecvența apariției vârstei A (P(A))
  • Media vârstei asteptate (E[A]) se calculează folosind formula E[A] = Σ P(a) * a
  • Se colectează un eşantion [a1, a2, ..., an] dacă nu se cunoaște P(a)
  • Există metode de estimare a P(a) pe baza eşantionului

Învățare fără model - evaluare directă (Monte Carlo)

  • Obiectiv: calcularea valorilor pentru fiecare stare sub o anumită politică π (pi)
  • Idee: se calculează media valorilor observate din eşantion
  • La fiecare vizitare a unei stări, se memorează suma recompenselor (rewarded) de la acea stare până la finalul episodului
  • Se calculează media acestor valori pentru fiecare stare folosind formula sample(s) = R(s) + γR(s') + γ²R(s'') + ...
  • Metoda este cunoscută ca evaluare directă sau Monte-Carlo.

Probleme cu evaluarea directă

  • Avantajele evaluării directe
  • Ușor de înțeles
  • Nu necesită cunoaşterea lui T și R
  • Calculează valorile medii exacte folosind tranziții extrase din eşantion
  • Dezavantajele evaluării directe
  • Risipește informații despre conexiunile dintre stări
  • Necesită toate episoadele generate înainte de execuție

Temporal difference learning

  • Se învață din toate experiențele (după fiecare acțiune)
  • Actualizarea valorilor V(s) la fiecare tranziție (s,a,s',r)
  • Valorile prezise de la s vor contribui mai mult la actualizări
  • Se calculează valoarea media a succesorilor (sample)
  • Se modifică V(s) cu formula: V(s) ← V(s) + (1-α) V(s) + α(sample – V(s))

Medii mobile exponentiale

  • Calculul clasic al mediei: AVG(x) = Σ Xn / N
  • Media mobilă exponențială: actualizează prin interpolare: Xn = (1-α) Xn-1 + αXn unde 0 < α < 1
  • Valorile recente au o importanță mai mare
  • Valorile vechi sunt uitate (depinde de α)
  • Scăderea ratei de învățare α conduce la convergența mediei

Q-learning

  • Iterarea Q-valorilor pe baza de probe
  • Se calculează Qk+1(s,a) = Σs' T(s, a, s')[R(s, a, s') + max Qk(s', a')]
  • Permite învățarea valorilor Q(s,a) odată cu executarea
  • Fie o probă (s, a, s', r)
  • Se calculează estimarea probei: sample = R(s, a, s') + γ max Q(s', a')
  • Q(s, a) ← (1 – α)Q(s, a) + α·[sample]

Proprietăți Q-learning

  • Q-learning converge la politica optimă chiar dacă acțiunile alese sunt suboptimale
  • Este o tehnică de învățare off-policy

Probleme cu evaluarea directă

  • O modalitate de a face evaluare a politicii în lipsa unui model
  • Dacă dorim o nouă politică, necesită Q(s,a) = Σ(s',r) T(s,a,s')[R(s, a, s') + V(s')]
  • Se invata Q-valori in loc de valori
  • Selecția actiunilor se face fara un model.

Iterarea Q-valorilor

  • Iterare succesivă a valorilor Q(s,a)
  • Pornire cu Q0(s,a) = 0
  • Se calculează Qk+1(s,a) = maxa' Σ(s',r) T(s,a,s')[R(s, a, s') + γ Qk(s', a')]
  • Q-valorile sunt mai utile decât V-valorile.
  • Se calculează Qk+1(s, a) = Σ(s',r) T(s,a,s')[R(s, a, s') + γ maxa' Qk(s', a')]

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Description

Acest curs abordează conceptele de învățare prin întărire, inclusiv metodele de întărire pasivă și activă. De asemenea, se discută despre problemele rezolvate cu procesele de decizie Markov și diferențele între soluțiile offline și online. Participanții vor explora cazuri de studiu și strategii pentru evaluarea politicii de învățare.

More Like This

Use Quizgecko on...
Browser
Browser