Podcast
Questions and Answers
Ce reprezintă un set de stări în cadrul problemelor MDP?
Ce reprezintă un set de stări în cadrul problemelor MDP?
- Un set de stări s ∈ S (correct)
- Un model probabilistic T
- Un set de recompense R
- Acțiuni posibile în fiecare stare
Care este scopul învățării prin întărire pasivă?
Care este scopul învățării prin întărire pasivă?
- Să evalueze o politică fixată π(s) (correct)
- Să calculeze politica pe măsura acumulării experienței
- Să cunoască tranzitiile T și câștigurile R
- Să determine o politică optimă fără acțiuni active
Ce se întâmplă în soluția offline a problemelor MDP?
Ce se întâmplă în soluția offline a problemelor MDP?
- Soluția nu depinde de experiențele anterioare
- Politica este determinată în prealabil (correct)
- Se folosesc acțiuni active pentru a acumula experiență
- Politica se calculează în timpul jocului
Ce informații sunt cunoscute în cadrul învățării prin întărire pasivă?
Ce informații sunt cunoscute în cadrul învățării prin întărire pasivă?
Ce necesită problemele de învățare prin întărire pentru a se adapta la politici?
Ce necesită problemele de învățare prin întărire pentru a se adapta la politici?
Care este principalul obiectiv al procesului de învățare în contextul prezentat?
Care este principalul obiectiv al procesului de învățare în contextul prezentat?
Cum se învață un model în învățarea bazată pe model?
Cum se învață un model în învățarea bazată pe model?
Ce se întâmplă în Pasul 1 al învățării modelului?
Ce se întâmplă în Pasul 1 al învățării modelului?
Ce algoritm este menționat ca fiind utilizat pentru rezolvarea problemei MDP?
Ce algoritm este menționat ca fiind utilizat pentru rezolvarea problemei MDP?
Ce presupunem în exemplul de învățare bazată pe model referitor la gamma?
Ce presupunem în exemplul de învățare bazată pe model referitor la gamma?
Care este scopul principal al analizei varstei asteptate a studentilor?
Care este scopul principal al analizei varstei asteptate a studentilor?
Ce reprezintă P(A) în contextul analizelor de vârstă?
Ce reprezintă P(A) în contextul analizelor de vârstă?
Cum se estimă P(a) atunci când nu este cunoscută?
Cum se estimă P(a) atunci când nu este cunoscută?
Care este formula pentru varsta asteptata E[A] atunci când avem P(a)?
Care este formula pentru varsta asteptata E[A] atunci când avem P(a)?
Ce reprezintă P̂(a) în contextul analizei varstei?
Ce reprezintă P̂(a) în contextul analizei varstei?
Care este scopul evaluării politicii în învățarea prin întărire pasivă?
Care este scopul evaluării politicii în învățarea prin întărire pasivă?
Ce reprezintă termenul γ în formula lui Bellman?
Ce reprezintă termenul γ în formula lui Bellman?
Ce se întâmplă în învățarea prin diferență temporală?
Ce se întâmplă în învățarea prin diferență temporală?
Care este formula pentru modificarea lui V(s) în învățarea prin diferență temporală?
Care este formula pentru modificarea lui V(s) în învățarea prin diferență temporală?
Ce metodă propune evaluarea lui V prin medie în învățarea prin întărire pasivă?
Ce metodă propune evaluarea lui V prin medie în învățarea prin întărire pasivă?
Ce reprezintă V(s) în evaluarea directă?
Ce reprezintă V(s) în evaluarea directă?
Care este un avantaj al evaluării directe?
Care este un avantaj al evaluării directe?
Ce dezavantaj al evaluării directe este menționat?
Ce dezavantaj al evaluării directe este menționat?
Ce permite formula lui Bellman în evaluarea unei politici fixe?
Ce permite formula lui Bellman în evaluarea unei politici fixe?
De ce este important să cunoaștem T și R în evoluția calculului lui V?
De ce este important să cunoaștem T și R în evoluția calculului lui V?
Ce problemă poate apărea în evaluarea unei politici fixe?
Ce problemă poate apărea în evaluarea unei politici fixe?
Cum se poate face evaluarea lui V fără a cunoaște T și R?
Cum se poate face evaluarea lui V fără a cunoaște T și R?
Care dintre următoarele afirmații este falsă în contextul evaluării directe?
Care dintre următoarele afirmații este falsă în contextul evaluării directe?
Ce se urmărește în evaluarea directă folosind metoda Monte Carlo?
Ce se urmărește în evaluarea directă folosind metoda Monte Carlo?
Cum se obțin valorile observate în metoda Monte Carlo?
Cum se obțin valorile observate în metoda Monte Carlo?
Ce reprezintă simbolul $
ho(s)$ în metoda Monte Carlo?
Ce reprezintă simbolul $ ho(s)$ în metoda Monte Carlo?
Care este formula folosită pentru a calcula evaluarea directă a valorii unei stări?
Care este formula folosită pentru a calcula evaluarea directă a valorii unei stări?
Ce reprezintă simbolul $ ext{γ}$ în contextul evaluării directe?
Ce reprezintă simbolul $ ext{γ}$ în contextul evaluării directe?
Ce informații sunt memorate la fiecare vizitare a unei stări în evaluarea directă?
Ce informații sunt memorate la fiecare vizitare a unei stări în evaluarea directă?
În metoda Monte Carlo, ce se întâmplă după fiecare episod?
În metoda Monte Carlo, ce se întâmplă după fiecare episod?
Care dintre următoarele afirmatii este adevărată despre politica π?
Care dintre următoarele afirmatii este adevărată despre politica π?
Flashcards
Învățare prin întărire (Reinforcement Learning)
Învățare prin întărire (Reinforcement Learning)
Un tip de învățare automată unde un agent învață să se comporte într-un mediu prin încercare și eroare, primind feedback sub formă de recompense sau pedepse.
Învățarea prin întărire pasivă
Învățarea prin întărire pasivă
Agentul nu are control asupra mediului, ci doar observă și evaluează o politică fixă.
Secvența tranzițiilor
Secvența tranzițiilor
O succesiune de stări, acțiuni, recompense și stări următoare, observate dintr-un sistem.
Modelul probabilistic T(s, a, s')
Modelul probabilistic T(s, a, s')
Signup and view all the flashcards
Funcția de recompensă R(s, a, s')
Funcția de recompensă R(s, a, s')
Signup and view all the flashcards
Învățare pasivă
Învățare pasivă
Signup and view all the flashcards
Învățarea unui model
Învățarea unui model
Signup and view all the flashcards
Model empiric T̂(s, a, s ′)
Model empiric T̂(s, a, s ′)
Signup and view all the flashcards
Rezolvarea modelului MDP empiric
Rezolvarea modelului MDP empiric
Signup and view all the flashcards
Model-based learning
Model-based learning
Signup and view all the flashcards
Secvența tranzițiilor (s, a, s', R)
Secvența tranzițiilor (s, a, s', R)
Signup and view all the flashcards
Estimarea probabilității P̂*(a)
Estimarea probabilității P̂*(a)
Signup and view all the flashcards
Evaluare directă (Monte Carlo)
Evaluare directă (Monte Carlo)
Signup and view all the flashcards
Factor de reducere (γ)
Factor de reducere (γ)
Signup and view all the flashcards
Valoarea unei stări (V(s))
Valoarea unei stări (V(s))
Signup and view all the flashcards
Politica (π)
Politica (π)
Signup and view all the flashcards
Evaluare directa (Monte Carlo)
Evaluare directa (Monte Carlo)
Signup and view all the flashcards
Tranziții observate (s, a, s', R)
Tranziții observate (s, a, s', R)
Signup and view all the flashcards
Valoarea de iesire V(s)
Valoarea de iesire V(s)
Signup and view all the flashcards
Evaluarea directa
Evaluarea directa
Signup and view all the flashcards
Evaluarea politicii
Evaluarea politicii
Signup and view all the flashcards
De ce evaluarea directa nu este optimă?
De ce evaluarea directa nu este optimă?
Signup and view all the flashcards
Formulele lui Bellman iterate
Formulele lui Bellman iterate
Signup and view all the flashcards
Intrebarea fundamentala
Intrebarea fundamentala
Signup and view all the flashcards
Evaluarea politicii pasive
Evaluarea politicii pasive
Signup and view all the flashcards
Învățarea prin diferența temporală (Temporal Difference Learning)
Învățarea prin diferența temporală (Temporal Difference Learning)
Signup and view all the flashcards
Actualizarea valorilor prin diferența temporală
Actualizarea valorilor prin diferența temporală
Signup and view all the flashcards
Eșantionul (Sample) în TD Learning
Eșantionul (Sample) în TD Learning
Signup and view all the flashcards
Rata de învățare (α) în TD Learning
Rata de învățare (α) în TD Learning
Signup and view all the flashcards
Study Notes
Curs 11-12 - Învățare prin întărire
- Curs susținut pe data de 18 decembrie 2023
- Subiecte abordate în cadrul cursului:
- Învățare prin întărire pasivă
- Învățare prin întărire activă
- Aproximarea învățării prin întărire
- Studiu de caz
Probleme rezolvate cu RL
- Probleme rezolvate prin metode MDP (Markov Decision Process)
- Set de stări (s)
- Set de acțiuni (A) în fiecare stare
- Model probabilistic T(s, a, s')
- Funcție de recompensă (reward) R(s, a, s')
- Se caută o politică π(s)
- Modelul nu cunoaște T și R, dar trebuie găsite acțiuni și stări optime
Offline (MDP) vs. online (RL)
- Soluție offline: politica se calculează înainte de joc.
- Soluție online: politica se calculează pe măsură ce se acumulează experiența.
RL pasiv - rezumat
- Se evaluează o politică fixată π(s)
- Input: o politică fixată π(s)
- Inexistă tranziții T(s, a, s') sau recompense R(s, a, s') cunoscute
- Cunoscută o secvență de tranziții (s, π(s), s', R), (s', π(s'), s", R'), ...
- Obiectiv: învățarea valorilor fiecărei stări
Învățarea unui model
- Ideea învățării unui model: învățarea pe baza experienței
- Rezolvarea problemelor pentru determinarea valorilor, aşa cum ar fi un model corect
- Pas 1: învățare empirică a unui model MDP
- Se numără stările s' pentru fiecare stare s și acțiune a și se normalizează pentru o estimare a funcției de tranziție T(s,a,s')
- Se descoperă recompensa R(s,a,s') atunci când se acumulează experiența (s,a,s')
- Pas 2: rezolvarea problemei MDP astfel obținută
- Folosirea unui algoritm pentru rezolvarea unei probleme MDP, cum ar fi iterația valorilor
Analogie: vârsta aşteptată
- Obiectiv: calcularea vârstei medii a studenților din clasă
- Se cunoaște frecvența apariției vârstei A (P(A))
- Media vârstei asteptate (E[A]) se calculează folosind formula E[A] = Σ P(a) * a
- Se colectează un eşantion [a1, a2, ..., an] dacă nu se cunoaște P(a)
- Există metode de estimare a P(a) pe baza eşantionului
Învățare fără model - evaluare directă (Monte Carlo)
- Obiectiv: calcularea valorilor pentru fiecare stare sub o anumită politică π (pi)
- Idee: se calculează media valorilor observate din eşantion
- La fiecare vizitare a unei stări, se memorează suma recompenselor (rewarded) de la acea stare până la finalul episodului
- Se calculează media acestor valori pentru fiecare stare folosind formula sample(s) = R(s) + γR(s') + γ²R(s'') + ...
- Metoda este cunoscută ca evaluare directă sau Monte-Carlo.
Probleme cu evaluarea directă
- Avantajele evaluării directe
- Ușor de înțeles
- Nu necesită cunoaşterea lui T și R
- Calculează valorile medii exacte folosind tranziții extrase din eşantion
- Dezavantajele evaluării directe
- Risipește informații despre conexiunile dintre stări
- Necesită toate episoadele generate înainte de execuție
Temporal difference learning
- Se învață din toate experiențele (după fiecare acțiune)
- Actualizarea valorilor V(s) la fiecare tranziție (s,a,s',r)
- Valorile prezise de la s vor contribui mai mult la actualizări
- Se calculează valoarea media a succesorilor (sample)
- Se modifică V(s) cu formula: V(s) ← V(s) + (1-α) V(s) + α(sample – V(s))
Medii mobile exponentiale
- Calculul clasic al mediei: AVG(x) = Σ Xn / N
- Media mobilă exponențială: actualizează prin interpolare: Xn = (1-α) Xn-1 + αXn unde 0 < α < 1
- Valorile recente au o importanță mai mare
- Valorile vechi sunt uitate (depinde de α)
- Scăderea ratei de învățare α conduce la convergența mediei
Q-learning
- Iterarea Q-valorilor pe baza de probe
- Se calculează Qk+1(s,a) = Σs' T(s, a, s')[R(s, a, s') + max Qk(s', a')]
- Permite învățarea valorilor Q(s,a) odată cu executarea
- Fie o probă (s, a, s', r)
- Se calculează estimarea probei: sample = R(s, a, s') + γ max Q(s', a')
- Q(s, a) ← (1 – α)Q(s, a) + α·[sample]
Proprietăți Q-learning
- Q-learning converge la politica optimă chiar dacă acțiunile alese sunt suboptimale
- Este o tehnică de învățare off-policy
Probleme cu evaluarea directă
- O modalitate de a face evaluare a politicii în lipsa unui model
- Dacă dorim o nouă politică, necesită Q(s,a) = Σ(s',r) T(s,a,s')[R(s, a, s') + V(s')]
- Se invata Q-valori in loc de valori
- Selecția actiunilor se face fara un model.
Iterarea Q-valorilor
- Iterare succesivă a valorilor Q(s,a)
- Pornire cu Q0(s,a) = 0
- Se calculează Qk+1(s,a) = maxa' Σ(s',r) T(s,a,s')[R(s, a, s') + γ Qk(s', a')]
- Q-valorile sunt mai utile decât V-valorile.
- Se calculează Qk+1(s, a) = Σ(s',r) T(s,a,s')[R(s, a, s') + γ maxa' Qk(s', a')]
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Acest curs abordează conceptele de învățare prin întărire, inclusiv metodele de întărire pasivă și activă. De asemenea, se discută despre problemele rezolvate cu procesele de decizie Markov și diferențele între soluțiile offline și online. Participanții vor explora cazuri de studiu și strategii pentru evaluarea politicii de învățare.