Podcast
Questions and Answers
Ce se numește acțiunea optimă obținută prin maximizarea funcției Q?
Ce se numește acțiunea optimă obținută prin maximizarea funcției Q?
Care este un dezavantaj al strategiei de explorare ϵ-greedy?
Care este un dezavantaj al strategiei de explorare ϵ-greedy?
Ce se recomandă să facem cu probabilitatea ϵ pe măsură ce timpul trece?
Ce se recomandă să facem cu probabilitatea ϵ pe măsură ce timpul trece?
Care metodă este folosită pentru explorarea spațiului de acțiune în reinforcement learning?
Care metodă este folosită pentru explorarea spațiului de acțiune în reinforcement learning?
Signup and view all the answers
De câte tipuri poate fi explorarea în reinforcement learning?
De câte tipuri poate fi explorarea în reinforcement learning?
Signup and view all the answers
Ce necesită Q-learning pentru a funcționa eficient?
Ce necesită Q-learning pentru a funcționa eficient?
Signup and view all the answers
Ce problemă apare în Q-learning când sunt prea multe stări?
Ce problemă apare în Q-learning când sunt prea multe stări?
Signup and view all the answers
Cum se poate generaliza experiența în contexte de învățare?
Cum se poate generaliza experiența în contexte de învățare?
Signup and view all the answers
Care dintre următoarele caracteristici nu este asociată cu mediul agentului?
Care dintre următoarele caracteristici nu este asociată cu mediul agentului?
Signup and view all the answers
Care este proprietatea fundamentală a machine learning menționată în contextul generalizării?
Care este proprietatea fundamentală a machine learning menționată în contextul generalizării?
Signup and view all the answers
Ce reprezintă funcția de actualizare a valorii Q în contextul învățării prin întărire?
Ce reprezintă funcția de actualizare a valorii Q în contextul învățării prin întărire?
Signup and view all the answers
Care este scopul minimizării regretului în procesul de învățare?
Care este scopul minimizării regretului în procesul de învățare?
Signup and view all the answers
Ce îmbunătățire oferă funcția de explorare comparativ cu explorarea aleatorie?
Ce îmbunătățire oferă funcția de explorare comparativ cu explorarea aleatorie?
Signup and view all the answers
Care dintre următoarele enunțuri descrie cel mai bine regretul în învățarea prin întărire?
Care dintre următoarele enunțuri descrie cel mai bine regretul în învățarea prin întărire?
Signup and view all the answers
Ce indică o funcție de explorare optimă în învățarea prin întărire?
Ce indică o funcție de explorare optimă în învățarea prin întărire?
Signup and view all the answers
Care este metoda de bază utilizată în căutarea politicii în reinforcement learning?
Care este metoda de bază utilizată în căutarea politicii în reinforcement learning?
Signup and view all the answers
Ce problemă majoră apare atunci când se evaluează politica în rafinarea prin hill-climbing?
Ce problemă majoră apare atunci când se evaluează politica în rafinarea prin hill-climbing?
Signup and view all the answers
În studiul jocurilor Atari, care este forma de reprezentare a stării?
În studiul jocurilor Atari, care este forma de reprezentare a stării?
Signup and view all the answers
Ce tehnici sunt folosite în aproximarea reinforcement learning?
Ce tehnici sunt folosite în aproximarea reinforcement learning?
Signup and view all the answers
Ce tip de acțiune este specificat în modelul MDP al jocurilor Atari?
Ce tip de acțiune este specificat în modelul MDP al jocurilor Atari?
Signup and view all the answers
Care este provocarea principală atunci când se calculează maxa Q(s, a) pentru acțiuni continue?
Care este provocarea principală atunci când se calculează maxa Q(s, a) pentru acțiuni continue?
Signup and view all the answers
Ce metodă se poate folosi pentru a îmbunătăți procesul de învățare a asistenților lingvistici?
Ce metodă se poate folosi pentru a îmbunătăți procesul de învățare a asistenților lingvistici?
Signup and view all the answers
Ce reprezintă 'starea' într-un model MDP utilizat pentru asistenții lingvistici?
Ce reprezintă 'starea' într-un model MDP utilizat pentru asistenții lingvistici?
Signup and view all the answers
Cum se verifică bonificația într-un model de învățare pentru asistenți lingvistici?
Cum se verifică bonificația într-un model de învățare pentru asistenți lingvistici?
Signup and view all the answers
Care metodă nu este asociată cu învățarea în lumea reală pentru roboți?
Care metodă nu este asociată cu învățarea în lumea reală pentru roboți?
Signup and view all the answers
Care este numărul total de stări pentru problema eat-all-dots?
Care este numărul total de stări pentru problema eat-all-dots?
Signup and view all the answers
Ce reprezintă o caracteristică (feature) în contextul aproximării reinforcement learning?
Ce reprezintă o caracteristică (feature) în contextul aproximării reinforcement learning?
Signup and view all the answers
Care dintre următoarele este un exemplu de proprietate în contextul reinforce learning?
Care dintre următoarele este un exemplu de proprietate în contextul reinforce learning?
Signup and view all the answers
În q-learning, ce se știe despre starea rea descoperită prin experiență?
În q-learning, ce se știe despre starea rea descoperită prin experiență?
Signup and view all the answers
Cum se poate scrie o funcție de valoare pentru o stare folosind o reprezentare cu proprietăți?
Cum se poate scrie o funcție de valoare pentru o stare folosind o reprezentare cu proprietăți?
Signup and view all the answers
Ce se poate afirma despre avantajul reprezentării stărilor prin funcții liniare?
Ce se poate afirma despre avantajul reprezentării stărilor prin funcții liniare?
Signup and view all the answers
Ce reprezintă termenul Q(s, a) în cadrul q-learning?
Ce reprezintă termenul Q(s, a) în cadrul q-learning?
Signup and view all the answers
Care dintre următoarele aspecte NU este o caracteristică a unei stări?
Care dintre următoarele aspecte NU este o caracteristică a unei stări?
Signup and view all the answers
Study Notes
Curs 12 - Reinforcement Learning II
- Subiectul cursului este Reinforcement Learning II.
- Data cursului este 9 Ianuarie 2024.
Cuprins
- Activități de învățare prin întărire.
- Aproximarea învățării prin întărire.
- Studii de caz.
Probleme rezolvate cu RL
- Problemele sunt modelate ca probleme MDP (Markov Decision Processes).
- Acestea includ un set de stări (s), un set de acțiuni (A) în fiecare stare, un model probabilistic (T(s, a, s')), și o funcție de recompensă (reward) R(s, a, s').
- Se caută o politică optimă π(s).
- Valorile T sau R sunt de obicei necunoscute.
- Este nevoie de strategii de învățare pentru a determina acțiuni și stări favorabile.
- O strategie este estimarea valorilor medii ale modelului probabilistic T, folosind rezultatele acțiunilor.
Rezolvare cu MDP și RL (pasiv)
- MDP cu informații complete: Se calculează V*, Q*, π* și se evaluează o politică fixă π. (Iterarea valorilor / politicilor).
- MDP fără informații complete - estimarea modelului: Se calculează V*, Q*, π* prin iterarea valorilor/politicii pentru estimarea MDP-ului, evaluarea politicii pentru MDP-ul estimat.
- MDP fără informații complete - rezolvare fără model: Se calculează V*, Q*, π* și se evaluează o politică π. Utilizarea Q-learning și a învățării valorilor.
Învățare prin diferențe temporale (Temporal-Difference Learning)
- Se primește o secvență de experiență din mediu (s, a, r, s', a', r', s'', a'', r'', s''',...).
- Se actualizează estimarea pentru fiecare tranziție (s, a, r, s').
Q-learning
- Q-iteration: Actualizare valorilor Q pentru fiecare stare Q.
- Se inițializează Q0(s, a) = 0 și apoi se iterează.
- Qk+1(s, a) ← Σs' T(s, a, s') [R(s, a, s') + γ maxa' Qk(s', a')].
- Se calculează mediile valorilor Q pe parcursul învățării.
- Se simulează o tranziție (s, a, r, s').
- Q(s, a) ← r + γ maxa' Q(s', a').
- Se aplică o medie pentru rezultatele obținute din tranziția(s, a).
- Actualizarea: Q(s, a) ← (1 – α) Q(s,a) + α [r + γ max a' Q(s', a')].
Proprietăți Q-Learning
- Q-learning converge la politica optimă, chiar dacă acțiunile sunt suboptimale.
- Se obține un mod optim de acțiune π* = argmaxa Q(s, a).
- Acest mod se numește învățare off-policy.
- Are dezavantaje: trebuie explorate multe acțiuni și stări, rata de învățare trebuie să fie mică.
- În limită, nu contează modul de selectare a acțiunilor.
Explorare vs. exploatare
- Sunt disponibile câteva modalități: alegerea aleatorie a acțiunilor (e-greedy).
- La fiecare moment de timp se aruncă o monedă pentru a decide dacă se alege o acțiune aleatorie sau conform politicii curente.
- Problema cu această strategie: se explorează spațiul disponibil dar se aruncă la gunoi experiența pe parcursul învățării.
- Soluția: se reduce probabilitatea de alegere aleatoare pe măsură ce timpul trece, sau se definește o funcție de explorare.
Funcții de explorare
- Când să explorăm: acțiuni aleatorii, explorare într-o măsură fixată, explorare în zone neevaluate ca defavorabile, oprirea explorării în zone evaluate favorabile.
- Funcțiile de explorare: se ia o valoare estimată (u) și un număr de vizite (n) pentru a produce o utilitate optimistă (f(u, n) = u + k/n).
- Se aplică regularizări pentru a se obține o actualizare utilă a valorilor Q: Q(s, a) ←a R(s, a, s') + y maxa, Q(s', a').
- Actualizare modificată: Q(s, a) ←a R(s, a, s') + y maxa, f(Q(s', a'), N(s', a')).
Evaluarea metodelor de explorare - Regret
- Regretul este o măsură a costului total al greșelilor.
- Diferența dintre recompensele obținute, inclusiv cele suboptimale și cele optime.
- Minimizarea regretului este mai mult decât învățarea optimă, necesitând metode de învățare care devin optime.
- Un exemplu este explorarea aleatorie, care produce un regret crescut.
Este problema rezolvată?
- În principiu da, dacă este găsită o funcție de explorare optimă.
- Dar ce se face în cazul spațiilor de căutare mari și complexe?
Aproximarea învățării prin întărire
- Generalizarea peste stările problemei este necesară.
- Q-learning necesită memorarea unei tabele cu toate valorile Q, dar în situații reale, acest lucru nu este posibil din cauza volumului mare de stări.
- Soluția: generalizarea pentru stări similare din experiența obținută.
Mărimea spațiului de stări
- Proprietăți ale mediului (în exemplele date, jocuri Atari, Pac-Man): poziții agent, mâncare, dușmani (strigoi), direcții.
- Se calculează numărul total de stări posibile.
Pacman - exemplu
- Starea jocului este relevantă pentru învățare.
- În Q-learning, informațiile despre anumite stări sunt necunoscute.
Reprezentare bazată pe proprietăți (features)
- Reprezentarea spațiului de stări folosind un vector de proprietăți f1, f2, ...
- Proprietățile sunt funcții care mapeează stările la numere reale (0/1) pentru a reprezenta aspecte importante ale stării.
- Exemple: distanță față de dușman, distanță față de mâncare.
Funcții liniare pentru valori
- Folosind proprietățile, se reprezintă o valoare Q (funcții de valoare) pentru fiecare stare, utilizând un set de ponderi w1, w2. . .
- V(s) = w1f1(s) + w2f2(s) + ... + wnfn(s)
- Q(s, a) = w1f1(s,a) + w2f2(s,a) + ... + wnfn(s,a)
- Avantaj: experiența este rezumată de setul de ponderi.
- Dezavantaj: stările pot avea proprietăți comune, dar în realitate pot avea valori diferite.
- Exemplu: cele două stări pot avea aceeași valoare dacă nu consideră pozitia strigoilor ca proprietate.
Q-learning aproximat
-
Presupune Q(s, a) = w1f1(s, a) + w2f2(s, a) + ... + wnfn(s, a).
-
Q-learning cu funcție liniară pentru valorile Q.
-
Înscrie diferența prin (s, a, r, s')
-
Diferența: [r + y maxa' Q(s', a')] – Q(s, a)
-
Actualizarea: Wi ← Wi + α × diferenta × fi(s,a).
-
Reprezentare intuitivă: se ajustează ponderile proprietăților active dacă o situație este nefavorabilă.
Exemplu: Q-Pacman
- Q(s,a) = 4.0fDOT(s, a) – 1.0fGST(s,a).
- Exemplu de calcul al ponderilor și actualizărilor.
Căutarea politicii
- Problema: majoritatea politicilor bazate pe proprietăți funcționează bine în situațiile multi-agent, dar nu aproximează bine valorile V și Q.
- Prioritatea Q-learning: obținerea valorilor Q (sarcina de modelare).
- Prioritatea selecției acțiunii: obținerea unei ordonări a valorilor Q (sarcina de predicție).
- Soluția: învățarea politicii π care maximizează recompensa, nu valorile Q care prezic recompensa.
- Cautarea politicii: se pornește cu o soluție ok (de exemplu, Q- learning) și se rafinează ponderile folosind hill climbing.
Cea mai simplă căutare a politicii
- Se pornește cu o funcție liniară pentru valori sau funcție Q.
- Se mută fiecare pondere a unei proprietăți pentru a vedea dacă se obține o politică mai bună.
- Problema: cum se stabilește dacă o politică este mai bună? (necesitatea de a rula multe episoade, multe proprietăți pot complica).
Jocuri Atari
- Stare: imagine a jocului.
- 256 stări posibile.
- Procesarea stărilor cu un vector de proprietăți sau o rețea neuronală.
- Acțiune: combinații de taste de joc.
- Tranziție: specific jocurilor.
- Recompensă: scorul jocului.
- Se folosește Q-learning.
Mișcarea roboților
- Stare: imagine a camerei robotului, unghiuri și date accelerometru.
- Acțiune: comenzi la motoarele robotului.
- Tranziție: lumea reală.
- Recompensă: proiectată a priori.
- Este vorba despre învățare în medii dinamice.
- Poate fi necesară o simulare virtuală pentru a testa comportamentul robotului.
Asistenți lingvistici
- Pas 1: se antrenează un LLM (Large Language Model) pentru a reproduce text uman.
- Pas 2: se face rafinare (fine-tuning) pentru a produce text util.
- Se poate folosi reinforcement learning în pasul 2.
- Stare: secvența de cuvinte până la momentul respectiv.
- Spațiu imens de stări, procesat folosind vectori de proprietăți sau rețele neuronale.
- Acțiune: cuvântul următor.
- Tranziție: concatenarea cuvântului următor la cuvintele din stare.
- Recompensă: pozitivă când răspunsul este corect, se poate învăța un model R.
- Se face căutare a politicii (Proximal policy optimization) și Q-learning.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Acest quiz testează cunoștințele despre Q-learning în contextul învățării prin întărire. Vei explora concepte precum explorarea și exploatarea, funcția Q și problemele întâmpinate în învățare. Răspunde la întrebări despre caracteristicile agentului și metodologiile de învățare eficientă.