Podcast
Questions and Answers
Ce se numește acțiunea optimă obținută prin maximizarea funcției Q?
Ce se numește acțiunea optimă obținută prin maximizarea funcției Q?
- Explorare
- Învățare activă
- Învățare pasivă
- Off-policy learning (correct)
Care este un dezavantaj al strategiei de explorare ϵ-greedy?
Care este un dezavantaj al strategiei de explorare ϵ-greedy?
- Aruncă experiența la gunoi pe măsură ce învățarea evoluează (correct)
- Exploatează întotdeauna acțiunile curente
- Reduce probabilitatea de a ajunge la soluții optime
- Nu permite explorarea suficientă a spațiului de acțiune
Ce se recomandă să facem cu probabilitatea ϵ pe măsură ce timpul trece?
Ce se recomandă să facem cu probabilitatea ϵ pe măsură ce timpul trece?
- Să o eliminăm complet
- Să o menținem constantă
- Să o creștem continuu
- Să o diminuează (correct)
Care metodă este folosită pentru explorarea spațiului de acțiune în reinforcement learning?
Care metodă este folosită pentru explorarea spațiului de acțiune în reinforcement learning?
De câte tipuri poate fi explorarea în reinforcement learning?
De câte tipuri poate fi explorarea în reinforcement learning?
Ce necesită Q-learning pentru a funcționa eficient?
Ce necesită Q-learning pentru a funcționa eficient?
Ce problemă apare în Q-learning când sunt prea multe stări?
Ce problemă apare în Q-learning când sunt prea multe stări?
Cum se poate generaliza experiența în contexte de învățare?
Cum se poate generaliza experiența în contexte de învățare?
Care dintre următoarele caracteristici nu este asociată cu mediul agentului?
Care dintre următoarele caracteristici nu este asociată cu mediul agentului?
Care este proprietatea fundamentală a machine learning menționată în contextul generalizării?
Care este proprietatea fundamentală a machine learning menționată în contextul generalizării?
Ce reprezintă funcția de actualizare a valorii Q în contextul învățării prin întărire?
Ce reprezintă funcția de actualizare a valorii Q în contextul învățării prin întărire?
Care este scopul minimizării regretului în procesul de învățare?
Care este scopul minimizării regretului în procesul de învățare?
Ce îmbunătățire oferă funcția de explorare comparativ cu explorarea aleatorie?
Ce îmbunătățire oferă funcția de explorare comparativ cu explorarea aleatorie?
Care dintre următoarele enunțuri descrie cel mai bine regretul în învățarea prin întărire?
Care dintre următoarele enunțuri descrie cel mai bine regretul în învățarea prin întărire?
Ce indică o funcție de explorare optimă în învățarea prin întărire?
Ce indică o funcție de explorare optimă în învățarea prin întărire?
Care este metoda de bază utilizată în căutarea politicii în reinforcement learning?
Care este metoda de bază utilizată în căutarea politicii în reinforcement learning?
Ce problemă majoră apare atunci când se evaluează politica în rafinarea prin hill-climbing?
Ce problemă majoră apare atunci când se evaluează politica în rafinarea prin hill-climbing?
În studiul jocurilor Atari, care este forma de reprezentare a stării?
În studiul jocurilor Atari, care este forma de reprezentare a stării?
Ce tehnici sunt folosite în aproximarea reinforcement learning?
Ce tehnici sunt folosite în aproximarea reinforcement learning?
Ce tip de acțiune este specificat în modelul MDP al jocurilor Atari?
Ce tip de acțiune este specificat în modelul MDP al jocurilor Atari?
Care este provocarea principală atunci când se calculează maxa Q(s, a) pentru acțiuni continue?
Care este provocarea principală atunci când se calculează maxa Q(s, a) pentru acțiuni continue?
Ce metodă se poate folosi pentru a îmbunătăți procesul de învățare a asistenților lingvistici?
Ce metodă se poate folosi pentru a îmbunătăți procesul de învățare a asistenților lingvistici?
Ce reprezintă 'starea' într-un model MDP utilizat pentru asistenții lingvistici?
Ce reprezintă 'starea' într-un model MDP utilizat pentru asistenții lingvistici?
Cum se verifică bonificația într-un model de învățare pentru asistenți lingvistici?
Cum se verifică bonificația într-un model de învățare pentru asistenți lingvistici?
Care metodă nu este asociată cu învățarea în lumea reală pentru roboți?
Care metodă nu este asociată cu învățarea în lumea reală pentru roboți?
Care este numărul total de stări pentru problema eat-all-dots?
Care este numărul total de stări pentru problema eat-all-dots?
Ce reprezintă o caracteristică (feature) în contextul aproximării reinforcement learning?
Ce reprezintă o caracteristică (feature) în contextul aproximării reinforcement learning?
Care dintre următoarele este un exemplu de proprietate în contextul reinforce learning?
Care dintre următoarele este un exemplu de proprietate în contextul reinforce learning?
În q-learning, ce se știe despre starea rea descoperită prin experiență?
În q-learning, ce se știe despre starea rea descoperită prin experiență?
Cum se poate scrie o funcție de valoare pentru o stare folosind o reprezentare cu proprietăți?
Cum se poate scrie o funcție de valoare pentru o stare folosind o reprezentare cu proprietăți?
Ce se poate afirma despre avantajul reprezentării stărilor prin funcții liniare?
Ce se poate afirma despre avantajul reprezentării stărilor prin funcții liniare?
Ce reprezintă termenul Q(s, a) în cadrul q-learning?
Ce reprezintă termenul Q(s, a) în cadrul q-learning?
Care dintre următoarele aspecte NU este o caracteristică a unei stări?
Care dintre următoarele aspecte NU este o caracteristică a unei stări?
Flashcards
π∗ = argmaxa Q(s, a)
π∗ = argmaxa Q(s, a)
Aceasta se referă la găsirea celei mai bune acțiuni conform valorilor asociate stărilor și acțiunilor, reprezentate de funcția Q.
Off-policy learning
Off-policy learning
Aceasta se referă la o strategie de invatare în care nu ne bazăm exclusiv pe politica curentă, ci explorăm și alte alternative.
Negajarea experienței
Negajarea experienței
O problemă a acestei strategii este ca explorarea excesivă poate duce la ignoriri ale informațiilor utile.
Diminuarea lui ϵ în timp
Diminuarea lui ϵ în timp
Signup and view all the flashcards
Functia de explorare
Functia de explorare
Signup and view all the flashcards
Regretul (Regret)
Regretul (Regret)
Signup and view all the flashcards
Explorarea aleatorie
Explorarea aleatorie
Signup and view all the flashcards
Actualizarea modificată a valorii Q
Actualizarea modificată a valorii Q
Signup and view all the flashcards
Reinforcement learning activ
Reinforcement learning activ
Signup and view all the flashcards
Căutarea simplă a politicii
Căutarea simplă a politicii
Signup and view all the flashcards
Evaluarea politicii
Evaluarea politicii
Signup and view all the flashcards
Metode mai avansate de optimizare a politicii
Metode mai avansate de optimizare a politicii
Signup and view all the flashcards
Starea, acțiunea și recompensa în jocurile Atari
Starea, acțiunea și recompensa în jocurile Atari
Signup and view all the flashcards
Starea, acțiunea și recompensa în controlul roboților
Starea, acțiunea și recompensa în controlul roboților
Signup and view all the flashcards
De ce este nevoie de aproximarea reinforcement learning?
De ce este nevoie de aproximarea reinforcement learning?
Signup and view all the flashcards
Cum funcționează generalizarea în aproximarea funcției?
Cum funcționează generalizarea în aproximarea funcției?
Signup and view all the flashcards
Ce impact are dimensiunea spațiului de stări?
Ce impact are dimensiunea spațiului de stări?
Signup and view all the flashcards
Cum ajută aproximarea funcției la gestionarea spațiilor de stări mari?
Cum ajută aproximarea funcției la gestionarea spațiilor de stări mari?
Signup and view all the flashcards
Care este importanța aproximare reinforcement learning cu funcție?
Care este importanța aproximare reinforcement learning cu funcție?
Signup and view all the flashcards
Antrenarea LLM-urilor cu învățare întărită
Antrenarea LLM-urilor cu învățare întărită
Signup and view all the flashcards
Starea chatbotului
Starea chatbotului
Signup and view all the flashcards
Acțiunea chatbotului
Acțiunea chatbotului
Signup and view all the flashcards
Tranziția chatbotului
Tranziția chatbotului
Signup and view all the flashcards
Recompensa chatbotului
Recompensa chatbotului
Signup and view all the flashcards
Reprezentarea bazată pe proprietăți
Reprezentarea bazată pe proprietăți
Signup and view all the flashcards
Funcție liniară pentru valori
Funcție liniară pentru valori
Signup and view all the flashcards
Ponderi pentru funcția liniară
Ponderi pentru funcția liniară
Signup and view all the flashcards
Învățarea funcției liniare
Învățarea funcției liniare
Signup and view all the flashcards
Experiența sumarizată de ponderi
Experiența sumarizată de ponderi
Signup and view all the flashcards
Reguli de actualizare a ponderilor
Reguli de actualizare a ponderilor
Signup and view all the flashcards
Selecția atentă a proprietăților
Selecția atentă a proprietăților
Signup and view all the flashcards
Utilizarea funcției liniare pentru q-functie
Utilizarea funcției liniare pentru q-functie
Signup and view all the flashcards
Study Notes
Curs 12 - Reinforcement Learning II
- Subiectul cursului este Reinforcement Learning II.
- Data cursului este 9 Ianuarie 2024.
Cuprins
- Activități de învățare prin întărire.
- Aproximarea învățării prin întărire.
- Studii de caz.
Probleme rezolvate cu RL
- Problemele sunt modelate ca probleme MDP (Markov Decision Processes).
- Acestea includ un set de stări (s), un set de acțiuni (A) în fiecare stare, un model probabilistic (T(s, a, s')), și o funcție de recompensă (reward) R(s, a, s').
- Se caută o politică optimă π(s).
- Valorile T sau R sunt de obicei necunoscute.
- Este nevoie de strategii de învățare pentru a determina acțiuni și stări favorabile.
- O strategie este estimarea valorilor medii ale modelului probabilistic T, folosind rezultatele acțiunilor.
Rezolvare cu MDP și RL (pasiv)
- MDP cu informații complete: Se calculează V*, Q*, π* și se evaluează o politică fixă π. (Iterarea valorilor / politicilor).
- MDP fără informații complete - estimarea modelului: Se calculează V*, Q*, π* prin iterarea valorilor/politicii pentru estimarea MDP-ului, evaluarea politicii pentru MDP-ul estimat.
- MDP fără informații complete - rezolvare fără model: Se calculează V*, Q*, π* și se evaluează o politică π. Utilizarea Q-learning și a învățării valorilor.
Învățare prin diferențe temporale (Temporal-Difference Learning)
- Se primește o secvență de experiență din mediu (s, a, r, s', a', r', s'', a'', r'', s''',...).
- Se actualizează estimarea pentru fiecare tranziție (s, a, r, s').
Q-learning
- Q-iteration: Actualizare valorilor Q pentru fiecare stare Q.
- Se inițializează Q0(s, a) = 0 și apoi se iterează.
- Qk+1(s, a) ← Σs' T(s, a, s') [R(s, a, s') + γ maxa' Qk(s', a')].
- Se calculează mediile valorilor Q pe parcursul învățării.
- Se simulează o tranziție (s, a, r, s').
- Q(s, a) ← r + γ maxa' Q(s', a').
- Se aplică o medie pentru rezultatele obținute din tranziția(s, a).
- Actualizarea: Q(s, a) ← (1 – α) Q(s,a) + α [r + γ max a' Q(s', a')].
Proprietăți Q-Learning
- Q-learning converge la politica optimă, chiar dacă acțiunile sunt suboptimale.
- Se obține un mod optim de acțiune π* = argmaxa Q(s, a).
- Acest mod se numește învățare off-policy.
- Are dezavantaje: trebuie explorate multe acțiuni și stări, rata de învățare trebuie să fie mică.
- În limită, nu contează modul de selectare a acțiunilor.
Explorare vs. exploatare
- Sunt disponibile câteva modalități: alegerea aleatorie a acțiunilor (e-greedy).
- La fiecare moment de timp se aruncă o monedă pentru a decide dacă se alege o acțiune aleatorie sau conform politicii curente.
- Problema cu această strategie: se explorează spațiul disponibil dar se aruncă la gunoi experiența pe parcursul învățării.
- Soluția: se reduce probabilitatea de alegere aleatoare pe măsură ce timpul trece, sau se definește o funcție de explorare.
Funcții de explorare
- Când să explorăm: acțiuni aleatorii, explorare într-o măsură fixată, explorare în zone neevaluate ca defavorabile, oprirea explorării în zone evaluate favorabile.
- Funcțiile de explorare: se ia o valoare estimată (u) și un număr de vizite (n) pentru a produce o utilitate optimistă (f(u, n) = u + k/n).
- Se aplică regularizări pentru a se obține o actualizare utilă a valorilor Q: Q(s, a) ←a R(s, a, s') + y maxa, Q(s', a').
- Actualizare modificată: Q(s, a) ←a R(s, a, s') + y maxa, f(Q(s', a'), N(s', a')).
Evaluarea metodelor de explorare - Regret
- Regretul este o măsură a costului total al greșelilor.
- Diferența dintre recompensele obținute, inclusiv cele suboptimale și cele optime.
- Minimizarea regretului este mai mult decât învățarea optimă, necesitând metode de învățare care devin optime.
- Un exemplu este explorarea aleatorie, care produce un regret crescut.
Este problema rezolvată?
- În principiu da, dacă este găsită o funcție de explorare optimă.
- Dar ce se face în cazul spațiilor de căutare mari și complexe?
Aproximarea învățării prin întărire
- Generalizarea peste stările problemei este necesară.
- Q-learning necesită memorarea unei tabele cu toate valorile Q, dar în situații reale, acest lucru nu este posibil din cauza volumului mare de stări.
- Soluția: generalizarea pentru stări similare din experiența obținută.
Mărimea spațiului de stări
- Proprietăți ale mediului (în exemplele date, jocuri Atari, Pac-Man): poziții agent, mâncare, dușmani (strigoi), direcții.
- Se calculează numărul total de stări posibile.
Pacman - exemplu
- Starea jocului este relevantă pentru învățare.
- În Q-learning, informațiile despre anumite stări sunt necunoscute.
Reprezentare bazată pe proprietăți (features)
- Reprezentarea spațiului de stări folosind un vector de proprietăți f1, f2, ...
- Proprietățile sunt funcții care mapeează stările la numere reale (0/1) pentru a reprezenta aspecte importante ale stării.
- Exemple: distanță față de dușman, distanță față de mâncare.
Funcții liniare pentru valori
- Folosind proprietățile, se reprezintă o valoare Q (funcții de valoare) pentru fiecare stare, utilizând un set de ponderi w1, w2. . .
- V(s) = w1f1(s) + w2f2(s) + ... + wnfn(s)
- Q(s, a) = w1f1(s,a) + w2f2(s,a) + ... + wnfn(s,a)
- Avantaj: experiența este rezumată de setul de ponderi.
- Dezavantaj: stările pot avea proprietăți comune, dar în realitate pot avea valori diferite.
- Exemplu: cele două stări pot avea aceeași valoare dacă nu consideră pozitia strigoilor ca proprietate.
Q-learning aproximat
-
Presupune Q(s, a) = w1f1(s, a) + w2f2(s, a) + ... + wnfn(s, a).
-
Q-learning cu funcție liniară pentru valorile Q.
-
Înscrie diferența prin (s, a, r, s')
-
Diferența: [r + y maxa' Q(s', a')] – Q(s, a)
-
Actualizarea: Wi ← Wi + α × diferenta × fi(s,a).
-
Reprezentare intuitivă: se ajustează ponderile proprietăților active dacă o situație este nefavorabilă.
Exemplu: Q-Pacman
- Q(s,a) = 4.0fDOT(s, a) – 1.0fGST(s,a).
- Exemplu de calcul al ponderilor și actualizărilor.
Căutarea politicii
- Problema: majoritatea politicilor bazate pe proprietăți funcționează bine în situațiile multi-agent, dar nu aproximează bine valorile V și Q.
- Prioritatea Q-learning: obținerea valorilor Q (sarcina de modelare).
- Prioritatea selecției acțiunii: obținerea unei ordonări a valorilor Q (sarcina de predicție).
- Soluția: învățarea politicii π care maximizează recompensa, nu valorile Q care prezic recompensa.
- Cautarea politicii: se pornește cu o soluție ok (de exemplu, Q- learning) și se rafinează ponderile folosind hill climbing.
Cea mai simplă căutare a politicii
- Se pornește cu o funcție liniară pentru valori sau funcție Q.
- Se mută fiecare pondere a unei proprietăți pentru a vedea dacă se obține o politică mai bună.
- Problema: cum se stabilește dacă o politică este mai bună? (necesitatea de a rula multe episoade, multe proprietăți pot complica).
Jocuri Atari
- Stare: imagine a jocului.
- 256 stări posibile.
- Procesarea stărilor cu un vector de proprietăți sau o rețea neuronală.
- Acțiune: combinații de taste de joc.
- Tranziție: specific jocurilor.
- Recompensă: scorul jocului.
- Se folosește Q-learning.
Mișcarea roboților
- Stare: imagine a camerei robotului, unghiuri și date accelerometru.
- Acțiune: comenzi la motoarele robotului.
- Tranziție: lumea reală.
- Recompensă: proiectată a priori.
- Este vorba despre învățare în medii dinamice.
- Poate fi necesară o simulare virtuală pentru a testa comportamentul robotului.
Asistenți lingvistici
- Pas 1: se antrenează un LLM (Large Language Model) pentru a reproduce text uman.
- Pas 2: se face rafinare (fine-tuning) pentru a produce text util.
- Se poate folosi reinforcement learning în pasul 2.
- Stare: secvența de cuvinte până la momentul respectiv.
- Spațiu imens de stări, procesat folosind vectori de proprietăți sau rețele neuronale.
- Acțiune: cuvântul următor.
- Tranziție: concatenarea cuvântului următor la cuvintele din stare.
- Recompensă: pozitivă când răspunsul este corect, se poate învăța un model R.
- Se face căutare a politicii (Proximal policy optimization) și Q-learning.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Acest quiz testează cunoștințele despre Q-learning în contextul învățării prin întărire. Vei explora concepte precum explorarea și exploatarea, funcția Q și problemele întâmpinate în învățare. Răspunde la întrebări despre caracteristicile agentului și metodologiile de învățare eficientă.