Învățarea prin întărire - Q-learning
33 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Ce se numește acțiunea optimă obținută prin maximizarea funcției Q?

  • Explorare
  • Învățare activă
  • Învățare pasivă
  • Off-policy learning (correct)
  • Care este un dezavantaj al strategiei de explorare ϵ-greedy?

  • Aruncă experiența la gunoi pe măsură ce învățarea evoluează (correct)
  • Exploatează întotdeauna acțiunile curente
  • Reduce probabilitatea de a ajunge la soluții optime
  • Nu permite explorarea suficientă a spațiului de acțiune
  • Ce se recomandă să facem cu probabilitatea ϵ pe măsură ce timpul trece?

  • Să o eliminăm complet
  • Să o menținem constantă
  • Să o creștem continuu
  • Să o diminuează (correct)
  • Care metodă este folosită pentru explorarea spațiului de acțiune în reinforcement learning?

    <p>Alegerea aleatorie a acțiunilor</p> Signup and view all the answers

    De câte tipuri poate fi explorarea în reinforcement learning?

    <p>Mai multe metode</p> Signup and view all the answers

    Ce necesită Q-learning pentru a funcționa eficient?

    <p>Memorarea valorilor tuturor stărilor</p> Signup and view all the answers

    Ce problemă apare în Q-learning când sunt prea multe stări?

    <p>Dificultatea în memorarea stărilor</p> Signup and view all the answers

    Cum se poate generaliza experiența în contexte de învățare?

    <p>Prin învățarea unui număr mic de stări</p> Signup and view all the answers

    Care dintre următoarele caracteristici nu este asociată cu mediul agentului?

    <p>Numărul de stări: 50</p> Signup and view all the answers

    Care este proprietatea fundamentală a machine learning menționată în contextul generalizării?

    <p>Învățarea din experiență pentru a aplica la stări similare</p> Signup and view all the answers

    Ce reprezintă funcția de actualizare a valorii Q în contextul învățării prin întărire?

    <p>Actualizarea valorii Q pe baza recompenselor și a valorilor optime viitoare</p> Signup and view all the answers

    Care este scopul minimizării regretului în procesul de învățare?

    <p>Dezvoltarea unei metode de învățare care devine optimă</p> Signup and view all the answers

    Ce îmbunătățire oferă funcția de explorare comparativ cu explorarea aleatorie?

    <p>Oferă o politică optimă cu un regret mai mic</p> Signup and view all the answers

    Care dintre următoarele enunțuri descrie cel mai bine regretul în învățarea prin întărire?

    <p>Regretul este o măsură a costului total al greșelilor</p> Signup and view all the answers

    Ce indică o funcție de explorare optimă în învățarea prin întărire?

    <p>Optimizarea explorării în spații complexe</p> Signup and view all the answers

    Care este metoda de bază utilizată în căutarea politicii în reinforcement learning?

    <p>Folosirea funcției liniare pentru valori sau o q-funcție</p> Signup and view all the answers

    Ce problemă majoră apare atunci când se evaluează politica în rafinarea prin hill-climbing?

    <p>Necesitatea de a executa multe episoade pentru evaluarea politicii</p> Signup and view all the answers

    În studiul jocurilor Atari, care este forma de reprezentare a stării?

    <p>Imaginea unui joc cu dimensiunea de 25684×84</p> Signup and view all the answers

    Ce tehnici sunt folosite în aproximarea reinforcement learning?

    <p>Structuri de mediu cunoscute și schimbarea parametrilor</p> Signup and view all the answers

    Ce tip de acțiune este specificat în modelul MDP al jocurilor Atari?

    <p>Combinarea tastelor săgeți și a altor butoane</p> Signup and view all the answers

    Care este provocarea principală atunci când se calculează maxa Q(s, a) pentru acțiuni continue?

    <p>Numărul infinit de acțiuni posibile</p> Signup and view all the answers

    Ce metodă se poate folosi pentru a îmbunătăți procesul de învățare a asistenților lingvistici?

    <p>Fine tuning</p> Signup and view all the answers

    Ce reprezintă 'starea' într-un model MDP utilizat pentru asistenții lingvistici?

    <p>O secvență de cuvinte întâlnite anterior</p> Signup and view all the answers

    Cum se verifică bonificația într-un model de învățare pentru asistenți lingvistici?

    <p>Evaluând corectitudinea răspunsului</p> Signup and view all the answers

    Care metodă nu este asociată cu învățarea în lumea reală pentru roboți?

    <p>Învățarea directă în condiții reale</p> Signup and view all the answers

    Care este numărul total de stări pentru problema eat-all-dots?

    <p>120x(230)</p> Signup and view all the answers

    Ce reprezintă o caracteristică (feature) în contextul aproximării reinforcement learning?

    <p>O funcție care mapează stările la numere reale sau 0/1</p> Signup and view all the answers

    Care dintre următoarele este un exemplu de proprietate în contextul reinforce learning?

    <p>Distanța față de strigoiul cel mai apropiat</p> Signup and view all the answers

    În q-learning, ce se știe despre starea rea descoperită prin experiență?

    <p>Nu se știe nimic despre această stare</p> Signup and view all the answers

    Cum se poate scrie o funcție de valoare pentru o stare folosind o reprezentare cu proprietăți?

    <p>Prin utilizarea unui set de ponderi pentru fiecare caracteristică</p> Signup and view all the answers

    Ce se poate afirma despre avantajul reprezentării stărilor prin funcții liniare?

    <p>Experiența este sumarizată de un set de ponderi</p> Signup and view all the answers

    Ce reprezintă termenul Q(s, a) în cadrul q-learning?

    <p>O funcție ce calculează valoarea unei stări și acțiuni</p> Signup and view all the answers

    Care dintre următoarele aspecte NU este o caracteristică a unei stări?

    <p>Nivelul de dificultate al jocului</p> Signup and view all the answers

    Study Notes

    Curs 12 - Reinforcement Learning II

    • Subiectul cursului este Reinforcement Learning II.
    • Data cursului este 9 Ianuarie 2024.

    Cuprins

    • Activități de învățare prin întărire.
    • Aproximarea învățării prin întărire.
    • Studii de caz.

    Probleme rezolvate cu RL

    • Problemele sunt modelate ca probleme MDP (Markov Decision Processes).
    • Acestea includ un set de stări (s), un set de acțiuni (A) în fiecare stare, un model probabilistic (T(s, a, s')), și o funcție de recompensă (reward) R(s, a, s').
    • Se caută o politică optimă π(s).
    • Valorile T sau R sunt de obicei necunoscute.
    • Este nevoie de strategii de învățare pentru a determina acțiuni și stări favorabile.
    • O strategie este estimarea valorilor medii ale modelului probabilistic T, folosind rezultatele acțiunilor.

    Rezolvare cu MDP și RL (pasiv)

    • MDP cu informații complete: Se calculează V*, Q*, π* și se evaluează o politică fixă π. (Iterarea valorilor / politicilor).
    • MDP fără informații complete - estimarea modelului: Se calculează V*, Q*, π* prin iterarea valorilor/politicii pentru estimarea MDP-ului, evaluarea politicii pentru MDP-ul estimat.
    • MDP fără informații complete - rezolvare fără model: Se calculează V*, Q*, π* și se evaluează o politică π. Utilizarea Q-learning și a învățării valorilor.

    Învățare prin diferențe temporale (Temporal-Difference Learning)

    • Se primește o secvență de experiență din mediu (s, a, r, s', a', r', s'', a'', r'', s''',...).
    • Se actualizează estimarea pentru fiecare tranziție (s, a, r, s').

    Q-learning

    • Q-iteration: Actualizare valorilor Q pentru fiecare stare Q.
    • Se inițializează Q0(s, a) = 0 și apoi se iterează.
    • Qk+1(s, a) ← Σs' T(s, a, s') [R(s, a, s') + γ maxa' Qk(s', a')].
    • Se calculează mediile valorilor Q pe parcursul învățării.
    • Se simulează o tranziție (s, a, r, s').
    • Q(s, a) ← r + γ maxa' Q(s', a').
    • Se aplică o medie pentru rezultatele obținute din tranziția(s, a).
    • Actualizarea: Q(s, a) ← (1 – α) Q(s,a) + α [r + γ max a' Q(s', a')].

    Proprietăți Q-Learning

    • Q-learning converge la politica optimă, chiar dacă acțiunile sunt suboptimale.
    • Se obține un mod optim de acțiune π* = argmaxa Q(s, a).
    • Acest mod se numește învățare off-policy.
    • Are dezavantaje: trebuie explorate multe acțiuni și stări, rata de învățare trebuie să fie mică.
    • În limită, nu contează modul de selectare a acțiunilor.

    Explorare vs. exploatare

    • Sunt disponibile câteva modalități: alegerea aleatorie a acțiunilor (e-greedy).
    • La fiecare moment de timp se aruncă o monedă pentru a decide dacă se alege o acțiune aleatorie sau conform politicii curente.
    • Problema cu această strategie: se explorează spațiul disponibil dar se aruncă la gunoi experiența pe parcursul învățării.
    • Soluția: se reduce probabilitatea de alegere aleatoare pe măsură ce timpul trece, sau se definește o funcție de explorare.

    Funcții de explorare

    • Când să explorăm: acțiuni aleatorii, explorare într-o măsură fixată, explorare în zone neevaluate ca defavorabile, oprirea explorării în zone evaluate favorabile.
    • Funcțiile de explorare: se ia o valoare estimată (u) și un număr de vizite (n) pentru a produce o utilitate optimistă (f(u, n) = u + k/n).
    • Se aplică regularizări pentru a se obține o actualizare utilă a valorilor Q: Q(s, a) ←a R(s, a, s') + y maxa, Q(s', a').
    • Actualizare modificată: Q(s, a) ←a R(s, a, s') + y maxa, f(Q(s', a'), N(s', a')).

    Evaluarea metodelor de explorare - Regret

    • Regretul este o măsură a costului total al greșelilor.
    • Diferența dintre recompensele obținute, inclusiv cele suboptimale și cele optime.
    • Minimizarea regretului este mai mult decât învățarea optimă, necesitând metode de învățare care devin optime.
    • Un exemplu este explorarea aleatorie, care produce un regret crescut.

    Este problema rezolvată?

    • În principiu da, dacă este găsită o funcție de explorare optimă.
    • Dar ce se face în cazul spațiilor de căutare mari și complexe?

    Aproximarea învățării prin întărire

    • Generalizarea peste stările problemei este necesară.
    • Q-learning necesită memorarea unei tabele cu toate valorile Q, dar în situații reale, acest lucru nu este posibil din cauza volumului mare de stări.
    • Soluția: generalizarea pentru stări similare din experiența obținută.

    Mărimea spațiului de stări

    • Proprietăți ale mediului (în exemplele date, jocuri Atari, Pac-Man): poziții agent, mâncare, dușmani (strigoi), direcții.
    • Se calculează numărul total de stări posibile.

    Pacman - exemplu

    • Starea jocului este relevantă pentru învățare.
    • În Q-learning, informațiile despre anumite stări sunt necunoscute.

    Reprezentare bazată pe proprietăți (features)

    • Reprezentarea spațiului de stări folosind un vector de proprietăți f1, f2, ...
    • Proprietățile sunt funcții care mapeează stările la numere reale (0/1) pentru a reprezenta aspecte importante ale stării.
    • Exemple: distanță față de dușman, distanță față de mâncare.

    Funcții liniare pentru valori

    • Folosind proprietățile, se reprezintă o valoare Q (funcții de valoare) pentru fiecare stare, utilizând un set de ponderi w1, w2. . .
    • V(s) = w1f1(s) + w2f2(s) + ... + wnfn(s)
    • Q(s, a) = w1f1(s,a) + w2f2(s,a) + ... + wnfn(s,a)
    • Avantaj: experiența este rezumată de setul de ponderi.
    • Dezavantaj: stările pot avea proprietăți comune, dar în realitate pot avea valori diferite.
    • Exemplu: cele două stări pot avea aceeași valoare dacă nu consideră pozitia strigoilor ca proprietate.

    Q-learning aproximat

    • Presupune Q(s, a) = w1f1(s, a) + w2f2(s, a) + ... + wnfn(s, a).

    • Q-learning cu funcție liniară pentru valorile Q.

    • Înscrie diferența prin (s, a, r, s')

    • Diferența: [r + y maxa' Q(s', a')] – Q(s, a)

    • Actualizarea: Wi ← Wi + α × diferenta × fi(s,a).

    • Reprezentare intuitivă: se ajustează ponderile proprietăților active dacă o situație este nefavorabilă.

    Exemplu: Q-Pacman

    • Q(s,a) = 4.0fDOT(s, a) – 1.0fGST(s,a).
    • Exemplu de calcul al ponderilor și actualizărilor.

    Căutarea politicii

    • Problema: majoritatea politicilor bazate pe proprietăți funcționează bine în situațiile multi-agent, dar nu aproximează bine valorile V și Q.
    • Prioritatea Q-learning: obținerea valorilor Q (sarcina de modelare).
    • Prioritatea selecției acțiunii: obținerea unei ordonări a valorilor Q (sarcina de predicție).
    • Soluția: învățarea politicii π care maximizează recompensa, nu valorile Q care prezic recompensa.
    • Cautarea politicii: se pornește cu o soluție ok (de exemplu, Q- learning) și se rafinează ponderile folosind hill climbing.

    Cea mai simplă căutare a politicii

    • Se pornește cu o funcție liniară pentru valori sau funcție Q.
    • Se mută fiecare pondere a unei proprietăți pentru a vedea dacă se obține o politică mai bună.
    • Problema: cum se stabilește dacă o politică este mai bună? (necesitatea de a rula multe episoade, multe proprietăți pot complica).

    Jocuri Atari

    • Stare: imagine a jocului.
    • 256 stări posibile.
    • Procesarea stărilor cu un vector de proprietăți sau o rețea neuronală.
    • Acțiune: combinații de taste de joc.
    • Tranziție: specific jocurilor.
    • Recompensă: scorul jocului.
    • Se folosește Q-learning.

    Mișcarea roboților

    • Stare: imagine a camerei robotului, unghiuri și date accelerometru.
    • Acțiune: comenzi la motoarele robotului.
    • Tranziție: lumea reală.
    • Recompensă: proiectată a priori.
    • Este vorba despre învățare în medii dinamice.
    • Poate fi necesară o simulare virtuală pentru a testa comportamentul robotului.

    Asistenți lingvistici

    • Pas 1: se antrenează un LLM (Large Language Model) pentru a reproduce text uman.
    • Pas 2: se face rafinare (fine-tuning) pentru a produce text util.
    • Se poate folosi reinforcement learning în pasul 2.
    • Stare: secvența de cuvinte până la momentul respectiv.
    • Spațiu imens de stări, procesat folosind vectori de proprietăți sau rețele neuronale.
    • Acțiune: cuvântul următor.
    • Tranziție: concatenarea cuvântului următor la cuvintele din stare.
    • Recompensă: pozitivă când răspunsul este corect, se poate învăța un model R.
    • Se face căutare a politicii (Proximal policy optimization) și Q-learning.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Description

    Acest quiz testează cunoștințele despre Q-learning în contextul învățării prin întărire. Vei explora concepte precum explorarea și exploatarea, funcția Q și problemele întâmpinate în învățare. Răspunde la întrebări despre caracteristicile agentului și metodologiile de învățare eficientă.

    Use Quizgecko on...
    Browser
    Browser