Învățarea prin întărire

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

Ce se numește acțiunea optimă obținută prin maximizarea funcției Q?

Explorare
Învățare activă
Învățare pasivă
Off-policy learning (correct)

Care este un dezavantaj al strategiei de explorare ϵ-greedy?

Aruncă experiența la gunoi pe măsură ce învățarea evoluează (correct)
Exploatează întotdeauna acțiunile curente
Reduce probabilitatea de a ajunge la soluții optime
Nu permite explorarea suficientă a spațiului de acțiune

Ce se recomandă să facem cu probabilitatea ϵ pe măsură ce timpul trece?

Să o eliminăm complet
Să o menținem constantă
Să o creștem continuu
Să o diminuează (correct)

Care metodă este folosită pentru explorarea spațiului de acțiune în reinforcement learning?

Alegerea aleatorie a acțiunilor (C) Signup and view all the answers

De câte tipuri poate fi explorarea în reinforcement learning?

Mai multe metode (A) Signup and view all the answers

Ce necesită Q-learning pentru a funcționa eficient?

Memorarea valorilor tuturor stărilor (D) Signup and view all the answers

Ce problemă apare în Q-learning când sunt prea multe stări?

Dificultatea în memorarea stărilor (A) Signup and view all the answers

Cum se poate generaliza experiența în contexte de învățare?

Prin învățarea unui număr mic de stări (D) Signup and view all the answers

Care dintre următoarele caracteristici nu este asociată cu mediul agentului?

Numărul de stări: 50 (B) Signup and view all the answers

Care este proprietatea fundamentală a machine learning menționată în contextul generalizării?

Învățarea din experiență pentru a aplica la stări similare (C) Signup and view all the answers

Ce reprezintă funcția de actualizare a valorii Q în contextul învățării prin întărire?

Actualizarea valorii Q pe baza recompenselor și a valorilor optime viitoare (D) Signup and view all the answers

Care este scopul minimizării regretului în procesul de învățare?

Dezvoltarea unei metode de învățare care devine optimă (B) Signup and view all the answers

Ce îmbunătățire oferă funcția de explorare comparativ cu explorarea aleatorie?

Oferă o politică optimă cu un regret mai mic (B) Signup and view all the answers

Care dintre următoarele enunțuri descrie cel mai bine regretul în învățarea prin întărire?

Regretul este o măsură a costului total al greșelilor (A) Signup and view all the answers

Ce indică o funcție de explorare optimă în învățarea prin întărire?

Optimizarea explorării în spații complexe (A) Signup and view all the answers

Care este metoda de bază utilizată în căutarea politicii în reinforcement learning?

Folosirea funcției liniare pentru valori sau o q-funcție (D) Signup and view all the answers

Ce problemă majoră apare atunci când se evaluează politica în rafinarea prin hill-climbing?

Necesitatea de a executa multe episoade pentru evaluarea politicii (C) Signup and view all the answers

În studiul jocurilor Atari, care este forma de reprezentare a stării?

Imaginea unui joc cu dimensiunea de 25684×84 (B) Signup and view all the answers

Ce tehnici sunt folosite în aproximarea reinforcement learning?

Structuri de mediu cunoscute și schimbarea parametrilor (B) Signup and view all the answers

Ce tip de acțiune este specificat în modelul MDP al jocurilor Atari?

Combinarea tastelor săgeți și a altor butoane (D) Signup and view all the answers

Care este provocarea principală atunci când se calculează maxa Q(s, a) pentru acțiuni continue?

Numărul infinit de acțiuni posibile (B) Signup and view all the answers

Ce metodă se poate folosi pentru a îmbunătăți procesul de învățare a asistenților lingvistici?

Fine tuning (C) Signup and view all the answers

Ce reprezintă 'starea' într-un model MDP utilizat pentru asistenții lingvistici?

O secvență de cuvinte întâlnite anterior (B) Signup and view all the answers

Cum se verifică bonificația într-un model de învățare pentru asistenți lingvistici?

Evaluând corectitudinea răspunsului (D) Signup and view all the answers

Care metodă nu este asociată cu învățarea în lumea reală pentru roboți?

Învățarea directă în condiții reale (D) Signup and view all the answers

Care este numărul total de stări pentru problema eat-all-dots?

120x(230) (D) Signup and view all the answers

Ce reprezintă o caracteristică (feature) în contextul aproximării reinforcement learning?

O funcție care mapează stările la numere reale sau 0/1 (B) Signup and view all the answers

Care dintre următoarele este un exemplu de proprietate în contextul reinforce learning?

Distanța față de strigoiul cel mai apropiat (C) Signup and view all the answers

În q-learning, ce se știe despre starea rea descoperită prin experiență?

Nu se știe nimic despre această stare (D) Signup and view all the answers

Cum se poate scrie o funcție de valoare pentru o stare folosind o reprezentare cu proprietăți?

Prin utilizarea unui set de ponderi pentru fiecare caracteristică (B) Signup and view all the answers

Ce se poate afirma despre avantajul reprezentării stărilor prin funcții liniare?

Experiența este sumarizată de un set de ponderi (B) Signup and view all the answers

Ce reprezintă termenul Q(s, a) în cadrul q-learning?

O funcție ce calculează valoarea unei stări și acțiuni (A) Signup and view all the answers

Care dintre următoarele aspecte NU este o caracteristică a unei stări?

Nivelul de dificultate al jocului (B) Signup and view all the answers

Flashcards

π∗ = argmaxa Q(s, a)

Aceasta se referă la găsirea celei mai bune acțiuni conform valorilor asociate stărilor și acțiunilor, reprezentate de funcția Q.

Off-policy learning

Aceasta se referă la o strategie de invatare în care nu ne bazăm exclusiv pe politica curentă, ci explorăm și alte alternative.

Negajarea experienței

O problemă a acestei strategii este ca explorarea excesivă poate duce la ignoriri ale informațiilor utile.