Q-Learning: Μάθηση χωρίς Μοντέλο

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

Ποιος είναι ο ρόλος του πίνακα Q στο Q-learning;

Διαχειρίζεται τις αρχικές καταστάσεις του περιβάλλοντος
Καταγράφει την εμπειρία του πράκτορα καθώς μαθαίνει (correct)
Επιλέγει τυχαία δράσεις για τον πράκτορα
Αποθηκεύει τις ανταμοιβές των δράσεων

Ποια είναι η λειτουργία του ρυθμού μάθησης $𝜂$ στον αλγόριθμο Q-learning;

Καθορίζει την επιρροή των παλαιών τιμών στον πίνακα Q (correct)
Καθορίζει την ανταμοιβή που θα λάβει ο πράκτορας
Αλλάζει τη νέα κατάσταση του πράκτορα
Ελέγχει πόσες επαναλήψεις θα πραγματοποιηθούν

Πώς διαχειρίζεται ο αλγόριθμος Q-learning τα μη-δυνατά ζεύγη κατάστασης-δράσης;

Τα ενσωματώνει στον πίνακα Q
Ενημερώνει τις τιμές τους με τυχαίο τρόπο
Τα σηματοδοτεί με συγκεκριμένες ανταμοιβές
Τα αγνοεί πλήρως κατά τη διάρκεια της μάθησης (correct)

Στην εξίσωση ενημέρωσης του πίνακα Q, ποιο μέγεθος αναπαριστά την ανταμοιβή που λαμβάνει ο πράκτορας;

$𝑟$ (A) Signup and view all the answers

Τι αντιπροσωπεύει ο πίνακας ανταμοιβής στην εκπαίδευση ενός πράκτορα;

Μένει σταθερός και γνωστός εκ των προτέρων (A) Signup and view all the answers

Ποιο από τα παρακάτω δεν αποτελεί βήμα της διαδικασίας Q-learning;

Επιλογή δράσης αδιακρίτως (A) Signup and view all the answers

Ποιο από τα παρακάτω χαρακτηριστικά ισχύει για τον πίνακα ανταμοιβής R κατά τη διάρκεια της εκπαίδευσης;

Είναι γνωστός εκ των προτέρων και σταθερός (B) Signup and view all the answers

Ποια μέθοδος επιλέγεται για την εκτίμηση της δράσης αλφα 𝛼 κατ’ αναλογία στην εξίσωση ενημέρωσης;

Μέθοδος επανάληψης τιμών ή πολιτικών (D) Signup and view all the answers

Ποιος είναι ο σκοπός του κανόνα μάθησης μέσω του Q-learning;

Να συγκλίνει το 𝑄(𝑠𝑡, 𝛼𝑡) στη μέση τιμή των ζευγών (D) Signup and view all the answers

Ποια παράμετρος ενσωματώνει τις εμπειρίες του πράκτορα στο πίνακα Q;

Ρυθμός μάθησης 𝜂 (B) Signup and view all the answers

Flashcards

Συνάρτηση Ανταμοιβής (ℛ)

Συνάρτηση που προσδιορίζει την ανταμοιβή για κάθε ζεύγος κατάστασης-δράσης. Είναι γνωστή εκ των προτέρων και σταθερή.

Πίνακας Ανταμοιβής (Reward Table)

Πίνακας που αντιστοιχίζει κάθε ζεύγος κατάστασης-δράσης με την αξία του. Είναι γνωστός εκ των προτέρων και σταθερός.

Q-Table

Πίνακας που αποθηκεύει τις αξίες Q για κάθε ζεύγος κατάστασης-δράσης. Αρχικά είναι κενός και η αξία των Q ενημερώνεται καθώς ο πράκτορας μαθαίνει.

Q-Learning

Αλγόριθμος μάθησης που χρησιμεύει για την εκμάθηση της ιδανικής πολιτικής, ενημερώνοντας τις αξίες Q με την κάθε εμπειρία.

Signup and view all the flashcards

Ρυθμός Μάθησης (𝜂)

Ο ρυθμός με τον οποίο ενημερώνονται οι αξίες Q. Μια μικρή τιμή 𝜂 σημαίνει αργή μάθηση, ενώ μια μεγάλη σημαίνει γρήγορη μάθηση.

Signup and view all the flashcards

Πίνακας Q (Q-table)

Η Q-μάθηση χρησιμοποιεί έναν πίνακα για να αποθηκεύσει τις αξίες Q για κάθε ζεύγος κατάστασης-δράσης. Η τιμή Q είναι μια μέτρηση του πόσο επιθυμητή είναι μια κατάσταση με μια συγκεκριμένη ενέργεια. Αρχικά είναι κενός, και οι αξίες Q ενημερώνονται με την πάροδο του χρόνου, όσο ο πράκτορας μαθαίνει.

Signup and view all the flashcards

Study Notes

Q-Learning: Μάθηση χωρίς Μοντέλο

Ο Q-learning είναι αλγόριθμος μάθησης ενισχυτικής επιστήμης (RL) χωρίς μοντέλο.
Η συνάρτηση ανταμοιβής (R) είναι γνωστή εκ των προτέρων και σταθερή. Αυτή αποτυπώνεται σε πίνακα ανταμοιβών (reward table).
Σημαντικό: αρνητικά συμβόλαια (-1) στο reward table αντιστοιχούν σε μη-βέλτιστες καταστάσεις/ενέργειες.
Ο πίνακας Q (Q-table) αρχικά είναι κενός και γεμίζει με την εμπειρία του πράκτορα καθώς μαθαίνει.
Q(s, a) αντιπροσωπεύει την εκτίμηση της μακροπρόθεσμης αξίας μιας δράσης (a) σε μια κατάσταση (s).

Αλγόριθμος Q-Learning

Αρχικοποίηση του πίνακα Q(s, a).
Για κάθε επεισόδιο εκπαίδευσης:
- Επιλογή αρχικής κατάστασης (s).
- Επανάληψη μέχρις ότου φτάσει σε τελική κατάσταση:
  - Επιλογή δράσης (a), π.χ. μέσω πιθανοτήτων ή πολιτικών.
  - Λήψη ανταμοιβής (r) και νέας κατάστασης (s').
  - Ενημέρωση της τιμής Q(s, a):
    - Q(s_t, a_t) ⟵ (1-η)Q(s_t, a_t) + η(R(s, a) + γ max_{a_t+1} Q(s_t+1, a_t+1)) - Q(s_t, a_t)
η: ρυθμός μάθησης (learning rate)
γ: παράγοντας έκπτωσης (discount factor). Προσομοιώνει την αξία μακροπρόθεσμων ανταμοιβών σε σχέση με τις άμεσες.
Η εξίσωση είναι η βασική εξίσωση μάθησης. Στόχος είναι ο Q(s,a) να συγκλίνει στη μέση τιμή (βέλτιστη).
Ο κανόνας ανταμοιβής (R(s, a) + γ max_{a_t+1} Q(s_t+1, a_t+1)) μπορεί να θεωρηθεί ως σύνολο δειγμάτων ζευγών κατάστασης-δράσης.