Podcast
Questions and Answers
Ποιος είναι ο ρόλος του πίνακα Q στο Q-learning;
Ποιος είναι ο ρόλος του πίνακα Q στο Q-learning;
Ποια είναι η λειτουργία του ρυθμού μάθησης $𝜂$ στον αλγόριθμο Q-learning;
Ποια είναι η λειτουργία του ρυθμού μάθησης $𝜂$ στον αλγόριθμο Q-learning;
Πώς διαχειρίζεται ο αλγόριθμος Q-learning τα μη-δυνατά ζεύγη κατάστασης-δράσης;
Πώς διαχειρίζεται ο αλγόριθμος Q-learning τα μη-δυνατά ζεύγη κατάστασης-δράσης;
Στην εξίσωση ενημέρωσης του πίνακα Q, ποιο μέγεθος αναπαριστά την ανταμοιβή που λαμβάνει ο πράκτορας;
Στην εξίσωση ενημέρωσης του πίνακα Q, ποιο μέγεθος αναπαριστά την ανταμοιβή που λαμβάνει ο πράκτορας;
Signup and view all the answers
Τι αντιπροσωπεύει ο πίνακας ανταμοιβής στην εκπαίδευση ενός πράκτορα;
Τι αντιπροσωπεύει ο πίνακας ανταμοιβής στην εκπαίδευση ενός πράκτορα;
Signup and view all the answers
Ποιο από τα παρακάτω δεν αποτελεί βήμα της διαδικασίας Q-learning;
Ποιο από τα παρακάτω δεν αποτελεί βήμα της διαδικασίας Q-learning;
Signup and view all the answers
Ποιο από τα παρακάτω χαρακτηριστικά ισχύει για τον πίνακα ανταμοιβής R κατά τη διάρκεια της εκπαίδευσης;
Ποιο από τα παρακάτω χαρακτηριστικά ισχύει για τον πίνακα ανταμοιβής R κατά τη διάρκεια της εκπαίδευσης;
Signup and view all the answers
Ποια μέθοδος επιλέγεται για την εκτίμηση της δράσης αλφα 𝛼 κατ’ αναλογία στην εξίσωση ενημέρωσης;
Ποια μέθοδος επιλέγεται για την εκτίμηση της δράσης αλφα 𝛼 κατ’ αναλογία στην εξίσωση ενημέρωσης;
Signup and view all the answers
Ποιος είναι ο σκοπός του κανόνα μάθησης μέσω του Q-learning;
Ποιος είναι ο σκοπός του κανόνα μάθησης μέσω του Q-learning;
Signup and view all the answers
Ποια παράμετρος ενσωματώνει τις εμπειρίες του πράκτορα στο πίνακα Q;
Ποια παράμετρος ενσωματώνει τις εμπειρίες του πράκτορα στο πίνακα Q;
Signup and view all the answers
Study Notes
Q-Learning: Μάθηση χωρίς Μοντέλο
- Ο Q-learning είναι αλγόριθμος μάθησης ενισχυτικής επιστήμης (RL) χωρίς μοντέλο.
- Η συνάρτηση ανταμοιβής (R) είναι γνωστή εκ των προτέρων και σταθερή. Αυτή αποτυπώνεται σε πίνακα ανταμοιβών (reward table).
- Σημαντικό: αρνητικά συμβόλαια (-1) στο reward table αντιστοιχούν σε μη-βέλτιστες καταστάσεις/ενέργειες.
- Ο πίνακας Q (Q-table) αρχικά είναι κενός και γεμίζει με την εμπειρία του πράκτορα καθώς μαθαίνει.
- Q(s, a) αντιπροσωπεύει την εκτίμηση της μακροπρόθεσμης αξίας μιας δράσης (a) σε μια κατάσταση (s).
Αλγόριθμος Q-Learning
-
Αρχικοποίηση του πίνακα Q(s, a).
-
Για κάθε επεισόδιο εκπαίδευσης:
- Επιλογή αρχικής κατάστασης (s).
- Επανάληψη μέχρις ότου φτάσει σε τελική κατάσταση:
- Επιλογή δράσης (a), π.χ. μέσω πιθανοτήτων ή πολιτικών.
- Λήψη ανταμοιβής (r) και νέας κατάστασης (s').
- Ενημέρωση της τιμής Q(s, a):
- Q(st, at) ⟵ (1-η)Q(st, at) + η(R(s, a) + γ maxat+1 Q(st+1, at+1)) - Q(st, at)
-
η: ρυθμός μάθησης (learning rate)
-
γ: παράγοντας έκπτωσης (discount factor). Προσομοιώνει την αξία μακροπρόθεσμων ανταμοιβών σε σχέση με τις άμεσες.
-
Η εξίσωση είναι η βασική εξίσωση μάθησης. Στόχος είναι ο Q(s,a) να συγκλίνει στη μέση τιμή (βέλτιστη).
-
Ο κανόνας ανταμοιβής (R(s, a) + γ maxat+1 Q(st+1, at+1)) μπορεί να θεωρηθεί ως σύνολο δειγμάτων ζευγών κατάστασης-δράσης.
Ερμηνεία και Σχετικές έννοιες
- Η εξίσωση ανταμοιβής μπορεί να ερμηνευθεί ως μέτρηση δειγμάτων καταστάσεων/ενεργειών.
- Στόχος είναι να βρούμε την καλύτερη δράση σε κάθε σημείο.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Αυτό το quiz εξετάζει τον αλγόριθμο Q-learning, ο οποίος είναι βασικός στην ενισχυτική μάθηση χωρίς μοντέλο. Εξετάζει τη λειτουργία των πινάκων ανταμοιβών και πώς οι πράκτορες μαθαίνουν με την εμπειρία τους. Θα εκτιμήσετε τη διαδικασία κι την ενημέρωση του πίνακα Q με βάση τις δράσεις και τις ανταμοιβές.