Podcast
Questions and Answers
Ποιος είναι ο ρόλος του πίνακα Q στο Q-learning;
Ποιος είναι ο ρόλος του πίνακα Q στο Q-learning;
- Διαχειρίζεται τις αρχικές καταστάσεις του περιβάλλοντος
- Καταγράφει την εμπειρία του πράκτορα καθώς μαθαίνει (correct)
- Επιλέγει τυχαία δράσεις για τον πράκτορα
- Αποθηκεύει τις ανταμοιβές των δράσεων
Ποια είναι η λειτουργία του ρυθμού μάθησης $𝜂$ στον αλγόριθμο Q-learning;
Ποια είναι η λειτουργία του ρυθμού μάθησης $𝜂$ στον αλγόριθμο Q-learning;
- Καθορίζει την επιρροή των παλαιών τιμών στον πίνακα Q (correct)
- Καθορίζει την ανταμοιβή που θα λάβει ο πράκτορας
- Αλλάζει τη νέα κατάσταση του πράκτορα
- Ελέγχει πόσες επαναλήψεις θα πραγματοποιηθούν
Πώς διαχειρίζεται ο αλγόριθμος Q-learning τα μη-δυνατά ζεύγη κατάστασης-δράσης;
Πώς διαχειρίζεται ο αλγόριθμος Q-learning τα μη-δυνατά ζεύγη κατάστασης-δράσης;
- Τα ενσωματώνει στον πίνακα Q
- Ενημερώνει τις τιμές τους με τυχαίο τρόπο
- Τα σηματοδοτεί με συγκεκριμένες ανταμοιβές
- Τα αγνοεί πλήρως κατά τη διάρκεια της μάθησης (correct)
Στην εξίσωση ενημέρωσης του πίνακα Q, ποιο μέγεθος αναπαριστά την ανταμοιβή που λαμβάνει ο πράκτορας;
Στην εξίσωση ενημέρωσης του πίνακα Q, ποιο μέγεθος αναπαριστά την ανταμοιβή που λαμβάνει ο πράκτορας;
Τι αντιπροσωπεύει ο πίνακας ανταμοιβής στην εκπαίδευση ενός πράκτορα;
Τι αντιπροσωπεύει ο πίνακας ανταμοιβής στην εκπαίδευση ενός πράκτορα;
Ποιο από τα παρακάτω δεν αποτελεί βήμα της διαδικασίας Q-learning;
Ποιο από τα παρακάτω δεν αποτελεί βήμα της διαδικασίας Q-learning;
Ποιο από τα παρακάτω χαρακτηριστικά ισχύει για τον πίνακα ανταμοιβής R κατά τη διάρκεια της εκπαίδευσης;
Ποιο από τα παρακάτω χαρακτηριστικά ισχύει για τον πίνακα ανταμοιβής R κατά τη διάρκεια της εκπαίδευσης;
Ποια μέθοδος επιλέγεται για την εκτίμηση της δράσης αλφα 𝛼 κατ’ αναλογία στην εξίσωση ενημέρωσης;
Ποια μέθοδος επιλέγεται για την εκτίμηση της δράσης αλφα 𝛼 κατ’ αναλογία στην εξίσωση ενημέρωσης;
Ποιος είναι ο σκοπός του κανόνα μάθησης μέσω του Q-learning;
Ποιος είναι ο σκοπός του κανόνα μάθησης μέσω του Q-learning;
Ποια παράμετρος ενσωματώνει τις εμπειρίες του πράκτορα στο πίνακα Q;
Ποια παράμετρος ενσωματώνει τις εμπειρίες του πράκτορα στο πίνακα Q;
Flashcards
Συνάρτηση Ανταμοιβής (ℛ)
Συνάρτηση Ανταμοιβής (ℛ)
Συνάρτηση που προσδιορίζει την ανταμοιβή για κάθε ζεύγος κατάστασης-δράσης. Είναι γνωστή εκ των προτέρων και σταθερή.
Πίνακας Ανταμοιβής (Reward Table)
Πίνακας Ανταμοιβής (Reward Table)
Πίνακας που αντιστοιχίζει κάθε ζεύγος κατάστασης-δράσης με την αξία του. Είναι γνωστός εκ των προτέρων και σταθερός.
Q-Table
Q-Table
Πίνακας που αποθηκεύει τις αξίες Q για κάθε ζεύγος κατάστασης-δράσης. Αρχικά είναι κενός και η αξία των Q ενημερώνεται καθώς ο πράκτορας μαθαίνει.
Q-Learning
Q-Learning
Signup and view all the flashcards
Ρυθμός Μάθησης (𝜂)
Ρυθμός Μάθησης (𝜂)
Signup and view all the flashcards
Πίνακας Q (Q-table)
Πίνακας Q (Q-table)
Signup and view all the flashcards
Study Notes
Q-Learning: Μάθηση χωρίς Μοντέλο
- Ο Q-learning είναι αλγόριθμος μάθησης ενισχυτικής επιστήμης (RL) χωρίς μοντέλο.
- Η συνάρτηση ανταμοιβής (R) είναι γνωστή εκ των προτέρων και σταθερή. Αυτή αποτυπώνεται σε πίνακα ανταμοιβών (reward table).
- Σημαντικό: αρνητικά συμβόλαια (-1) στο reward table αντιστοιχούν σε μη-βέλτιστες καταστάσεις/ενέργειες.
- Ο πίνακας Q (Q-table) αρχικά είναι κενός και γεμίζει με την εμπειρία του πράκτορα καθώς μαθαίνει.
- Q(s, a) αντιπροσωπεύει την εκτίμηση της μακροπρόθεσμης αξίας μιας δράσης (a) σε μια κατάσταση (s).
Αλγόριθμος Q-Learning
-
Αρχικοποίηση του πίνακα Q(s, a).
-
Για κάθε επεισόδιο εκπαίδευσης:
- Επιλογή αρχικής κατάστασης (s).
- Επανάληψη μέχρις ότου φτάσει σε τελική κατάσταση:
- Επιλογή δράσης (a), π.χ. μέσω πιθανοτήτων ή πολιτικών.
- Λήψη ανταμοιβής (r) και νέας κατάστασης (s').
- Ενημέρωση της τιμής Q(s, a):
- Q(st, at) ⟵ (1-η)Q(st, at) + η(R(s, a) + γ maxat+1 Q(st+1, at+1)) - Q(st, at)
-
η: ρυθμός μάθησης (learning rate)
-
γ: παράγοντας έκπτωσης (discount factor). Προσομοιώνει την αξία μακροπρόθεσμων ανταμοιβών σε σχέση με τις άμεσες.
-
Η εξίσωση είναι η βασική εξίσωση μάθησης. Στόχος είναι ο Q(s,a) να συγκλίνει στη μέση τιμή (βέλτιστη).
-
Ο κανόνας ανταμοιβής (R(s, a) + γ maxat+1 Q(st+1, at+1)) μπορεί να θεωρηθεί ως σύνολο δειγμάτων ζευγών κατάστασης-δράσης.
Ερμηνεία και Σχετικές έννοιες
- Η εξίσωση ανταμοιβής μπορεί να ερμηνευθεί ως μέτρηση δειγμάτων καταστάσεων/ενεργειών.
- Στόχος είναι να βρούμε την καλύτερη δράση σε κάθε σημείο.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.