Q-Learning: Μάθηση χωρίς Μοντέλο
10 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Ποιος είναι ο ρόλος του πίνακα Q στο Q-learning;

  • Διαχειρίζεται τις αρχικές καταστάσεις του περιβάλλοντος
  • Καταγράφει την εμπειρία του πράκτορα καθώς μαθαίνει (correct)
  • Επιλέγει τυχαία δράσεις για τον πράκτορα
  • Αποθηκεύει τις ανταμοιβές των δράσεων
  • Ποια είναι η λειτουργία του ρυθμού μάθησης $𝜂$ στον αλγόριθμο Q-learning;

  • Καθορίζει την επιρροή των παλαιών τιμών στον πίνακα Q (correct)
  • Καθορίζει την ανταμοιβή που θα λάβει ο πράκτορας
  • Αλλάζει τη νέα κατάσταση του πράκτορα
  • Ελέγχει πόσες επαναλήψεις θα πραγματοποιηθούν
  • Πώς διαχειρίζεται ο αλγόριθμος Q-learning τα μη-δυνατά ζεύγη κατάστασης-δράσης;

  • Τα ενσωματώνει στον πίνακα Q
  • Ενημερώνει τις τιμές τους με τυχαίο τρόπο
  • Τα σηματοδοτεί με συγκεκριμένες ανταμοιβές
  • Τα αγνοεί πλήρως κατά τη διάρκεια της μάθησης (correct)
  • Στην εξίσωση ενημέρωσης του πίνακα Q, ποιο μέγεθος αναπαριστά την ανταμοιβή που λαμβάνει ο πράκτορας;

    <p>$𝑟$</p> Signup and view all the answers

    Τι αντιπροσωπεύει ο πίνακας ανταμοιβής στην εκπαίδευση ενός πράκτορα;

    <p>Μένει σταθερός και γνωστός εκ των προτέρων</p> Signup and view all the answers

    Ποιο από τα παρακάτω δεν αποτελεί βήμα της διαδικασίας Q-learning;

    <p>Επιλογή δράσης αδιακρίτως</p> Signup and view all the answers

    Ποιο από τα παρακάτω χαρακτηριστικά ισχύει για τον πίνακα ανταμοιβής R κατά τη διάρκεια της εκπαίδευσης;

    <p>Είναι γνωστός εκ των προτέρων και σταθερός</p> Signup and view all the answers

    Ποια μέθοδος επιλέγεται για την εκτίμηση της δράσης αλφα 𝛼 κατ’ αναλογία στην εξίσωση ενημέρωσης;

    <p>Μέθοδος επανάληψης τιμών ή πολιτικών</p> Signup and view all the answers

    Ποιος είναι ο σκοπός του κανόνα μάθησης μέσω του Q-learning;

    <p>Να συγκλίνει το 𝑄(𝑠𝑡, 𝛼𝑡) στη μέση τιμή των ζευγών</p> Signup and view all the answers

    Ποια παράμετρος ενσωματώνει τις εμπειρίες του πράκτορα στο πίνακα Q;

    <p>Ρυθμός μάθησης 𝜂</p> Signup and view all the answers

    Study Notes

    Q-Learning: Μάθηση χωρίς Μοντέλο

    • Ο Q-learning είναι αλγόριθμος μάθησης ενισχυτικής επιστήμης (RL) χωρίς μοντέλο.
    • Η συνάρτηση ανταμοιβής (R) είναι γνωστή εκ των προτέρων και σταθερή. Αυτή αποτυπώνεται σε πίνακα ανταμοιβών (reward table).
    • Σημαντικό: αρνητικά συμβόλαια (-1) στο reward table αντιστοιχούν σε μη-βέλτιστες καταστάσεις/ενέργειες.
    • Ο πίνακας Q (Q-table) αρχικά είναι κενός και γεμίζει με την εμπειρία του πράκτορα καθώς μαθαίνει.
    • Q(s, a) αντιπροσωπεύει την εκτίμηση της μακροπρόθεσμης αξίας μιας δράσης (a) σε μια κατάσταση (s).

    Αλγόριθμος Q-Learning

    • Αρχικοποίηση του πίνακα Q(s, a).

    • Για κάθε επεισόδιο εκπαίδευσης:

      • Επιλογή αρχικής κατάστασης (s).
      • Επανάληψη μέχρις ότου φτάσει σε τελική κατάσταση:
        • Επιλογή δράσης (a), π.χ. μέσω πιθανοτήτων ή πολιτικών.
        • Λήψη ανταμοιβής (r) και νέας κατάστασης (s').
        • Ενημέρωση της τιμής Q(s, a):
          • Q(st, at) ⟵ (1-η)Q(st, at) + η(R(s, a) + γ maxat+1 Q(st+1, at+1)) - Q(st, at)
    • η: ρυθμός μάθησης (learning rate)

    • γ: παράγοντας έκπτωσης (discount factor). Προσομοιώνει την αξία μακροπρόθεσμων ανταμοιβών σε σχέση με τις άμεσες.

    • Η εξίσωση είναι η βασική εξίσωση μάθησης. Στόχος είναι ο Q(s,a) να συγκλίνει στη μέση τιμή (βέλτιστη).

    • Ο κανόνας ανταμοιβής (R(s, a) + γ maxat+1 Q(st+1, at+1)) μπορεί να θεωρηθεί ως σύνολο δειγμάτων ζευγών κατάστασης-δράσης.

    Ερμηνεία και Σχετικές έννοιες

    • Η εξίσωση ανταμοιβής μπορεί να ερμηνευθεί ως μέτρηση δειγμάτων καταστάσεων/ενεργειών.
    • Στόχος είναι να βρούμε την καλύτερη δράση σε κάθε σημείο.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Description

    Αυτό το quiz εξετάζει τον αλγόριθμο Q-learning, ο οποίος είναι βασικός στην ενισχυτική μάθηση χωρίς μοντέλο. Εξετάζει τη λειτουργία των πινάκων ανταμοιβών και πώς οι πράκτορες μαθαίνουν με την εμπειρία τους. Θα εκτιμήσετε τη διαδικασία κι την ενημέρωση του πίνακα Q με βάση τις δράσεις και τις ανταμοιβές.

    More Like This

    Muscle Groups PP repeated q's
    29 questions
    Quiz sobre EAG hay q revisar
    72 questions

    Quiz sobre EAG hay q revisar

    TriumphalTransformation avatar
    TriumphalTransformation
    CHAPTER 11: NERVOUS SYSTEM (q and a) 3.0
    10 questions
    Use Quizgecko on...
    Browser
    Browser