Podcast Beta
Questions and Answers
La iteración de políticas garantiza que cada iteración necesite recorrer todos los estados varias veces.
False
La evaluación de la política en la iteración de políticas se detiene cuando el cambio es menor a un número positivo pequeño θ.
True
La mejora de política se realiza al calcular la evaluación de la política y luego aplicar una función de optimización.
True
En la iteración de valor, se utiliza la ecuación de Bellman para hacer actualizaciones basadas en una sola evaluación de todos los estados.
Signup and view all the answers
El objetivo de la mejora de política es hacer que la política sea estable en cada iteración.
Signup and view all the answers
El primer paso en el algoritmo de iteración de políticas es la mejora de la política después de la evaluación.
Signup and view all the answers
La iteración de políticas puede llevar a un alto costo computacional en espacios muy grandes.
Signup and view all the answers
La función de optimización en la mejora de política selecciona la acción que maximiza la suma de recompensas futuras esperadas.
Signup and view all the answers
Las recompensas que recibe un agente son reducidas aritméticamente de acuerdo a un factor de descuento γ.
Signup and view all the answers
El modelo es Markoviano si las transiciones de estado dependen de estados anteriores.
Signup and view all the answers
La política π mapea cada estado s a la probabilidad de tomar una acción a.
Signup and view all the answers
El valor de recompensa esperado se denota como E{rt+1 | st = s, at = a, st+1 = s0 }.
Signup and view all the answers
En aprendizaje por refuerzo, se asume que las transiciones de estado son totalmente aleatorias.
Signup and view all the answers
La notación V π (s) indica el refuerzo esperado al estar en un estado s y seguir una política π.
Signup and view all the answers
La recompensa promedio se optimiza solo a corto plazo.
Signup and view all the answers
Un agente puede distinguir políticas que reciben grandes recompensas al principio de aquellas que no tienen recompensas.
Signup and view all the answers
El algoritmo de evaluación iterativa de políticas empieza con V(s) igual a $0$ para todas las políticas posibles.
Signup and view all the answers
La política greedy se utiliza para seleccionar la acción que maximiza el valor Qπ(s, a) en cada estado s.
Signup and view all the answers
Una vez que se encuentra una política óptima, no es necesario calcular su función de valor asociada.
Signup and view all the answers
La convergencia a la política óptima implica realizar iteraciones hasta que no existan mejoras posibles en las políticas evaluadas.
Signup and view all the answers
El valor de la política Vπ en un estado s se puede calcular directamente sin necesidad de evaluar la política en otros estados.
Signup and view all the answers
La probabilidad de realizar una acción a en un estado s bajo la política π se representa como π(s, a).
Signup and view all the answers
El parámetro $ heta$ en el algoritmo de evaluación iterativa determina el límite al cual se considera que la evaluación ha convergido.
Signup and view all the answers
El valor $R_{ss0}$ representa la recompensa esperada al transitar de un estado s a un estado s0.
Signup and view all the answers
Study Notes
Iteración de políticas
- Es un procedimiento que se utiliza para encontrar la política óptima de un problema de toma de decisiones.
- Consiste en iterar entre dos pasos: evaluación de políticas y mejora de políticas.
- La evaluación de políticas consiste en calcular el valor de cada estado bajo la política actual.
- La mejora de políticas consiste en actualizar la política actual para encontrar una que maximice el valor de los estados.
Iteración de valor
- Es una variación de la iteración de políticas que trunca el paso de evaluación de políticas después de recorrer todos los estados una sola vez.
- Se combina la mejora en la política con una evaluación de la política truncada.
- Formulación de la ecuación de Bellman como una regla de actualización.
- Es similar a la regla de evaluación de políticas, pero se evalúa el máximo sobre todas las acciones posibles.
- Es una opción eficiente para espacios de estados muy grandes.
- Su función principal es encontrar la función de valor óptima.
Algoritmo de iteración de políticas
- Se debe inicializar una función de valor V(s) y una política π(s).
- Se realiza la evaluación de la política hasta que la diferencia entre la función de valor actual y la anterior sea menor a un umbral.
- Se realiza la mejora de la política, cambiando la política actual por una que maximice el valor de los estados.
- Se continúa iterando entre la evaluación y la mejora de la política hasta que se alcance una política estable, lo que significa que ya no se puede encontrar una mejor política.
Algoritmo de iteración de valor
- Se calcula la función de valor V π para una política π.
- La función de valor V π (s) es la expectativa de la recompensa total obtenida al empezar en el estado s y siguiendo la política π.
- Se utiliza la ecuación de Bellman para actualizar la función de valor.
- Se busca la función de valor óptima V* que maximiza el valor de cada estado.
Modelo Markoviano
- Es un modelo de entorno donde las transiciones de estado solo dependen del estado actual y no de los estados anteriores.
- Las transiciones de probabilidad se representan mediante una matriz Pss'.
- El valor de recompensa esperado se representa mediante Rass'.
- El objetivo del aprendizaje por refuerzo es estimar la función de valor, que indica qué tan bueno es estar en un estado o realizar una acción.
Recompensa diferida
- Se refiere a recompensas que se obtienen en el futuro.
- Las acciones del agente no solo determinan las recompensas inmediatas, sino también (por lo menos probabilísticamente) el siguiente estado del ambiente.
- Los problemas de recompensa diferida se modelan como procesos de decisión de Markov (MDPs).
- Se utiliza un factor de descuento γ para ponderar las recompensas futuras.
- El factor de descuento γ establece el valor que se le da a las recompensas futuras, en comparación con las recompensas presentes. Un γ menor a 1 da más valor a las recompensas presentes.
- Se busca optimizar la recompensa a largo plazo, es decir, la suma de todas las recompensas futuras.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Este cuestionario explora los conceptos de iteración de políticas y iteración de valor en problemas de toma de decisiones. Aborda la evaluación y mejora de políticas, así como las técnicas de evaluación truncada. Ideal para estudiantes interesados en métodos de optimización en la teoría de decisiones.