Iteración de políticas y valor

Podcast Beta

Play an AI-generated podcast conversation about this lesson

Questions and Answers

La iteración de políticas garantiza que cada iteración necesite recorrer todos los estados varias veces.

False

La evaluación de la política en la iteración de políticas se detiene cuando el cambio es menor a un número positivo pequeño θ.

True

La mejora de política se realiza al calcular la evaluación de la política y luego aplicar una función de optimización.

True

En la iteración de valor, se utiliza la ecuación de Bellman para hacer actualizaciones basadas en una sola evaluación de todos los estados.

True Signup and view all the answers

El objetivo de la mejora de política es hacer que la política sea estable en cada iteración.

True Signup and view all the answers

El primer paso en el algoritmo de iteración de políticas es la mejora de la política después de la evaluación.

False Signup and view all the answers

La iteración de políticas puede llevar a un alto costo computacional en espacios muy grandes.

True Signup and view all the answers

La función de optimización en la mejora de política selecciona la acción que maximiza la suma de recompensas futuras esperadas.

True Signup and view all the answers

Las recompensas que recibe un agente son reducidas aritméticamente de acuerdo a un factor de descuento γ.

False Signup and view all the answers

El modelo es Markoviano si las transiciones de estado dependen de estados anteriores.

False Signup and view all the answers

La política π mapea cada estado s a la probabilidad de tomar una acción a.

True Signup and view all the answers

El valor de recompensa esperado se denota como E{rt+1 | st = s, at = a, st+1 = s0 }.

True Signup and view all the answers

En aprendizaje por refuerzo, se asume que las transiciones de estado son totalmente aleatorias.

False Signup and view all the answers

La notación V π (s) indica el refuerzo esperado al estar en un estado s y seguir una política π.

True Signup and view all the answers

La recompensa promedio se optimiza solo a corto plazo.

False Signup and view all the answers

Un agente puede distinguir políticas que reciben grandes recompensas al principio de aquellas que no tienen recompensas.

False Signup and view all the answers

El algoritmo de evaluación iterativa de políticas empieza con V(s) igual a $0$ para todas las políticas posibles.

True Signup and view all the answers

La política greedy se utiliza para seleccionar la acción que maximiza el valor Qπ(s, a) en cada estado s.

True Signup and view all the answers

Una vez que se encuentra una política óptima, no es necesario calcular su función de valor asociada.

False Signup and view all the answers

La convergencia a la política óptima implica realizar iteraciones hasta que no existan mejoras posibles en las políticas evaluadas.

True Signup and view all the answers

El valor de la política Vπ en un estado s se puede calcular directamente sin necesidad de evaluar la política en otros estados.

False Signup and view all the answers

La probabilidad de realizar una acción a en un estado s bajo la política π se representa como π(s, a).

True Signup and view all the answers

El parámetro $ heta$ en el algoritmo de evaluación iterativa determina el límite al cual se considera que la evaluación ha convergido.

True Signup and view all the answers

El valor $R_{ss0}$ representa la recompensa esperada al transitar de un estado s a un estado s0.

True Signup and view all the answers

Study Notes