Iteración de políticas y valor
24 Questions
1 Views

Iteración de políticas y valor

Created by
@ConsummateMedusa

Podcast Beta

Play an AI-generated podcast conversation about this lesson

Questions and Answers

La iteración de políticas garantiza que cada iteración necesite recorrer todos los estados varias veces.

False

La evaluación de la política en la iteración de políticas se detiene cuando el cambio es menor a un número positivo pequeño θ.

True

La mejora de política se realiza al calcular la evaluación de la política y luego aplicar una función de optimización.

True

En la iteración de valor, se utiliza la ecuación de Bellman para hacer actualizaciones basadas en una sola evaluación de todos los estados.

<p>True</p> Signup and view all the answers

El objetivo de la mejora de política es hacer que la política sea estable en cada iteración.

<p>True</p> Signup and view all the answers

El primer paso en el algoritmo de iteración de políticas es la mejora de la política después de la evaluación.

<p>False</p> Signup and view all the answers

La iteración de políticas puede llevar a un alto costo computacional en espacios muy grandes.

<p>True</p> Signup and view all the answers

La función de optimización en la mejora de política selecciona la acción que maximiza la suma de recompensas futuras esperadas.

<p>True</p> Signup and view all the answers

Las recompensas que recibe un agente son reducidas aritméticamente de acuerdo a un factor de descuento γ.

<p>False</p> Signup and view all the answers

El modelo es Markoviano si las transiciones de estado dependen de estados anteriores.

<p>False</p> Signup and view all the answers

La política π mapea cada estado s a la probabilidad de tomar una acción a.

<p>True</p> Signup and view all the answers

El valor de recompensa esperado se denota como E{rt+1 | st = s, at = a, st+1 = s0 }.

<p>True</p> Signup and view all the answers

En aprendizaje por refuerzo, se asume que las transiciones de estado son totalmente aleatorias.

<p>False</p> Signup and view all the answers

La notación V π (s) indica el refuerzo esperado al estar en un estado s y seguir una política π.

<p>True</p> Signup and view all the answers

La recompensa promedio se optimiza solo a corto plazo.

<p>False</p> Signup and view all the answers

Un agente puede distinguir políticas que reciben grandes recompensas al principio de aquellas que no tienen recompensas.

<p>False</p> Signup and view all the answers

El algoritmo de evaluación iterativa de políticas empieza con V(s) igual a $0$ para todas las políticas posibles.

<p>True</p> Signup and view all the answers

La política greedy se utiliza para seleccionar la acción que maximiza el valor Qπ(s, a) en cada estado s.

<p>True</p> Signup and view all the answers

Una vez que se encuentra una política óptima, no es necesario calcular su función de valor asociada.

<p>False</p> Signup and view all the answers

La convergencia a la política óptima implica realizar iteraciones hasta que no existan mejoras posibles en las políticas evaluadas.

<p>True</p> Signup and view all the answers

El valor de la política Vπ en un estado s se puede calcular directamente sin necesidad de evaluar la política en otros estados.

<p>False</p> Signup and view all the answers

La probabilidad de realizar una acción a en un estado s bajo la política π se representa como π(s, a).

<p>True</p> Signup and view all the answers

El parámetro $ heta$ en el algoritmo de evaluación iterativa determina el límite al cual se considera que la evaluación ha convergido.

<p>True</p> Signup and view all the answers

El valor $R_{ss0}$ representa la recompensa esperada al transitar de un estado s a un estado s0.

<p>True</p> Signup and view all the answers

Study Notes

Iteración de políticas

  • Es un procedimiento que se utiliza para encontrar la política óptima de un problema de toma de decisiones.
  • Consiste en iterar entre dos pasos: evaluación de políticas y mejora de políticas.
  • La evaluación de políticas consiste en calcular el valor de cada estado bajo la política actual.
  • La mejora de políticas consiste en actualizar la política actual para encontrar una que maximice el valor de los estados.

Iteración de valor

  • Es una variación de la iteración de políticas que trunca el paso de evaluación de políticas después de recorrer todos los estados una sola vez.
  • Se combina la mejora en la política con una evaluación de la política truncada.
  • Formulación de la ecuación de Bellman como una regla de actualización.
  • Es similar a la regla de evaluación de políticas, pero se evalúa el máximo sobre todas las acciones posibles.
  • Es una opción eficiente para espacios de estados muy grandes.
  • Su función principal es encontrar la función de valor óptima.

Algoritmo de iteración de políticas

  • Se debe inicializar una función de valor V(s) y una política π(s).
  • Se realiza la evaluación de la política hasta que la diferencia entre la función de valor actual y la anterior sea menor a un umbral.
  • Se realiza la mejora de la política, cambiando la política actual por una que maximice el valor de los estados.
  • Se continúa iterando entre la evaluación y la mejora de la política hasta que se alcance una política estable, lo que significa que ya no se puede encontrar una mejor política.

Algoritmo de iteración de valor

  • Se calcula la función de valor V π para una política π.
  • La función de valor V π (s) es la expectativa de la recompensa total obtenida al empezar en el estado s y siguiendo la política π.
  • Se utiliza la ecuación de Bellman para actualizar la función de valor.
  • Se busca la función de valor óptima V* que maximiza el valor de cada estado.

Modelo Markoviano

  • Es un modelo de entorno donde las transiciones de estado solo dependen del estado actual y no de los estados anteriores.
  • Las transiciones de probabilidad se representan mediante una matriz Pss'.
  • El valor de recompensa esperado se representa mediante Rass'.
  • El objetivo del aprendizaje por refuerzo es estimar la función de valor, que indica qué tan bueno es estar en un estado o realizar una acción.

Recompensa diferida

  • Se refiere a recompensas que se obtienen en el futuro.
  • Las acciones del agente no solo determinan las recompensas inmediatas, sino también (por lo menos probabilísticamente) el siguiente estado del ambiente.
  • Los problemas de recompensa diferida se modelan como procesos de decisión de Markov (MDPs).
  • Se utiliza un factor de descuento γ para ponderar las recompensas futuras.
  • El factor de descuento γ establece el valor que se le da a las recompensas futuras, en comparación con las recompensas presentes. Un γ menor a 1 da más valor a las recompensas presentes.
  • Se busca optimizar la recompensa a largo plazo, es decir, la suma de todas las recompensas futuras.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

refuerzo aprendizaje.pdf

Description

Este cuestionario explora los conceptos de iteración de políticas y iteración de valor en problemas de toma de decisiones. Aborda la evaluación y mejora de políticas, así como las técnicas de evaluación truncada. Ideal para estudiantes interesados en métodos de optimización en la teoría de decisiones.

More Like This

Teacher Integration and Policy Reforms Quiz
5 questions
Regional Economic Integration Quiz
10 questions
Integration und Migration
10 questions

Integration und Migration

TantalizingPennywhistle avatar
TantalizingPennywhistle
Use Quizgecko on...
Browser
Browser