Métodos de Gradiente de Política

📖

términos

Gradiente de Política

Método de optimización directa que ajusta los parámetros de la política siguiendo el gradiente del retorno esperado, permitiendo el aprendizaje de políticas estocásticas sin necesidad de un modelo del entorno.

📖

términos

Algoritmo REINFORCE

Algoritmo base del gradiente de política que utiliza una estimación Monte Carlo del gradiente para actualizar los parámetros de la política según los episodios completamente observados.

📖

términos

Métodos Actor-Crítico

Enfoque híbrido que combina un actor que aprende la política y un crítico que estima la función de valor, reduciendo la varianza de las estimaciones del gradiente de política.

📖

términos

Función de Ventaja

Medida de la superioridad de una acción en comparación con el promedio de acciones en un estado dado, calculada como la diferencia entre la función Q y la función V para reducir la varianza del gradiente.

📖

términos

Optimización de Política Proximal (PPO)

Algoritmo que optimiza la política restringiendo las actualizaciones para mantenerse cerca de la política anterior, utilizando una función objetivo recortada para garantizar la estabilidad del aprendizaje.

📖

términos

Optimización de Política de Región de Confianza (TRPO)

Método que garantiza mejoras monótonas del rendimiento optimizando la política en una región de confianza definida por la divergencia KL entre políticas sucesivas.

📖

términos

Gradiente de Política Natural

Variante del gradiente de política que utiliza la métrica de Fisher para realizar actualizaciones invariantes a la parametrización, garantizando una convergencia más estable y eficiente.

📖

términos

Red de Política

Red neuronal parametrizada que representa la política π(a|s; θ), generando una distribución de probabilidades sobre las acciones condicionadas al estado actual.

📖

términos

Gradiente de Política de Monte Carlo

Técnica de estimación del gradiente utilizando trayectorias completas para calcular los retornos, permitiendo una estimación sin sesgo pero con alta varianza.

📖

términos

Función de Línea Base

Función restada del retorno para reducir la varianza de la estimación del gradiente sin introducir sesgo, típicamente la función de valor del estado.

📖

términos

Muestreo de Importancia

Técnica que permite usar datos recolectados con una política antigua para actualizar una nueva política, ponderando las muestras según el ratio de probabilidad de las políticas.

📖

términos

Regularización por Entropía

Adición de un término de entropía a la función objetivo para fomentar la exploración penalizando políticas demasiado deterministas, mejorando la robustez del aprendizaje.

📖

términos

Gradiente de Política Determinista

Extensión del gradiente de política a espacios de acción continuos donde la política es determinista, particularmente efectiva en entornos de alta dimensionalidad.

📖

términos

Política Estocástica

Política representada por una distribución de probabilidades π(a|s) sobre las acciones, permitiendo la exploración intrínseca y esencial para los métodos de gradiente de política.

📖

términos

Restricción de Divergencia KL

Restricción que limita la divergencia Kullback-Leibler entre políticas sucesivas para garantizar actualizaciones estables y evitar cambios demasiado drásticos en el comportamiento.

📖

términos

Estimación de Ventaja Generalizada (GAE)

Método de estimación de la ventaja combinando sesgo y varianza mediante un promedio ponderado de estimadores de múltiples pasos, ofreciendo un compromiso óptimo para el aprendizaje.

📖

términos

Teorema del Gradiente de Política

Teorema fundamental que proporciona una expresión analítica del gradiente del retorno esperado con respecto a los parámetros de la política, formulando la base teórica de los métodos.

📖

términos

Retorno Futuro

Suma de las recompensas futuras descontadas a partir de un paso de tiempo dado, utilizada como estimador del gradiente en los algoritmos de gradiente de política.

Glosario IA

Gradiente de Política

Algoritmo REINFORCE

Métodos Actor-Crítico

Función de Ventaja

Optimización de Política Proximal (PPO)

Optimización de Política de Región de Confianza (TRPO)

Gradiente de Política Natural

Red de Política

Gradiente de Política de Monte Carlo

Función de Línea Base

Muestreo de Importancia

Regularización por Entropía

Gradiente de Política Determinista

Política Estocástica

Restricción de Divergencia KL

Estimación de Ventaja Generalizada (GAE)

Teorema del Gradiente de Política

Retorno Futuro

No se encontraron resultados