Optimización Estocástica en RL

📖

términos

Gradiente de Política Estocástico

Método de optimización directa de la política utilizando estimaciones de gradiente basadas en trayectorias muestreadas, permitiendo gestionar espacios de acción continuos y discretos.

📖

términos

Actor-Crítico Estocástico

Arquitectura híbrida que combina un actor estocástico que aprende la política y un crítico que estima la función de valor para reducir la varianza de las estimaciones de gradiente.

📖

términos

Gradiente Natural

Método de optimización que sigue la geometría del espacio de parámetros definida por la métrica de Fisher, adaptado naturalmente a problemas estocásticos en RL.

📖

términos

Descenso de Gradiente Estocástico

Algoritmo de optimización iterativo que utiliza estimaciones ruidosas del gradiente calculadas en mini-lotes de datos para actualizar los parámetros del modelo.

📖

términos

Algoritmo de Robbins-Monro

Fundador de los métodos de aproximación estocástica, utilizando un paso de aprendizaje decreciente para garantizar la convergencia a puntos estacionarios en un entorno ruidoso.

📖

términos

Aproximación Estocástica

Marco teórico para la optimización en presencia de ruido, proporcionando garantías de convergencia para algoritmos de aprendizaje que utilizan estimaciones ruidosas.

📖

términos

Muestreo por Importancia en RL

Técnica que permite utilizar datos recolectados con una política antigua para entrenar una nueva política, ponderando las muestras por la relación de densidades.

📖

términos

Regularización por Divergencia KL

Restricción que regulariza la distancia entre la política actual y la anterior mediante la divergencia de Kullback-Leibler, previniendo cambios de política demasiado abruptos.

📖

términos

Inyección de Ruido en la Política

Estrategia de exploración que añade ruido estocástico directamente a los parámetros o a las salidas de la política para mantener la exploración durante la optimización.

📖

términos

Redes Neuronales Estocásticas en RL

Redes neuronales que incorporan incertidumbre en sus parámetros o activaciones, utilizadas como políticas estocásticas para modelar distribuciones complejas de acciones.

Glosario IA

Gradiente de Política Estocástico

Actor-Crítico Estocástico

Gradiente Natural

Descenso de Gradiente Estocástico

Algoritmo de Robbins-Monro

Aproximación Estocástica

Muestreo por Importancia en RL

Regularización por Divergencia KL

Inyección de Ruido en la Política

Redes Neuronales Estocásticas en RL

No se encontraron resultados