Glosario IA
El diccionario completo de la Inteligencia Artificial
Gradiente de Política Estocástico
Método de optimización directa de la política utilizando estimaciones de gradiente basadas en trayectorias muestreadas, permitiendo gestionar espacios de acción continuos y discretos.
Actor-Crítico Estocástico
Arquitectura híbrida que combina un actor estocástico que aprende la política y un crítico que estima la función de valor para reducir la varianza de las estimaciones de gradiente.
Gradiente Natural
Método de optimización que sigue la geometría del espacio de parámetros definida por la métrica de Fisher, adaptado naturalmente a problemas estocásticos en RL.
Descenso de Gradiente Estocástico
Algoritmo de optimización iterativo que utiliza estimaciones ruidosas del gradiente calculadas en mini-lotes de datos para actualizar los parámetros del modelo.
Algoritmo de Robbins-Monro
Fundador de los métodos de aproximación estocástica, utilizando un paso de aprendizaje decreciente para garantizar la convergencia a puntos estacionarios en un entorno ruidoso.
Aproximación Estocástica
Marco teórico para la optimización en presencia de ruido, proporcionando garantías de convergencia para algoritmos de aprendizaje que utilizan estimaciones ruidosas.
Muestreo por Importancia en RL
Técnica que permite utilizar datos recolectados con una política antigua para entrenar una nueva política, ponderando las muestras por la relación de densidades.
Regularización por Divergencia KL
Restricción que regulariza la distancia entre la política actual y la anterior mediante la divergencia de Kullback-Leibler, previniendo cambios de política demasiado abruptos.
Inyección de Ruido en la Política
Estrategia de exploración que añade ruido estocástico directamente a los parámetros o a las salidas de la política para mantener la exploración durante la optimización.
Redes Neuronales Estocásticas en RL
Redes neuronales que incorporan incertidumbre en sus parámetros o activaciones, utilizadas como políticas estocásticas para modelar distribuciones complejas de acciones.