Optimización Estocástica en RL
Regularización por Divergencia KL
Restricción que regulariza la distancia entre la política actual y la anterior mediante la divergencia de Kullback-Leibler, previniendo cambios de política demasiado abruptos.
← Volver