Métodos de Gradiente de Política
Función de Línea Base
Función restada del retorno para reducir la varianza de la estimación del gradiente sin introducir sesgo, típicamente la función de valor del estado.
← Volver