Métodos de Gradiente de Política
Función de Ventaja
Medida de la superioridad de una acción en comparación con el promedio de acciones en un estado dado, calculada como la diferencia entre la función Q y la función V para reducir la varianza del gradiente.
← Volver