Policy Gradient Methods
Advantage Function
Mesure de la supériorité d'une action par rapport à la moyenne des actions dans un état donné, calculée comme la différence entre la fonction Q et la fonction V pour réduire la variance du gradient.
← Retour