Policy Gradient Methods
REINFORCE Algorithm
Algorithme de base du policy gradient utilisant une estimation Monte Carlo du gradient pour mettre à jour les paramètres de la politique selon les épisodes complètement observés.
← Retour