Trust Region Policy Optimization (TRPO)
Reward-to-go
Estimateur de la fonction de valeur qui utilise uniquement les récompenses futures après un timestep donné pour réduire la variance dans l'estimation du gradient.
← Retour