Apprentissage par Différentiation de Modèles
Policy Gradient Through Model
Méthode calculant les gradients de politique en propageant les récompenses à travers un modèle de l'environnement différentiable.
← 返回