Policy Gradient Methods
Entropy Regularization
Ajout d'un terme d'entropie à la fonction objectif pour encourager l'exploration en pénalisant les politiques trop déterministes, améliorant la robustesse de l'apprentissage.
← Retour