Методы Актор-Критик
Twin Delayed Deep Deterministic Policy Gradient
Amélioration de DDPG utilisant deux critiques jumeaux pour réduire la surévaluation de la valeur et des mises à jour différées de l'acteur et des cibles pour une meilleure stabilité.
← Назад