Deep Deterministic Policy Gradient (DDPG)
Off-Policy Learning
Méthode d'apprentissage où l'agent apprend une politique optimale tout en suivant une autre politique de comportement, permettant une meilleure exploration.
← ফিরে যান