Policy Gradient Methods
Actor-Critic Methods
Approche hybride combinant un acteur qui apprend la politique et un critique qui estime la fonction de valeur, réduisant la variance des estimations du gradient de politique.
← Retour