Методы Актор-Критик
Actor-Critic
Architecture d'apprentissage par renforcement combinant un réseau acteur qui apprend une politique stochastique et un réseau critique qui estime la fonction de valeur pour réduire la variance du gradient de politique.
← Назад