Методы Актор-Критик
Critic Network
Réseau neuronal estimant la fonction de valeur V(s) ou Q(s,a) pour fournir le signal d'apprentissage TD à l'acteur, utilisant l'erreur de prédiction comme gradient d'optimisation.
← Назад