Factorisation de la Valeur
Décomposition de la fonction Q
Technique séparant la fonction Q(s,a) en deux composantes : la valeur de l'état V(s) et l'avantage A(s,a) pour améliorer l'efficacité de l'apprentissage.
← Wstecz