Factorisation de la Valeur
Agrégation d'avantages
Opération combinant les sorties des estimateurs de valeur et d'avantage pour reconstruire la fonction Q finale en respectant l'identité Q(s,a) = V(s) + A(s,a).
← Retour