Factorisation de la Valeur
Propagation de gradients
Mécanisme par lequel les erreurs de prédiction sont rétropropagées à travers le réseau pour ajuster simultanément les estimateurs V(s) et A(s,a).
← Indietro