Stochastic Optimization in RL
KL Divergence Regularization
Contrainte régularisant l'éloignement entre la politique actuelle et précédente via la divergence de Kullback-Leibler, prévenant les changements de politique trop abrupts.
← Kembali