Policy Gradient Methods
Importance Sampling
Technique permettant d'utiliser des données collectées avec une ancienne politique pour mettre à jour une nouvelle politique, en pondérant les échantillons selon le ratio de probabilité des politiques.
← Retour