Compromise Methods
Reward Shaping Multi-Objectif
Technique modifiant la fonction de récompense vectorielle pour accélérer l'apprentissage tout en préservant l'optimalité des politiques multi-objectifs finales.
← Wstecz