Q-Learning Multi-Objectifs
Algorithme de Pareto Q-Learning
Variante du Q-Learning qui maintient un ensemble de politiques Pareto-optimales et apprend simultanément les Q-valeurs pour tous les compromis possibles entre objectifs.
← Retour