RL Multi-Objectifs Continu
Preference-based RL
Approche où les préférences humaines sur les compromis entre objectifs sont intégrées dans le processus d'apprentissage pour guider l'agent vers des solutions désirables du front de Pareto.
← Retour