RL Multi-Objetivo Continuo
Aprendizaje por Refuerzo Basado en Preferencias
Enfoque donde las preferencias humanas sobre los compromisos entre objetivos se integran en el proceso de aprendizaje para guiar al agente hacia soluciones deseables del frente de Pareto.
← Volver