Q-Learning Multiobjetivo
Algoritmo de Pareto Q-Learning
Variante del Q-Learning que mantiene un conjunto de políticas Pareto-óptimas y aprende simultáneamente los Q-valores para todos los compromisos posibles entre objetivos.
← Volver