RL Multi-Objetivo Continuo
Ponderación Dinámica
Estrategia adaptativa que modifica los pesos de los objetivos durante el aprendizaje para explorar eficientemente el frente de Pareto y evitar los óptimos locales.
← Volver