RL Multi-Objetivo Contínuo
Ponderação Dinâmica
Estratégia adaptativa que modifica os pesos dos objetivos durante o aprendizado para explorar eficientemente a frente de Pareto e evitar ótimos locais.
← Voltar