Métodos de Compromiso
Reward Shaping Multi-Objetivo
Técnica que modifica la función de recompensa vectorial para acelerar el aprendizaje mientras preserva la optimalidad de las políticas multi-objetivo finales.
← Volver