Otimização por Aprendizagem por Reforço
Modelagem de Recompensa
Técnica que consiste em modificar a função de recompensa para guiar de forma mais eficaz o aprendizado do agente. Deve preservar a otimalidade enquanto acelera a convergência para a solução desejada.
← Voltar