Aprendizagem por Reforço para Otimização
Recompensa Cumulativa
Soma das recompensas futuras descontadas que o agente busca maximizar, frequentemente calculada com um fator de desconto para dar menos peso às recompensas distantes.
← Voltar