Aprendizagem por Reforço para Otimização
Algoritmo SARSA
Algoritmo de aprendizagem por reforço on-policy que atualiza os valores Q com base na sequência Estado-Ação-Recompensa-Estado-Ação, ao contrário do Q-learning.
← Voltar