Aprendizagem Temporal Diferencial
SARSA
Algoritmo on-policy de aprendizado temporal diferencial que atualiza os valores de ação-estado usando o quíntuplo (Estado, Ação, Recompensa, Próximo Estado, Próxima Ação).
← Voltar