Actor-Critic Methods
Value Function
Função matemática que estima o retorno cumulativo esperado a partir de um estado ou par estado-ação, servindo como sinal de aprendizado para o crítico na arquitetura Actor-Critic.
← Voltar