Otimização Estocástica em RL
Algoritmo de Robbins-Monro
Fundador dos métodos de aproximação estocástica, utilizando um passo de aprendizagem decrescente para garantir a convergência para pontos estacionários em um ambiente ruidoso.
← Voltar