Métodos de Gradiente de Política
Otimização de Política Proximal (PPO)
Algoritmo que otimiza a política restringindo as atualizações para permanecerem próximas da política anterior, utilizando uma função objetivo com clip para garantir a estabilidade do aprendizado.
← Voltar