Методы градиента политики
Алгоритм REINFORCE
Базовый алгоритм градиента политики, использующий оценку Монте-Карло градиента для обновления параметров политики на основе полностью наблюдаемых эпизодов.
← Назад