Методы градиента политики
Теорема о градиенте политики
Фундаментальная теорема, предоставляющая аналитическое выражение для градиента ожидаемого возврата по отношению к параметрам политики, формулирующая теоретическую основу методов.
← Назад