Методы градиента политики
Методы актор-критик
Гибридный подход, сочетающий актора, который изучает политику, и критика, который оценивает функцию значения, уменьшая разброс оценок градиента политики.
← Назад