Обучение с подкреплением для оптимизации
Оптимизация политики
Класс методов в обучении с подкреплением, которые напрямую оптимизируют политику без использования функции ценности, часто использующий методы градиента политики.
← Назад