Методы градиента политики
Базовая функция
Функция, вычитаемая из возврата для уменьшения дисперсии оценки градиента без введения смещения, обычно функция значения состояния.
← НазадФункция, вычитаемая из возврата для уменьшения дисперсии оценки градиента без введения смещения, обычно функция значения состояния.
← Назад