Методы градиента политики
Функция преимущества
Мера превосходства действия по сравнению со средним действием в заданном состоянии, вычисляемая как разность между функцией Q и функцией V для уменьшения разброса градиента.
← Назад