Проксимальная оптимизация политики (PPO)
Параметр диапазона отсечения
Гиперпараметр эпсилон в PPO, который определяет ширину зоны отсечения для отношения вероятностей, напрямую контролируя консервативность обновлений политики.
← Назад