Проксимальная оптимизация политики (PPO)
Нормализованное преимущество
Техника нормализации оценок преимущества для стабилизации обучения путем поддержания согласованного масштаба градиентов между обновлениями.
← Назад