Глубокий Детерминированный Градиент Политики (DDPG)
Обучение вне стратегии (Off-Policy Learning)
Метод обучения, при котором агент изучает оптимальную политику, следуя другой политике поведения, что позволяет обеспечить лучшее исследование.
← Назад