Методы градиента политики
Энтропийная регуляризация
Добавление члена энтропии к целевой функции для поощрения исследования путем штрафования слишком детерминированных политик, улучшая устойчивость обучения.
← Назад