Непрерывное многоцелевое обучение с подкреплением
Обучение с подкреплением в непрерывном пространстве действий
Парадигма обучения с подкреплением, где агент может выбирать из бесконечного множества непрерывных действий, требующая использования адаптированных алгоритмов оптимизации, таких как PPO или SAC.
← Назад