Оптимизация политики с доверительной областью (TRPO)
Sample Efficiency
Мера эффективности алгоритма обучения с подкреплением в использовании собранных данных; TRPO известен своей хорошей эффективностью использования выборок.
← Назад