Непрерывное многоцелевое обучение с подкреплением
Векторная функция вознаграждения
Функция вознаграждения, которая возвращает вектор вознаграждений вместо скаляра, позволяя одновременно учитывать несколько конфликтующих целей в обучении с подкреплением.
← Назад