Непрерывное многоцелевое обучение с подкреплением
Обучение с подкреплением на основе предпочтений
Подход, в котором человеческие предпочтения относительно компромиссов между целями интегрируются в процесс обучения для направления агента к желаемым решениям на фронте Парето.
← Назад