Глоссарий ИИ
Полный словарь искусственного интеллекта
Векторная функция вознаграждения
Функция вознаграждения, которая возвращает вектор вознаграждений вместо скаляра, позволяя одновременно учитывать несколько конфликтующих целей в обучении с подкреплением.
Оптимизация многокритериальной стратегии
Процесс одновременной оптимизации нескольких стратегий или одной стратегии, направленный на оптимизацию нескольких функций значений, соответствующих различным целям.
Обучение с подкреплением в непрерывном пространстве действий
Парадигма обучения с подкреплением, где агент может выбирать из бесконечного множества непрерывных действий, требующая использования адаптированных алгоритмов оптимизации, таких как PPO или SAC.
Обучение с подкреплением на основе предпочтений
Подход, в котором человеческие предпочтения относительно компромиссов между целями интегрируются в процесс обучения для направления агента к желаемым решениям на фронте Парето.
Выпуклый фронт Парето
Фронт Парето, обладающий математической выпуклостью, позволяющий использовать методы линейной скаляризации для нахождения всех оптимальных решений.
Метод взвешенной суммы
Техника скаляризации, взвешивающая каждую цель с коэффициентом для создания скалярной целевой функции, простая, но ограниченная только выпуклыми фронтами Парето.
Скаляризация по Чебышёву
Метод скаляризации, использующий норму Чебышёва для обеспечения нахождения Парето-оптимальных решений даже на невыпуклых фронтах.
Равновесие Нэша в многокритериальном обучении с подкреплением
Точка равновесия, в которой ни один агент не может улучшить свою позицию, изменяя свою стратегию односторонне, применяемая к многокритериальным играм с непрерывными действиями.
Динамическое взвешивание
Адаптивная стратегия, изменяющая веса целей в процессе обучения для эффективного исследования фронта Парето и избежания локальных оптимумов.
Недоминируемые решения
Набор решений, в котором ни одно не является строго лучшим другого по всем целям, составляющий множество Парето-оптимальных решений.
Лексикографическое упорядочивание
Иерархический подход, где цели оптимизируются последовательно в порядке абсолютного приоритета, без компромиссов между целями разных рангов.
Стохастические многоцелевые политики
Вероятностные политики в непрерывных пространствах действий, оптимизирующие одновременно несколько целей, часто реализуемые как параметризованные гауссовы распределения.
Непрерывная оптимизация Парето
Непрерывная оптимизация фронта Парето в процессе обучения, позволяющая агенту динамически адаптировать компромиссы между целями.
Многоцелевой актор-критик
Алгоритмическая архитектура, объединяющая актора и критика, адаптированных для многоцелевых задач, с векторными функциями ценности и многоцелевыми политиками.
Декомпозиция пространства действий
Техника, разделяющая непрерывное пространство действий на специализированные подпространства для каждой цели, облегчающая многоцелевую оптимизацию в сложных средах.
Многоцелевой компромисс между исследованием и использованием
Дилемма, расширенная на многоцелевые задачи, где исследование должно быть направлено на открытие различных оптимальных компромиссов, а не одного оптимального решения.