Непрерывное многоцелевое обучение с подкреплением

📖

термины

Векторная функция вознаграждения

Функция вознаграждения, которая возвращает вектор вознаграждений вместо скаляра, позволяя одновременно учитывать несколько конфликтующих целей в обучении с подкреплением.

📖

термины

Оптимизация многокритериальной стратегии

Процесс одновременной оптимизации нескольких стратегий или одной стратегии, направленный на оптимизацию нескольких функций значений, соответствующих различным целям.

📖

термины

Обучение с подкреплением в непрерывном пространстве действий

Парадигма обучения с подкреплением, где агент может выбирать из бесконечного множества непрерывных действий, требующая использования адаптированных алгоритмов оптимизации, таких как PPO или SAC.

📖

термины

Обучение с подкреплением на основе предпочтений

Подход, в котором человеческие предпочтения относительно компромиссов между целями интегрируются в процесс обучения для направления агента к желаемым решениям на фронте Парето.

📖

термины

Выпуклый фронт Парето

Фронт Парето, обладающий математической выпуклостью, позволяющий использовать методы линейной скаляризации для нахождения всех оптимальных решений.

📖

термины

Метод взвешенной суммы

Техника скаляризации, взвешивающая каждую цель с коэффициентом для создания скалярной целевой функции, простая, но ограниченная только выпуклыми фронтами Парето.

📖

термины

Скаляризация по Чебышёву

Метод скаляризации, использующий норму Чебышёва для обеспечения нахождения Парето-оптимальных решений даже на невыпуклых фронтах.

📖

термины

Равновесие Нэша в многокритериальном обучении с подкреплением

Точка равновесия, в которой ни один агент не может улучшить свою позицию, изменяя свою стратегию односторонне, применяемая к многокритериальным играм с непрерывными действиями.

📖

термины

Динамическое взвешивание

Адаптивная стратегия, изменяющая веса целей в процессе обучения для эффективного исследования фронта Парето и избежания локальных оптимумов.

📖

термины

Недоминируемые решения

Набор решений, в котором ни одно не является строго лучшим другого по всем целям, составляющий множество Парето-оптимальных решений.

📖

термины

Лексикографическое упорядочивание

Иерархический подход, где цели оптимизируются последовательно в порядке абсолютного приоритета, без компромиссов между целями разных рангов.

📖

термины

Стохастические многоцелевые политики

Вероятностные политики в непрерывных пространствах действий, оптимизирующие одновременно несколько целей, часто реализуемые как параметризованные гауссовы распределения.

📖

термины

Непрерывная оптимизация Парето

Непрерывная оптимизация фронта Парето в процессе обучения, позволяющая агенту динамически адаптировать компромиссы между целями.

📖

термины

Многоцелевой актор-критик

Алгоритмическая архитектура, объединяющая актора и критика, адаптированных для многоцелевых задач, с векторными функциями ценности и многоцелевыми политиками.

📖

термины

Декомпозиция пространства действий

Техника, разделяющая непрерывное пространство действий на специализированные подпространства для каждой цели, облегчающая многоцелевую оптимизацию в сложных средах.

📖

термины

Многоцелевой компромисс между исследованием и использованием

Дилемма, расширенная на многоцелевые задачи, где исследование должно быть направлено на открытие различных оптимальных компромиссов, а не одного оптимального решения.

Глоссарий ИИ

Векторная функция вознаграждения

Оптимизация многокритериальной стратегии

Обучение с подкреплением в непрерывном пространстве действий

Обучение с подкреплением на основе предпочтений

Выпуклый фронт Парето

Метод взвешенной суммы

Скаляризация по Чебышёву

Равновесие Нэша в многокритериальном обучении с подкреплением

Динамическое взвешивание

Недоминируемые решения

Лексикографическое упорядочивание

Стохастические многоцелевые политики

Непрерывная оптимизация Парето

Многоцелевой актор-критик

Декомпозиция пространства действий

Многоцелевой компромисс между исследованием и использованием

Результаты не найдены