🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Векторная функция вознаграждения

Функция вознаграждения, которая возвращает вектор вознаграждений вместо скаляра, позволяя одновременно учитывать несколько конфликтующих целей в обучении с подкреплением.

📖
термины

Оптимизация многокритериальной стратегии

Процесс одновременной оптимизации нескольких стратегий или одной стратегии, направленный на оптимизацию нескольких функций значений, соответствующих различным целям.

📖
термины

Обучение с подкреплением в непрерывном пространстве действий

Парадигма обучения с подкреплением, где агент может выбирать из бесконечного множества непрерывных действий, требующая использования адаптированных алгоритмов оптимизации, таких как PPO или SAC.

📖
термины

Обучение с подкреплением на основе предпочтений

Подход, в котором человеческие предпочтения относительно компромиссов между целями интегрируются в процесс обучения для направления агента к желаемым решениям на фронте Парето.

📖
термины

Выпуклый фронт Парето

Фронт Парето, обладающий математической выпуклостью, позволяющий использовать методы линейной скаляризации для нахождения всех оптимальных решений.

📖
термины

Метод взвешенной суммы

Техника скаляризации, взвешивающая каждую цель с коэффициентом для создания скалярной целевой функции, простая, но ограниченная только выпуклыми фронтами Парето.

📖
термины

Скаляризация по Чебышёву

Метод скаляризации, использующий норму Чебышёва для обеспечения нахождения Парето-оптимальных решений даже на невыпуклых фронтах.

📖
термины

Равновесие Нэша в многокритериальном обучении с подкреплением

Точка равновесия, в которой ни один агент не может улучшить свою позицию, изменяя свою стратегию односторонне, применяемая к многокритериальным играм с непрерывными действиями.

📖
термины

Динамическое взвешивание

Адаптивная стратегия, изменяющая веса целей в процессе обучения для эффективного исследования фронта Парето и избежания локальных оптимумов.

📖
термины

Недоминируемые решения

Набор решений, в котором ни одно не является строго лучшим другого по всем целям, составляющий множество Парето-оптимальных решений.

📖
термины

Лексикографическое упорядочивание

Иерархический подход, где цели оптимизируются последовательно в порядке абсолютного приоритета, без компромиссов между целями разных рангов.

📖
термины

Стохастические многоцелевые политики

Вероятностные политики в непрерывных пространствах действий, оптимизирующие одновременно несколько целей, часто реализуемые как параметризованные гауссовы распределения.

📖
термины

Непрерывная оптимизация Парето

Непрерывная оптимизация фронта Парето в процессе обучения, позволяющая агенту динамически адаптировать компромиссы между целями.

📖
термины

Многоцелевой актор-критик

Алгоритмическая архитектура, объединяющая актора и критика, адаптированных для многоцелевых задач, с векторными функциями ценности и многоцелевыми политиками.

📖
термины

Декомпозиция пространства действий

Техника, разделяющая непрерывное пространство действий на специализированные подпространства для каждой цели, облегчающая многоцелевую оптимизацию в сложных средах.

📖
термины

Многоцелевой компромисс между исследованием и использованием

Дилемма, расширенная на многоцелевые задачи, где исследование должно быть направлено на открытие различных оптимальных компромиссов, а не одного оптимального решения.

🔍

Результаты не найдены