🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Политика градиента

Метод прямой оптимизации, который настраивает параметры политики, следуя градиенту ожидаемого вознаграждения, позволяя обучать стохастические политики без необходимости модели среды.

📖
термины

Алгоритм REINFORCE

Базовый алгоритм градиента политики, использующий оценку Монте-Карло градиента для обновления параметров политики на основе полностью наблюдаемых эпизодов.

📖
термины

Методы актор-критик

Гибридный подход, сочетающий актора, который изучает политику, и критика, который оценивает функцию значения, уменьшая разброс оценок градиента политики.

📖
термины

Функция преимущества

Мера превосходства действия по сравнению со средним действием в заданном состоянии, вычисляемая как разность между функцией Q и функцией V для уменьшения разброса градиента.

📖
термины

Проксимальная оптимизация политики (PPO)

Алгоритм, оптимизирующий политику, ограничивая обновления, чтобы оставаться близкими к предыдущей политике, используя отсечённую целевую функцию для обеспечения стабильности обучения.

📖
термины

Оптимизация политики в доверительной области (TRPO)

Метод, гарантирующий монотонные улучшения производительности при оптимизации политики в доверительной области, определённой расходимостью KL между последовательными политиками.

📖
термины

Естественный градиент политики

Вариант градиента политики, использующий метрику Фишера для выполнения обновлений, инвариантных к параметризации, обеспечивая более стабильную и эффективную сходимость.

📖
термины

Сеть политики

Параметризованная нейронная сеть, представляющая политику π(a|s; θ), генерирующую распределение вероятностей действий, условленных по текущему состоянию.

📖
термины

Градиент политики Монте-Карло

Техника оценки градиента, использующая полные траектории для расчета возвратов, обеспечивающая несмещенную оценку с высокой дисперсией.

📖
термины

Базовая функция

Функция, вычитаемая из возврата для уменьшения дисперсии оценки градиента без введения смещения, обычно функция значения состояния.

📖
термины

Важность выборки

Техника, позволяющая использовать данные, собранные со старой политикой, для обновления новой политики, взвешивая выборки в соответствии с отношением вероятностей политик.

📖
термины

Энтропийная регуляризация

Добавление члена энтропии к целевой функции для поощрения исследования путем штрафования слишком детерминированных политик, улучшая устойчивость обучения.

📖
термины

Градиент детерминированной политики

Расширение градиента политики на непрерывные пространства действий, где политика детерминирована, особенно эффективно в средах с высокой размерностью.

📖
термины

Стохастическая политика

Политика, представленная распределением вероятностей π(a|s) над действиями, обеспечивающая внутреннее исследование и необходимая для методов градиента политики.

📖
термины

Ограничение дивергенции KL

Ограничение, ограничивающее дивергенцию Кульбака-Лейблера между последовательными политиками для обеспечения стабильных обновлений и предотвращения слишком резких изменений поведения.

📖
термины

Обобщенная оценка преимущества (GAE)

Метод оценки преимущества, объединяющий смещение и дисперсию через взвешенное среднее многопэтапных оценщиков, обеспечивающий оптимальный компромисс для обучения.

📖
термины

Теорема о градиенте политики

Фундаментальная теорема, предоставляющая аналитическое выражение для градиента ожидаемого возврата по отношению к параметрам политики, формулирующая теоретическую основу методов.

📖
термины

Возврат до завершения

Сумма дисконтированных будущих наград, начиная с заданного шага времени, используемая в качестве оценки градиента в алгоритмах градиента политики.

🔍

Результаты не найдены