🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Fisher Information Matrix

Матрица, измеряющая количество информации, которое случайная наблюдаемая величина несёт о неизвестном параметре, используемая в TRPO для определения геометрии пространства параметров.

📖
термины

KL Divergence

Мера несходства между двумя распределениями вероятностей, используемая в TRPO в качестве ограничения для ограничения расхождения между последовательными стратегиями.

📖
термины

Conjugate Gradient

Итеративный алгоритм оптимизации, используемый в TRPO для эффективного решения линейных систем в направлении спуска по натуральному градиенту.

📖
термины

Line Search

Процедура оптимизации, которая корректирует размер шага, чтобы гарантировать, что обновление удовлетворяет ограничениям области доверия в TRPO.

📖
термины

Monotonic Improvement Theory

Теория, гарантирующая, что стратегия, обновлённая с помощью TRPO, всегда улучшает или поддерживает ожидаемую производительность при определённых условиях области доверия.

📖
термины

Reward-to-go

Оценщик функции ценности, который использует только будущие вознаграждения после заданного временного шага для уменьшения дисперсии при оценке градиента.

📖
термины

Sample Efficiency

Мера эффективности алгоритма обучения с подкреплением в использовании собранных данных; TRPO известен своей хорошей эффективностью использования выборок.

📖
термины

On-policy Learning

Парадигма обучения, при которой собранные данные должны поступать от текущей стратегии; это фундаментальная характеристика TRPO, в отличие от off-policy методов.

🔍

Результаты не найдены