🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Функция отсечения

Механизм PPO, который ограничивает масштаб обновлений политики путем отсечения отношения вероятностей между новой и старой политикой для предотвращения слишком резких изменений.

📖
термины

Область доверия

Область доверия в пространстве политик, где обновления считаются безопасными, определяемая ограничением на расхождение KL между последовательными политиками.

📖
термины

Проксимальная целевая функция

Модифицированная целевая функция, используемая в PPO, которая аппроксимирует исходную цель, включая ограничения стабильности, такие как отсечение, для предотвращения ухудшения производительности.

📖
термины

Штраф за расхождение KL

Штраф, добавляемый к целевой функции PPO для контроля расхождения между последовательными политиками, адаптивно настраиваемый для поддержания обновлений в допустимой области.

📖
термины

Мини-пакетные обновления

Процесс оптимизации PPO, при котором собранные данные делятся на небольшие пакеты для выполнения нескольких проходов градиента, улучшая вычислительную эффективность и стабильность.

📖
термины

Параметр диапазона отсечения

Гиперпараметр эпсилон в PPO, который определяет ширину зоны отсечения для отношения вероятностей, напрямую контролируя консервативность обновлений политики.

📖
термины

Отсечение функции ценности

Вариант PPO, который также применяет отсечение к функции ценности для стабилизации обучения и предотвращения больших колебаний в оценках ценности.

📖
термины

Оптимизация по эпохам

Процесс PPO, при котором те же данные опыта используются повторно для нескольких проходов оптимизации, улучшая использование собранных данных.

📖
термины

Нормализованное преимущество

Техника нормализации оценок преимущества для стабилизации обучения путем поддержания согласованного масштаба градиентов между обновлениями.

📖
термины

Сбор опыта

Фаза PPO, в которой агент взаимодействует со средой, следуя текущей политике, для сбора переходов (состояние, действие, вознаграждение), используемых для оптимизации.

📖
термины

Адаптивный штраф KL

Вариант PPO, который динамически регулирует силу штрафа KL в зависимости от наблюдаемой расходимости между политиками, обеспечивая контролируемые обновления.

🔍

Результаты не найдены