Глоссарий ИИ
Полный словарь искусственного интеллекта
Функция отсечения
Механизм PPO, который ограничивает масштаб обновлений политики путем отсечения отношения вероятностей между новой и старой политикой для предотвращения слишком резких изменений.
Область доверия
Область доверия в пространстве политик, где обновления считаются безопасными, определяемая ограничением на расхождение KL между последовательными политиками.
Проксимальная целевая функция
Модифицированная целевая функция, используемая в PPO, которая аппроксимирует исходную цель, включая ограничения стабильности, такие как отсечение, для предотвращения ухудшения производительности.
Штраф за расхождение KL
Штраф, добавляемый к целевой функции PPO для контроля расхождения между последовательными политиками, адаптивно настраиваемый для поддержания обновлений в допустимой области.
Мини-пакетные обновления
Процесс оптимизации PPO, при котором собранные данные делятся на небольшие пакеты для выполнения нескольких проходов градиента, улучшая вычислительную эффективность и стабильность.
Параметр диапазона отсечения
Гиперпараметр эпсилон в PPO, который определяет ширину зоны отсечения для отношения вероятностей, напрямую контролируя консервативность обновлений политики.
Отсечение функции ценности
Вариант PPO, который также применяет отсечение к функции ценности для стабилизации обучения и предотвращения больших колебаний в оценках ценности.
Оптимизация по эпохам
Процесс PPO, при котором те же данные опыта используются повторно для нескольких проходов оптимизации, улучшая использование собранных данных.
Нормализованное преимущество
Техника нормализации оценок преимущества для стабилизации обучения путем поддержания согласованного масштаба градиентов между обновлениями.
Сбор опыта
Фаза PPO, в которой агент взаимодействует со средой, следуя текущей политике, для сбора переходов (состояние, действие, вознаграждение), используемых для оптимизации.
Адаптивный штраф KL
Вариант PPO, который динамически регулирует силу штрафа KL в зависимости от наблюдаемой расходимости между политиками, обеспечивая контролируемые обновления.