Проксимальная оптимизация политики (PPO)

📖

термины

Функция отсечения

Механизм PPO, который ограничивает масштаб обновлений политики путем отсечения отношения вероятностей между новой и старой политикой для предотвращения слишком резких изменений.

📖

термины

Область доверия

Область доверия в пространстве политик, где обновления считаются безопасными, определяемая ограничением на расхождение KL между последовательными политиками.

📖

термины

Проксимальная целевая функция

Модифицированная целевая функция, используемая в PPO, которая аппроксимирует исходную цель, включая ограничения стабильности, такие как отсечение, для предотвращения ухудшения производительности.

📖

термины

Штраф за расхождение KL

Штраф, добавляемый к целевой функции PPO для контроля расхождения между последовательными политиками, адаптивно настраиваемый для поддержания обновлений в допустимой области.

📖

термины

Мини-пакетные обновления

Процесс оптимизации PPO, при котором собранные данные делятся на небольшие пакеты для выполнения нескольких проходов градиента, улучшая вычислительную эффективность и стабильность.

📖

термины

Параметр диапазона отсечения

Гиперпараметр эпсилон в PPO, который определяет ширину зоны отсечения для отношения вероятностей, напрямую контролируя консервативность обновлений политики.

📖

термины

Отсечение функции ценности

Вариант PPO, который также применяет отсечение к функции ценности для стабилизации обучения и предотвращения больших колебаний в оценках ценности.

📖

термины

Оптимизация по эпохам

Процесс PPO, при котором те же данные опыта используются повторно для нескольких проходов оптимизации, улучшая использование собранных данных.

📖

термины

Нормализованное преимущество

Техника нормализации оценок преимущества для стабилизации обучения путем поддержания согласованного масштаба градиентов между обновлениями.

📖

термины

Сбор опыта

Фаза PPO, в которой агент взаимодействует со средой, следуя текущей политике, для сбора переходов (состояние, действие, вознаграждение), используемых для оптимизации.

📖

термины

Адаптивный штраф KL

Вариант PPO, который динамически регулирует силу штрафа KL в зависимости от наблюдаемой расходимости между политиками, обеспечивая контролируемые обновления.

Глоссарий ИИ

Функция отсечения

Область доверия

Проксимальная целевая функция

Штраф за расхождение KL

Мини-пакетные обновления

Параметр диапазона отсечения

Отсечение функции ценности

Оптимизация по эпохам

Нормализованное преимущество

Сбор опыта

Адаптивный штраф KL

Результаты не найдены