Методы градиента политики

📖

термины

Политика градиента

Метод прямой оптимизации, который настраивает параметры политики, следуя градиенту ожидаемого вознаграждения, позволяя обучать стохастические политики без необходимости модели среды.

📖

термины

Алгоритм REINFORCE

Базовый алгоритм градиента политики, использующий оценку Монте-Карло градиента для обновления параметров политики на основе полностью наблюдаемых эпизодов.

📖

термины

Методы актор-критик

Гибридный подход, сочетающий актора, который изучает политику, и критика, который оценивает функцию значения, уменьшая разброс оценок градиента политики.

📖

термины

Функция преимущества

Мера превосходства действия по сравнению со средним действием в заданном состоянии, вычисляемая как разность между функцией Q и функцией V для уменьшения разброса градиента.

📖

термины

Проксимальная оптимизация политики (PPO)

Алгоритм, оптимизирующий политику, ограничивая обновления, чтобы оставаться близкими к предыдущей политике, используя отсечённую целевую функцию для обеспечения стабильности обучения.

📖

термины

Оптимизация политики в доверительной области (TRPO)

Метод, гарантирующий монотонные улучшения производительности при оптимизации политики в доверительной области, определённой расходимостью KL между последовательными политиками.

📖

термины

Естественный градиент политики

Вариант градиента политики, использующий метрику Фишера для выполнения обновлений, инвариантных к параметризации, обеспечивая более стабильную и эффективную сходимость.

📖

термины

Сеть политики

Параметризованная нейронная сеть, представляющая политику π(a|s; θ), генерирующую распределение вероятностей действий, условленных по текущему состоянию.

📖

термины

Градиент политики Монте-Карло

Техника оценки градиента, использующая полные траектории для расчета возвратов, обеспечивающая несмещенную оценку с высокой дисперсией.

📖

термины

Базовая функция

Функция, вычитаемая из возврата для уменьшения дисперсии оценки градиента без введения смещения, обычно функция значения состояния.

📖

термины

Важность выборки

Техника, позволяющая использовать данные, собранные со старой политикой, для обновления новой политики, взвешивая выборки в соответствии с отношением вероятностей политик.

📖

термины

Энтропийная регуляризация

Добавление члена энтропии к целевой функции для поощрения исследования путем штрафования слишком детерминированных политик, улучшая устойчивость обучения.

📖

термины

Градиент детерминированной политики

Расширение градиента политики на непрерывные пространства действий, где политика детерминирована, особенно эффективно в средах с высокой размерностью.

📖

термины

Стохастическая политика

Политика, представленная распределением вероятностей π(a|s) над действиями, обеспечивающая внутреннее исследование и необходимая для методов градиента политики.

📖

термины

Ограничение дивергенции KL

Ограничение, ограничивающее дивергенцию Кульбака-Лейблера между последовательными политиками для обеспечения стабильных обновлений и предотвращения слишком резких изменений поведения.

📖

термины

Обобщенная оценка преимущества (GAE)

Метод оценки преимущества, объединяющий смещение и дисперсию через взвешенное среднее многопэтапных оценщиков, обеспечивающий оптимальный компромисс для обучения.

📖

термины

Теорема о градиенте политики

Фундаментальная теорема, предоставляющая аналитическое выражение для градиента ожидаемого возврата по отношению к параметрам политики, формулирующая теоретическую основу методов.

📖

термины

Возврат до завершения

Сумма дисконтированных будущих наград, начиная с заданного шага времени, используемая в качестве оценки градиента в алгоритмах градиента политики.

Глоссарий ИИ

Политика градиента

Алгоритм REINFORCE

Методы актор-критик

Функция преимущества

Проксимальная оптимизация политики (PPO)

Оптимизация политики в доверительной области (TRPO)

Естественный градиент политики

Сеть политики

Градиент политики Монте-Карло

Базовая функция

Важность выборки

Энтропийная регуляризация

Градиент детерминированной политики

Стохастическая политика

Ограничение дивергенции KL

Обобщенная оценка преимущества (GAE)

Теорема о градиенте политики

Возврат до завершения

Результаты не найдены