Глоссарий ИИ
Полный словарь искусственного интеллекта
Политика градиента
Метод прямой оптимизации, который настраивает параметры политики, следуя градиенту ожидаемого вознаграждения, позволяя обучать стохастические политики без необходимости модели среды.
Алгоритм REINFORCE
Базовый алгоритм градиента политики, использующий оценку Монте-Карло градиента для обновления параметров политики на основе полностью наблюдаемых эпизодов.
Методы актор-критик
Гибридный подход, сочетающий актора, который изучает политику, и критика, который оценивает функцию значения, уменьшая разброс оценок градиента политики.
Функция преимущества
Мера превосходства действия по сравнению со средним действием в заданном состоянии, вычисляемая как разность между функцией Q и функцией V для уменьшения разброса градиента.
Проксимальная оптимизация политики (PPO)
Алгоритм, оптимизирующий политику, ограничивая обновления, чтобы оставаться близкими к предыдущей политике, используя отсечённую целевую функцию для обеспечения стабильности обучения.
Оптимизация политики в доверительной области (TRPO)
Метод, гарантирующий монотонные улучшения производительности при оптимизации политики в доверительной области, определённой расходимостью KL между последовательными политиками.
Естественный градиент политики
Вариант градиента политики, использующий метрику Фишера для выполнения обновлений, инвариантных к параметризации, обеспечивая более стабильную и эффективную сходимость.
Сеть политики
Параметризованная нейронная сеть, представляющая политику π(a|s; θ), генерирующую распределение вероятностей действий, условленных по текущему состоянию.
Градиент политики Монте-Карло
Техника оценки градиента, использующая полные траектории для расчета возвратов, обеспечивающая несмещенную оценку с высокой дисперсией.
Базовая функция
Функция, вычитаемая из возврата для уменьшения дисперсии оценки градиента без введения смещения, обычно функция значения состояния.
Важность выборки
Техника, позволяющая использовать данные, собранные со старой политикой, для обновления новой политики, взвешивая выборки в соответствии с отношением вероятностей политик.
Энтропийная регуляризация
Добавление члена энтропии к целевой функции для поощрения исследования путем штрафования слишком детерминированных политик, улучшая устойчивость обучения.
Градиент детерминированной политики
Расширение градиента политики на непрерывные пространства действий, где политика детерминирована, особенно эффективно в средах с высокой размерностью.
Стохастическая политика
Политика, представленная распределением вероятностей π(a|s) над действиями, обеспечивающая внутреннее исследование и необходимая для методов градиента политики.
Ограничение дивергенции KL
Ограничение, ограничивающее дивергенцию Кульбака-Лейблера между последовательными политиками для обеспечения стабильных обновлений и предотвращения слишком резких изменений поведения.
Обобщенная оценка преимущества (GAE)
Метод оценки преимущества, объединяющий смещение и дисперсию через взвешенное среднее многопэтапных оценщиков, обеспечивающий оптимальный компромисс для обучения.
Теорема о градиенте политики
Фундаментальная теорема, предоставляющая аналитическое выражение для градиента ожидаемого возврата по отношению к параметрам политики, формулирующая теоретическую основу методов.
Возврат до завершения
Сумма дисконтированных будущих наград, начиная с заданного шага времени, используемая в качестве оценки градиента в алгоритмах градиента политики.