Оптимизация политики с доверительной областью (TRPO)

📖

термины

Fisher Information Matrix

Матрица, измеряющая количество информации, которое случайная наблюдаемая величина несёт о неизвестном параметре, используемая в TRPO для определения геометрии пространства параметров.

📖

термины

KL Divergence

Мера несходства между двумя распределениями вероятностей, используемая в TRPO в качестве ограничения для ограничения расхождения между последовательными стратегиями.

📖

термины

Conjugate Gradient

Итеративный алгоритм оптимизации, используемый в TRPO для эффективного решения линейных систем в направлении спуска по натуральному градиенту.

📖

термины

Line Search

Процедура оптимизации, которая корректирует размер шага, чтобы гарантировать, что обновление удовлетворяет ограничениям области доверия в TRPO.

📖

термины

Monotonic Improvement Theory

Теория, гарантирующая, что стратегия, обновлённая с помощью TRPO, всегда улучшает или поддерживает ожидаемую производительность при определённых условиях области доверия.

📖

термины

Reward-to-go

Оценщик функции ценности, который использует только будущие вознаграждения после заданного временного шага для уменьшения дисперсии при оценке градиента.

📖

термины

Sample Efficiency

Мера эффективности алгоритма обучения с подкреплением в использовании собранных данных; TRPO известен своей хорошей эффективностью использования выборок.

📖

термины

On-policy Learning

Парадигма обучения, при которой собранные данные должны поступать от текущей стратегии; это фундаментальная характеристика TRPO, в отличие от off-policy методов.

Глоссарий ИИ

Fisher Information Matrix

KL Divergence

Conjugate Gradient

Line Search

Monotonic Improvement Theory

Reward-to-go

Sample Efficiency

On-policy Learning

Результаты не найдены