Глоссарий ИИ
Полный словарь искусственного интеллекта
Fisher Information Matrix
Матрица, измеряющая количество информации, которое случайная наблюдаемая величина несёт о неизвестном параметре, используемая в TRPO для определения геометрии пространства параметров.
KL Divergence
Мера несходства между двумя распределениями вероятностей, используемая в TRPO в качестве ограничения для ограничения расхождения между последовательными стратегиями.
Conjugate Gradient
Итеративный алгоритм оптимизации, используемый в TRPO для эффективного решения линейных систем в направлении спуска по натуральному градиенту.
Line Search
Процедура оптимизации, которая корректирует размер шага, чтобы гарантировать, что обновление удовлетворяет ограничениям области доверия в TRPO.
Monotonic Improvement Theory
Теория, гарантирующая, что стратегия, обновлённая с помощью TRPO, всегда улучшает или поддерживает ожидаемую производительность при определённых условиях области доверия.
Reward-to-go
Оценщик функции ценности, который использует только будущие вознаграждения после заданного временного шага для уменьшения дисперсии при оценке градиента.
Sample Efficiency
Мера эффективности алгоритма обучения с подкреплением в использовании собранных данных; TRPO известен своей хорошей эффективностью использования выборок.
On-policy Learning
Парадигма обучения, при которой собранные данные должны поступать от текущей стратегии; это фундаментальная характеристика TRPO, в отличие от off-policy методов.