Глоссарий ИИ
Полный словарь искусственного интеллекта
Обучение вне стратегии (Off-Policy Learning)
Метод обучения, при котором агент изучает оптимальную политику, следуя другой политике поведения, что позволяет обеспечить лучшее исследование.
Целевые сети (Target Networks)
Дублирующиеся нейронные сети с медленно обновляемыми весами для стабилизации обучения за счет предоставления более согласованных целей.
Процесс Орнштейна-Уленбека (Ornstein-Uhlenbeck Process)
Стохастический процесс, используемый для генерации временно коррелированного шума в действиях, способствующий эффективному исследованию в непрерывных пространствах.
Непрерывное пространство действий (Continuous Action Space)
Среда, в которой действия могут принимать любое значение в непрерывном интервале, требующая адаптированных алгоритмов в отличие от дискретных действий.
Аппроксимация функций нейронной сетью (Neural Network Function Approximation)
Использование нейронных сетей для аппроксимации сложных функций, таких как политики или функции ценности, в обучении с подкреплением.
Мягкое обновление (Soft Update)
Метод постепенного обновления целевых сетей с использованием коэффициента тау (τ) для медленного смешивания весов основных и целевых сетей.
Сеть актора (Actor Network)
Нейронная сеть, которая учится напрямую отображать состояния на оптимальные действия в непрерывном пространстве действий.
Детерминированная политика (Deterministic Policy)
Политика, которая ставит в соответствие каждому состоянию конкретное действие, в отличие от стохастических политик, возвращающих распределения вероятностей.
Шум в действиях
Шум, добавляемый к действиям, генерируемым актером, для поощрения исследования непрерывного пространства действий во время обучения.