Глубокий Детерминированный Градиент Политики (DDPG)

📖

термины

Обучение вне стратегии (Off-Policy Learning)

Метод обучения, при котором агент изучает оптимальную политику, следуя другой политике поведения, что позволяет обеспечить лучшее исследование.

📖

термины

Целевые сети (Target Networks)

Дублирующиеся нейронные сети с медленно обновляемыми весами для стабилизации обучения за счет предоставления более согласованных целей.

📖

термины

Процесс Орнштейна-Уленбека (Ornstein-Uhlenbeck Process)

Стохастический процесс, используемый для генерации временно коррелированного шума в действиях, способствующий эффективному исследованию в непрерывных пространствах.

📖

термины

Непрерывное пространство действий (Continuous Action Space)

Среда, в которой действия могут принимать любое значение в непрерывном интервале, требующая адаптированных алгоритмов в отличие от дискретных действий.

📖

термины

Аппроксимация функций нейронной сетью (Neural Network Function Approximation)

Использование нейронных сетей для аппроксимации сложных функций, таких как политики или функции ценности, в обучении с подкреплением.

📖

термины

Мягкое обновление (Soft Update)

Метод постепенного обновления целевых сетей с использованием коэффициента тау (τ) для медленного смешивания весов основных и целевых сетей.

📖

термины

Сеть актора (Actor Network)

Нейронная сеть, которая учится напрямую отображать состояния на оптимальные действия в непрерывном пространстве действий.

📖

термины

Детерминированная политика (Deterministic Policy)

Политика, которая ставит в соответствие каждому состоянию конкретное действие, в отличие от стохастических политик, возвращающих распределения вероятностей.

📖

термины

Шум в действиях

Шум, добавляемый к действиям, генерируемым актером, для поощрения исследования непрерывного пространства действий во время обучения.

Глоссарий ИИ

Обучение вне стратегии (Off-Policy Learning)

Целевые сети (Target Networks)

Процесс Орнштейна-Уленбека (Ornstein-Uhlenbeck Process)

Непрерывное пространство действий (Continuous Action Space)

Аппроксимация функций нейронной сетью (Neural Network Function Approximation)

Мягкое обновление (Soft Update)

Сеть актора (Actor Network)

Детерминированная политика (Deterministic Policy)

Шум в действиях

Результаты не найдены