Глоссарий ИИ
Полный словарь искусственного интеллекта
Глубокие Q-сети (DQN)
Пионерский алгоритм, объединяющий Q-обучение с глубокими нейронными сетями для аппроксимации Q-функции ценности в сложных пространствах состояний.
Методы градиента политики
Подходы обучения с подкреплением, которые напрямую оптимизируют политику, следуя градиенту ожидаемых вознаграждений.
Методы Актор-Критик
Гибридная архитектура, объединяющая актора, который обучает стратегию, и критика, который оценивает ценность состояний или действий.
Глубокий Детерминированный Градиент Политики (DDPG)
Off-policy алгоритм актор-критик для сред с непрерывными пространствами действий, использующий глубокие нейронные сети.
Проксимальная оптимизация политики (PPO)
Метод оптимизации политики, который поддерживает обновления в области доверия для обеспечения стабильности обучения.
Оптимизация политики с доверительной областью (TRPO)
Алгоритм ограниченной оптимизации, который гарантирует, что новые политики не слишком отклоняются от старых политик.
Многоагентный глубокий RL
Расширение глубокого обучения с подкреплением, в котором несколько агентов обучаются одновременно, в сотрудничестве или в конкуренции в общей среде.
Иерархическое обучение с подкреплением
Подход, структурирующий обучение на иерархических уровнях с мета-политиками, контролирующими специализированные суб-политики.
Глубинное обучение с подкреплением на основе модели
Техника, при которой агент обучает модель среды для планирования и принятия более эффективных решений.
Дистрибуциональное RL
Парадигма, изучающая полное распределение вознаграждений, а не только их математическое ожидание, для большей устойчивости.
RL, основанное на любопытстве
Подход, в котором агент получает внутренние вознаграждения, основанные на его любопытстве, для эффективного исследования среды.
Мета-обучение в обучении с подкреплением
Техника, позволяющая агентам быстро обучаться новым задачам с небольшим количеством опыта.