Глубокое обучение с подкреплением

📂

подкатегории

Глубокие Q-сети (DQN)

Пионерский алгоритм, объединяющий Q-обучение с глубокими нейронными сетями для аппроксимации Q-функции ценности в сложных пространствах состояний.

18 термины

📂

подкатегории

Методы градиента политики

Подходы обучения с подкреплением, которые напрямую оптимизируют политику, следуя градиенту ожидаемых вознаграждений.

18 термины

📂

подкатегории

Методы Актор-Критик

Гибридная архитектура, объединяющая актора, который обучает стратегию, и критика, который оценивает ценность состояний или действий.

8 термины

📂

подкатегории

Глубокий Детерминированный Градиент Политики (DDPG)

Off-policy алгоритм актор-критик для сред с непрерывными пространствами действий, использующий глубокие нейронные сети.

9 термины

📂

подкатегории

Проксимальная оптимизация политики (PPO)

Метод оптимизации политики, который поддерживает обновления в области доверия для обеспечения стабильности обучения.

11 термины

📂

подкатегории

Оптимизация политики с доверительной областью (TRPO)

Алгоритм ограниченной оптимизации, который гарантирует, что новые политики не слишком отклоняются от старых политик.

8 термины

📂

подкатегории

Многоагентный глубокий RL

Расширение глубокого обучения с подкреплением, в котором несколько агентов обучаются одновременно, в сотрудничестве или в конкуренции в общей среде.

20 термины

📂

подкатегории

Иерархическое обучение с подкреплением

Подход, структурирующий обучение на иерархических уровнях с мета-политиками, контролирующими специализированные суб-политики.

20 термины

📂

подкатегории

Глубинное обучение с подкреплением на основе модели

Техника, при которой агент обучает модель среды для планирования и принятия более эффективных решений.

19 термины

📂

подкатегории

Дистрибуциональное RL

Парадигма, изучающая полное распределение вознаграждений, а не только их математическое ожидание, для большей устойчивости.

18 термины

📂

подкатегории

RL, основанное на любопытстве

Подход, в котором агент получает внутренние вознаграждения, основанные на его любопытстве, для эффективного исследования среды.

16 термины

📂

подкатегории

Мета-обучение в обучении с подкреплением

Техника, позволяющая агентам быстро обучаться новым задачам с небольшим количеством опыта.

18 термины

Глоссарий ИИ

Глубокие Q-сети (DQN)

Методы градиента политики

Методы Актор-Критик

Глубокий Детерминированный Градиент Политики (DDPG)

Проксимальная оптимизация политики (PPO)

Оптимизация политики с доверительной областью (TRPO)

Многоагентный глубокий RL

Иерархическое обучение с подкреплением

Глубинное обучение с подкреплением на основе модели

Дистрибуциональное RL

RL, основанное на любопытстве

Мета-обучение в обучении с подкреплением

Результаты не найдены