🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📂
подкатегории

Глубокие Q-сети (DQN)

Пионерский алгоритм, объединяющий Q-обучение с глубокими нейронными сетями для аппроксимации Q-функции ценности в сложных пространствах состояний.

18 термины
📂
подкатегории

Методы градиента политики

Подходы обучения с подкреплением, которые напрямую оптимизируют политику, следуя градиенту ожидаемых вознаграждений.

18 термины
📂
подкатегории

Методы Актор-Критик

Гибридная архитектура, объединяющая актора, который обучает стратегию, и критика, который оценивает ценность состояний или действий.

8 термины
📂
подкатегории

Глубокий Детерминированный Градиент Политики (DDPG)

Off-policy алгоритм актор-критик для сред с непрерывными пространствами действий, использующий глубокие нейронные сети.

9 термины
📂
подкатегории

Проксимальная оптимизация политики (PPO)

Метод оптимизации политики, который поддерживает обновления в области доверия для обеспечения стабильности обучения.

11 термины
📂
подкатегории

Оптимизация политики с доверительной областью (TRPO)

Алгоритм ограниченной оптимизации, который гарантирует, что новые политики не слишком отклоняются от старых политик.

8 термины
📂
подкатегории

Многоагентный глубокий RL

Расширение глубокого обучения с подкреплением, в котором несколько агентов обучаются одновременно, в сотрудничестве или в конкуренции в общей среде.

20 термины
📂
подкатегории

Иерархическое обучение с подкреплением

Подход, структурирующий обучение на иерархических уровнях с мета-политиками, контролирующими специализированные суб-политики.

20 термины
📂
подкатегории

Глубинное обучение с подкреплением на основе модели

Техника, при которой агент обучает модель среды для планирования и принятия более эффективных решений.

19 термины
📂
подкатегории

Дистрибуциональное RL

Парадигма, изучающая полное распределение вознаграждений, а не только их математическое ожидание, для большей устойчивости.

18 термины
📂
подкатегории

RL, основанное на любопытстве

Подход, в котором агент получает внутренние вознаграждения, основанные на его любопытстве, для эффективного исследования среды.

16 термины
📂
подкатегории

Мета-обучение в обучении с подкреплением

Техника, позволяющая агентам быстро обучаться новым задачам с небольшим количеством опыта.

18 термины
🔍

Результаты не найдены