🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Глубинное обучение с подкреплением на основе модели

Подход обучения с подкреплением, при котором агент строит внутреннюю модель окружающей среды для симуляции и планирования своих действий, тем самым уменьшая необходимость реального взаимодействия с окружающей средой.

📖
термины

Модель мира

Полная нейронная репрезентация окружающей среды, одновременно изучающая динамику системы, скрытые состояния и вознаграждения, чтобы позволить агенту рассуждать в симулированном пространстве.

📖
термины

Управление с предиктивной моделью (MPC)

Стратегия управления, использующая изученную модель для оптимизации последовательности будущих действий на ограниченном временном горизонте, постоянно переоценивая оптимальный план на каждом временном шаге.

📖
термины

Архитектура Dyna

Фреймворк, интегрирующий прямое и непрямое обучение с подкреплением, где симулированные опыты, сгенерированные моделью, дополняют реальные данные для ускорения обучения.

📖
термины

Агенты с расширенным воображением (I2A)

Архитектура агента, сочетающая стандартную политику с воображаемым путём, использующим модель окружающей среды для предвосхищения будущих последствий перед принятием решения.

📖
термины

PlaNet

Алгоритм, изучающий модель динамики в компактном скрытом пространстве для решения задач непрерывного управления полностью через планирование, без явной политики.

📖
термины

Dreamer

Агент, изучающий мир в пространстве снов, где он тренируется на воображаемых траекториях для изучения поведений и ценностей полностью в скрытом пространстве.

📖
термины

MuZero

Революционный алгоритм, одновременно изучающий модель, политику и ценность без предварительного знания правил окружающей среды, сочетающий MCTS и глубокое обучение.

📖
термины

Latent Space Dynamics

Моделирование временной эволюции состояний в сжатом пространстве представлений, где динамика проще и стабильнее, чем в исходном пространстве наблюдений.

📖
термины

Model Uncertainty

Количественная оценка неопределенности модели среды, которая имеет решающее значение для определения областей, где модель надежна, и тех, что требуют дополнительного исследования или реального взаимодействия.

📖
термины

Model Ensemble

Техника, использующая несколько независимых моделей среды для оценки эпистемической неопределенности и повышения устойчивости прогнозов для планирования.

📖
термины

Planning with Learned Models

Процесс последовательного поиска, использующий изученную модель для оценки различных последовательностей будущих действий и выбора оптимальной в соответствии с прогнозами вознаграждения.

📖
термины

Model-Based Value Expansion (MVE)

Техника, использующая модель для экстраполяции возвратов за пределы реального горизонта, объединяющая реальные и смоделированные данные для более точной оценки долгосрочных ценностей.

📖
термины

Model-Based Policy Optimization (MBPO)

Гибридный алгоритм, использующий краткосрочные модели для генерации синтетических данных, поддерживая при этом набор реальных данных для стабилизации обучения стратегии.

📖
термины

Trajectory Optimization

Прямая оптимизация последовательностей состояний-действий с использованием градиента модели для поиска оптимальных траекторий, особенно эффективная для непрерывных систем.

📖
термины

Differentiable Physics Engines

Физические симуляторы, реализованные с помощью дифференцируемых операций, позволяющих распространять градиенты через симуляции для обучения с подкреплением на основе моделей.

📖
термины

Модель прямой динамики

Предиктивная модель, изучающая переход состояния s_{t+1} = f(s_t, a_t) для прогнозирования будущих последствий действий в среде.

📖
термины

Модель обратной динамики

Модель, обучающаяся выводить действие a_t = f^{-1}(s_t, s_{t+1}), которое привело из одного состояния в другое, полезная для обучения с имитацией и представления действий.

📖
термины

Исследование на основе модели

Стратегия исследования, использующая неопределенность модели для направления агента в состояния, где модель менее уверена, способствующая обучению более полного представления.

🔍

Результаты не найдены