Глоссарий ИИ
Полный словарь искусственного интеллекта
Глубинное обучение с подкреплением на основе модели
Подход обучения с подкреплением, при котором агент строит внутреннюю модель окружающей среды для симуляции и планирования своих действий, тем самым уменьшая необходимость реального взаимодействия с окружающей средой.
Модель мира
Полная нейронная репрезентация окружающей среды, одновременно изучающая динамику системы, скрытые состояния и вознаграждения, чтобы позволить агенту рассуждать в симулированном пространстве.
Управление с предиктивной моделью (MPC)
Стратегия управления, использующая изученную модель для оптимизации последовательности будущих действий на ограниченном временном горизонте, постоянно переоценивая оптимальный план на каждом временном шаге.
Архитектура Dyna
Фреймворк, интегрирующий прямое и непрямое обучение с подкреплением, где симулированные опыты, сгенерированные моделью, дополняют реальные данные для ускорения обучения.
Агенты с расширенным воображением (I2A)
Архитектура агента, сочетающая стандартную политику с воображаемым путём, использующим модель окружающей среды для предвосхищения будущих последствий перед принятием решения.
PlaNet
Алгоритм, изучающий модель динамики в компактном скрытом пространстве для решения задач непрерывного управления полностью через планирование, без явной политики.
Dreamer
Агент, изучающий мир в пространстве снов, где он тренируется на воображаемых траекториях для изучения поведений и ценностей полностью в скрытом пространстве.
MuZero
Революционный алгоритм, одновременно изучающий модель, политику и ценность без предварительного знания правил окружающей среды, сочетающий MCTS и глубокое обучение.
Latent Space Dynamics
Моделирование временной эволюции состояний в сжатом пространстве представлений, где динамика проще и стабильнее, чем в исходном пространстве наблюдений.
Model Uncertainty
Количественная оценка неопределенности модели среды, которая имеет решающее значение для определения областей, где модель надежна, и тех, что требуют дополнительного исследования или реального взаимодействия.
Model Ensemble
Техника, использующая несколько независимых моделей среды для оценки эпистемической неопределенности и повышения устойчивости прогнозов для планирования.
Planning with Learned Models
Процесс последовательного поиска, использующий изученную модель для оценки различных последовательностей будущих действий и выбора оптимальной в соответствии с прогнозами вознаграждения.
Model-Based Value Expansion (MVE)
Техника, использующая модель для экстраполяции возвратов за пределы реального горизонта, объединяющая реальные и смоделированные данные для более точной оценки долгосрочных ценностей.
Model-Based Policy Optimization (MBPO)
Гибридный алгоритм, использующий краткосрочные модели для генерации синтетических данных, поддерживая при этом набор реальных данных для стабилизации обучения стратегии.
Trajectory Optimization
Прямая оптимизация последовательностей состояний-действий с использованием градиента модели для поиска оптимальных траекторий, особенно эффективная для непрерывных систем.
Differentiable Physics Engines
Физические симуляторы, реализованные с помощью дифференцируемых операций, позволяющих распространять градиенты через симуляции для обучения с подкреплением на основе моделей.
Модель прямой динамики
Предиктивная модель, изучающая переход состояния s_{t+1} = f(s_t, a_t) для прогнозирования будущих последствий действий в среде.
Модель обратной динамики
Модель, обучающаяся выводить действие a_t = f^{-1}(s_t, s_{t+1}), которое привело из одного состояния в другое, полезная для обучения с имитацией и представления действий.
Исследование на основе модели
Стратегия исследования, использующая неопределенность модели для направления агента в состояния, где модель менее уверена, способствующая обучению более полного представления.