Глубинное обучение с подкреплением на основе модели

📖

термины

Глубинное обучение с подкреплением на основе модели

Подход обучения с подкреплением, при котором агент строит внутреннюю модель окружающей среды для симуляции и планирования своих действий, тем самым уменьшая необходимость реального взаимодействия с окружающей средой.

📖

термины

Модель мира

Полная нейронная репрезентация окружающей среды, одновременно изучающая динамику системы, скрытые состояния и вознаграждения, чтобы позволить агенту рассуждать в симулированном пространстве.

📖

термины

Управление с предиктивной моделью (MPC)

Стратегия управления, использующая изученную модель для оптимизации последовательности будущих действий на ограниченном временном горизонте, постоянно переоценивая оптимальный план на каждом временном шаге.

📖

термины

Архитектура Dyna

Фреймворк, интегрирующий прямое и непрямое обучение с подкреплением, где симулированные опыты, сгенерированные моделью, дополняют реальные данные для ускорения обучения.

📖

термины

Агенты с расширенным воображением (I2A)

Архитектура агента, сочетающая стандартную политику с воображаемым путём, использующим модель окружающей среды для предвосхищения будущих последствий перед принятием решения.

📖

термины

PlaNet

Алгоритм, изучающий модель динамики в компактном скрытом пространстве для решения задач непрерывного управления полностью через планирование, без явной политики.

📖

термины

Dreamer

Агент, изучающий мир в пространстве снов, где он тренируется на воображаемых траекториях для изучения поведений и ценностей полностью в скрытом пространстве.

📖

термины

MuZero

Революционный алгоритм, одновременно изучающий модель, политику и ценность без предварительного знания правил окружающей среды, сочетающий MCTS и глубокое обучение.

📖

термины

Latent Space Dynamics

Моделирование временной эволюции состояний в сжатом пространстве представлений, где динамика проще и стабильнее, чем в исходном пространстве наблюдений.

📖

термины

Model Uncertainty

Количественная оценка неопределенности модели среды, которая имеет решающее значение для определения областей, где модель надежна, и тех, что требуют дополнительного исследования или реального взаимодействия.

📖

термины

Model Ensemble

Техника, использующая несколько независимых моделей среды для оценки эпистемической неопределенности и повышения устойчивости прогнозов для планирования.

📖

термины

Planning with Learned Models

Процесс последовательного поиска, использующий изученную модель для оценки различных последовательностей будущих действий и выбора оптимальной в соответствии с прогнозами вознаграждения.

📖

термины

Model-Based Value Expansion (MVE)

Техника, использующая модель для экстраполяции возвратов за пределы реального горизонта, объединяющая реальные и смоделированные данные для более точной оценки долгосрочных ценностей.

📖

термины

Model-Based Policy Optimization (MBPO)

Гибридный алгоритм, использующий краткосрочные модели для генерации синтетических данных, поддерживая при этом набор реальных данных для стабилизации обучения стратегии.

📖

термины

Trajectory Optimization

Прямая оптимизация последовательностей состояний-действий с использованием градиента модели для поиска оптимальных траекторий, особенно эффективная для непрерывных систем.

📖

термины

Differentiable Physics Engines

Физические симуляторы, реализованные с помощью дифференцируемых операций, позволяющих распространять градиенты через симуляции для обучения с подкреплением на основе моделей.

📖

термины

Модель прямой динамики

Предиктивная модель, изучающая переход состояния s_{t+1} = f(s_t, a_t) для прогнозирования будущих последствий действий в среде.

📖

термины

Модель обратной динамики

Модель, обучающаяся выводить действие a_t = f^{-1}(s_t, s_{t+1}), которое привело из одного состояния в другое, полезная для обучения с имитацией и представления действий.

📖

термины

Исследование на основе модели

Стратегия исследования, использующая неопределенность модели для направления агента в состояния, где модель менее уверена, способствующая обучению более полного представления.

Глоссарий ИИ