Глоссарий ИИ
Полный словарь искусственного интеллекта
Decision Transformer
Архитектура трансформера, которая моделирует офлайн обучение с подкреплением как задачу последовательность-к-последовательности, предсказывая будущие действия на основе прошлых состояний и кумулятивных вознаграждений.
Trajectory Modeling
Подход, заключающийся в моделировании полных траекторий (состояния, действия, награды) как непрерывных последовательностей для обучения политик в офлайн RL.
GPT-like Architecture
Структура нейронной сети на основе декодера трансформера с каузальным вниманием, адаптированная для авторегрессионного предсказания в задачах с последовательностями.
Policy Extraction
Процесс выведения решающей политики из обученной последовательностной модели, где трансформер генерирует действия, обусловленные состояниями и желаемыми вознаграждениями.
Action Prediction
Основная задача Decision Transformer, заключающаяся в предсказании оптимального действия на шаге t+1 при заданном состоянии t и желаемом возврате в будущее.
State Representation
Векторное кодирование состояния среды, интегрированное во входную последовательность трансформера, захватывающее релевантную информацию для принятия решений.
Trajectory Transformer
Вариант Decision Transformer, явно моделирующий совместное распределение по полным траекториям для генерации согласованных последовательностей действий.
Context Length
Максимальное количество токенов (состояния, действия, награды), которые трансформер может обрабатывать одновременно в своем окне внимания.
Декодер Трансформера
Основной компонент Decision Transformer, использующий маскированное внимание для последовательного генерирования будущих действий.
Условное Последовательное Обучение
Стратегия, при которой будущие предсказания обусловлены полной последовательностью прошлых событий, а не только текущим состоянием.
Офлайн Датасет
Статический набор данных, содержащий траектории (состояния, действия, награды), собранные поведенческой политикой и используемые для офлайн обучения.