Decision Transformer

📖

термины

Архитектура трансформера, которая моделирует офлайн обучение с подкреплением как задачу последовательность-к-последовательности, предсказывая будущие действия на основе прошлых состояний и кумулятивных вознаграждений.

📖

термины

Trajectory Modeling

Подход, заключающийся в моделировании полных траекторий (состояния, действия, награды) как непрерывных последовательностей для обучения политик в офлайн RL.

📖

термины

GPT-like Architecture

Структура нейронной сети на основе декодера трансформера с каузальным вниманием, адаптированная для авторегрессионного предсказания в задачах с последовательностями.

📖

термины

Policy Extraction

Процесс выведения решающей политики из обученной последовательностной модели, где трансформер генерирует действия, обусловленные состояниями и желаемыми вознаграждениями.

📖

термины

Action Prediction

Основная задача Decision Transformer, заключающаяся в предсказании оптимального действия на шаге t+1 при заданном состоянии t и желаемом возврате в будущее.

📖

термины

State Representation

Векторное кодирование состояния среды, интегрированное во входную последовательность трансформера, захватывающее релевантную информацию для принятия решений.

📖

термины

Trajectory Transformer

Вариант Decision Transformer, явно моделирующий совместное распределение по полным траекториям для генерации согласованных последовательностей действий.

📖

термины

Context Length

Максимальное количество токенов (состояния, действия, награды), которые трансформер может обрабатывать одновременно в своем окне внимания.

📖

термины

Декодер Трансформера

Основной компонент Decision Transformer, использующий маскированное внимание для последовательного генерирования будущих действий.

📖

термины

Условное Последовательное Обучение

Стратегия, при которой будущие предсказания обусловлены полной последовательностью прошлых событий, а не только текущим состоянием.

📖

термины

Офлайн Датасет

Статический набор данных, содержащий траектории (состояния, действия, награды), собранные поведенческой политикой и используемые для офлайн обучения.

Глоссарий ИИ