🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Decision Transformer

Архитектура трансформера, которая моделирует офлайн обучение с подкреплением как задачу последовательность-к-последовательности, предсказывая будущие действия на основе прошлых состояний и кумулятивных вознаграждений.

📖
термины

Trajectory Modeling

Подход, заключающийся в моделировании полных траекторий (состояния, действия, награды) как непрерывных последовательностей для обучения политик в офлайн RL.

📖
термины

GPT-like Architecture

Структура нейронной сети на основе декодера трансформера с каузальным вниманием, адаптированная для авторегрессионного предсказания в задачах с последовательностями.

📖
термины

Policy Extraction

Процесс выведения решающей политики из обученной последовательностной модели, где трансформер генерирует действия, обусловленные состояниями и желаемыми вознаграждениями.

📖
термины

Action Prediction

Основная задача Decision Transformer, заключающаяся в предсказании оптимального действия на шаге t+1 при заданном состоянии t и желаемом возврате в будущее.

📖
термины

State Representation

Векторное кодирование состояния среды, интегрированное во входную последовательность трансформера, захватывающее релевантную информацию для принятия решений.

📖
термины

Trajectory Transformer

Вариант Decision Transformer, явно моделирующий совместное распределение по полным траекториям для генерации согласованных последовательностей действий.

📖
термины

Context Length

Максимальное количество токенов (состояния, действия, награды), которые трансформер может обрабатывать одновременно в своем окне внимания.

📖
термины

Декодер Трансформера

Основной компонент Decision Transformer, использующий маскированное внимание для последовательного генерирования будущих действий.

📖
термины

Условное Последовательное Обучение

Стратегия, при которой будущие предсказания обусловлены полной последовательностью прошлых событий, а не только текущим состоянием.

📖
термины

Офлайн Датасет

Статический набор данных, содержащий траектории (состояния, действия, награды), собранные поведенческой политикой и используемые для офлайн обучения.

🔍

Результаты не найдены