Model-Based Offline RL - Глоссарий ИИ

📖

термины

Модельный офлайн RL

Подход офлайн обучения с подкреплением, который изучает динамическую модель среды для генерации синтетических данных и улучшения политики без реального взаимодействия.

📖

термины

Воображаемые развертки

Симулированные траектории, генерируемые с использованием изученной модели среды для исследования потенциальных будущих состояний без реального взаимодействия со средой.

📖

термины

Консервативная оптимизация политики

Алгоритм, который явно штрафует политики, значительно отклоняющиеся от поведения обучающих данных, чтобы избежать ошибок экстраполяции.

📖

термины

Количественная оценка неопределенности

Техника оценки неопределенности динамической модели в областях вне распределения для управления исследованием и предотвращения катастрофических ошибок.

📖

термины

Ансамблевые модели

Коллекция нескольких динамических моделей, обученных с разными инициализациями для оценки эпистемической неопределенности через дисперсию предсказаний.

📖

термины

Трансформеры траекторий

Архитектура трансформера, моделирующая траектории как последовательности состояний, действий и наград для предсказания будущих переходов в офлайн обучении.

📖

термины

Офлайн-онлайн перенос

Процесс переноса политики, изученной офлайн, в онлайн-среду для доработки и непрерывной адаптации с реальным взаимодействием.

📖

термины

Ансамблирование моделей

Техника использования нескольких динамических моделей для захвата различных гипотез о переходе состояний и улучшения устойчивости предсказаний.

📖

термины

Взвешенная регрессия по преимуществу

Офлайн-метод, который взвешивает действия в обучающих данных согласно их оцененному преимуществу для улучшения политики за пределами простого клонирования.

📖

термины

Обнаружение внераспределенных данных

Механизм для идентификации случаев, когда состояния, генерируемые моделью, значительно отклоняются от распределения исходных обучающих данных.

Глоссарий ИИ

Модельный офлайн RL

Воображаемые развертки

Консервативная оптимизация политики

Количественная оценка неопределенности

Ансамблевые модели

Трансформеры траекторий

Офлайн-онлайн перенос

Ансамблирование моделей

Взвешенная регрессия по преимуществу

Обнаружение внераспределенных данных

Результаты не найдены