Глоссарий ИИ
Полный словарь искусственного интеллекта
Модельный офлайн RL
Подход офлайн обучения с подкреплением, который изучает динамическую модель среды для генерации синтетических данных и улучшения политики без реального взаимодействия.
Воображаемые развертки
Симулированные траектории, генерируемые с использованием изученной модели среды для исследования потенциальных будущих состояний без реального взаимодействия со средой.
Консервативная оптимизация политики
Алгоритм, который явно штрафует политики, значительно отклоняющиеся от поведения обучающих данных, чтобы избежать ошибок экстраполяции.
Количественная оценка неопределенности
Техника оценки неопределенности динамической модели в областях вне распределения для управления исследованием и предотвращения катастрофических ошибок.
Ансамблевые модели
Коллекция нескольких динамических моделей, обученных с разными инициализациями для оценки эпистемической неопределенности через дисперсию предсказаний.
Трансформеры траекторий
Архитектура трансформера, моделирующая траектории как последовательности состояний, действий и наград для предсказания будущих переходов в офлайн обучении.
Офлайн-онлайн перенос
Процесс переноса политики, изученной офлайн, в онлайн-среду для доработки и непрерывной адаптации с реальным взаимодействием.
Ансамблирование моделей
Техника использования нескольких динамических моделей для захвата различных гипотез о переходе состояний и улучшения устойчивости предсказаний.
Взвешенная регрессия по преимуществу
Офлайн-метод, который взвешивает действия в обучающих данных согласно их оцененному преимуществу для улучшения политики за пределами простого клонирования.
Обнаружение внераспределенных данных
Механизм для идентификации случаев, когда состояния, генерируемые моделью, значительно отклоняются от распределения исходных обучающих данных.