Глоссарий ИИ
Полный словарь искусственного интеллекта
Консервативное Q-обучение (CQL)
Метод, который штрафует завышенные значения Q для поддержания политики близкой к распределению данных.
Batch Constrained Q-learning (BCQ)
Подход, который ограничивает действия, чтобы они оставались близкими к наблюдаемым в наборе данных, чтобы избежать смещения распределения.
Decision Transformer
Архитектура трансформера, которая рассматривает офлайн-обучение с подкреплением как проблему последовательности-последовательности.
Неявное Q-обучение (IQL)
Метод, который неявно изучает Q-функцию без необходимости явного оператора максимума.
Model-Based Offline RL
Подход, использующий изученные модели среды для улучшения выборки вне распределения.
Офлайн-онлайн трансферное обучение
Методы эффективного переноса офлайн-обучения в онлайн-среду.
Распределительное обучение с подкреплением офлайн
Методы, моделирующие полное распределение возвратов, а не только их математическое ожидание.
Безопасное обучение с подкреплением в автономном режиме
Подходы, гарантирующие безопасность при развертывании политик, изученных исключительно на статических данных.
Неопределенность-осознанное обучение с подкреплением вне сети
Методы, оценивающие эпистемическую неопределенность для избежания действий вне распределения.
Trajectory Transformer
Трансформерная модель, которая генерирует полные траектории, изучая распределение последовательностей состояние-действие-вознаграждение.
Преимущественно-Взвешенная Регрессия (AWR)
Подход, взвешивающий регрессии по преимуществу для улучшения выбора действий вне распределения.
Офлайн многозадачное обучение с подкреплением
Парадигма одновременного обучения нескольким задачам из общих пакетных наборов данных.