Офлайн обучение с подкреплением

📂

подкатегории

Консервативное Q-обучение (CQL)

Метод, который штрафует завышенные значения Q для поддержания политики близкой к распределению данных.

18 термины

📂

подкатегории

Batch Constrained Q-learning (BCQ)

Подход, который ограничивает действия, чтобы они оставались близкими к наблюдаемым в наборе данных, чтобы избежать смещения распределения.

17 термины

📂

подкатегории

Decision Transformer

Архитектура трансформера, которая рассматривает офлайн-обучение с подкреплением как проблему последовательности-последовательности.

11 термины

📂

подкатегории

Неявное Q-обучение (IQL)

Метод, который неявно изучает Q-функцию без необходимости явного оператора максимума.

13 термины

📂

подкатегории

Model-Based Offline RL

Подход, использующий изученные модели среды для улучшения выборки вне распределения.

10 термины

📂

подкатегории

Офлайн-онлайн трансферное обучение

Методы эффективного переноса офлайн-обучения в онлайн-среду.

6 термины

📂

подкатегории

Распределительное обучение с подкреплением офлайн

Методы, моделирующие полное распределение возвратов, а не только их математическое ожидание.

13 термины

📂

подкатегории

Безопасное обучение с подкреплением в автономном режиме

Подходы, гарантирующие безопасность при развертывании политик, изученных исключительно на статических данных.

11 термины

📂

подкатегории

Неопределенность-осознанное обучение с подкреплением вне сети

Методы, оценивающие эпистемическую неопределенность для избежания действий вне распределения.

17 термины

📂

подкатегории

Trajectory Transformer

Трансформерная модель, которая генерирует полные траектории, изучая распределение последовательностей состояние-действие-вознаграждение.

6 термины

📂

подкатегории

Преимущественно-Взвешенная Регрессия (AWR)

Подход, взвешивающий регрессии по преимуществу для улучшения выбора действий вне распределения.

11 термины

📂

подкатегории

Офлайн многозадачное обучение с подкреплением

Парадигма одновременного обучения нескольким задачам из общих пакетных наборов данных.

18 термины

Глоссарий ИИ

Консервативное Q-обучение (CQL)

Batch Constrained Q-learning (BCQ)

Decision Transformer

Неявное Q-обучение (IQL)

Model-Based Offline RL

Офлайн-онлайн трансферное обучение

Распределительное обучение с подкреплением офлайн

Безопасное обучение с подкреплением в автономном режиме

Неопределенность-осознанное обучение с подкреплением вне сети

Trajectory Transformer

Преимущественно-Взвешенная Регрессия (AWR)

Офлайн многозадачное обучение с подкреплением

Результаты не найдены