Model-Based Offline RL
Консервативная оптимизация политики
Алгоритм, который явно штрафует политики, значительно отклоняющиеся от поведения обучающих данных, чтобы избежать ошибок экстраполяции.
← Назад