Обучение с помощью Dyna-Q
Dyna-Q
Гибридный алгоритм обучения с подкреплением, объединяющий прямое обучение на основе реального опыта и планирование с использованием изученной модели для генерации дополнительного моделируемого опыта.
← Назад