Обучение с помощью Dyna-Q
Функция планирования
Алгоритмический компонент, выполняющий повторяющиеся обновления на сохранённых опытах для уточнения оценок ценности без нового взаимодействия со средой.
← Назад