Обучение с помощью Dyna-Q
Сходимость алгоритма
Свойство, гарантирующее, что оценки значений Dyna-Q сходятся к оптимальным значениям при определенных условиях точной модели и бесконечного посещения.
← Назад