Обучение с помощью Dyna-Q
Модель вознаграждения
Изученная функция, которая предсказывает ожидаемое вознаграждение для каждой пары состояние-действие в среде обучения с подкреплением.
← НазадИзученная функция, которая предсказывает ожидаемое вознаграждение для каждой пары состояние-действие в среде обучения с подкреплением.
← Назад