Обучение с подкреплением для оптимизации
Алгоритм SARSA
Алгоритм обучения с подкреплением по политике, который обновляет Q-значения на основе последовательности Состояние-Действие-Вознаграждение-Состояние-Действие, в отличие от Q-обучения.
← Назад