Обучение с подкреплением для оптимизации
Память Воспроизведения Опыта
Структура данных, хранящая переходы (состояние, действие, вознаграждение, следующее состояние) для повторной выборки во время обучения, повышая эффективность использования данных.
← Назад