Методы адаптивного темпа обучения
AdaDelta
Расширение AdaGrad, решающее проблему монотонного убывания скорости обучения за счет использования скользящего окна прошлых градиентов вместо накопленной суммы.
← Назад