Методы адаптивного темпа обучения
AdaGrad
Алгоритм оптимизации, который адаптирует скорость обучения каждого параметра на основе исторической суммы квадратов градиентов, позволяя выполнять большие обновления для редких параметров.
← Назад