Методы адаптивного темпа обучения
YOGI
Вариант Adam, использующий адаптивный контроллер дисперсии для стабилизации обучения, особенно эффективен, когда данные имеют нестационарные распределения или зашумленные градиенты.
← Назад