Стохастический градиентный спуск
RAdam
Выправленный вариант Адама, который исправляет дисперсию адаптивных весов во время начальных фаз разогрева обучения. RAdam объединяет теоретические преимущества SGD с практической производительностью Адама, обеспечивая более стабильную сходимость в начале обучения.
← Назад