Глубокая оптимизация
RAdam (Rectified Adam)
Вариант Adam, который исправляет дисперсию адаптации скорости обучения на начальных этапах обучения, обеспечивая более стабильную сходимость без необходимости фазы разогрева (warmup).
← Назад