Оптимизация на основе импульса
LARS
Layer-wise Adaptive Rate Scaling, который адаптирует скорость обучения по слоям в зависимости от отношения L2-нормы весов к градиентам для крупномасштабного обучения.
← Назад