Оптимизация трансформеров
Послойное затухание скорости обучения
Стратегия оптимизации, применяющая разные скорости обучения в зависимости от глубины слоев, обычно более высокие для верхних слоев.
← Назад