Архитектура Encoder-Decoder
Косинусный Темп Обучения
Стратегия планирования темпа обучения, которая уменьшается по косинусной функции с начальной фазой разогрева, демонстрируя лучшую производительность сходимости для моделей Transformer.
← Назад