Architecture Encoder-Decoder
Taux d'Apprentissage Cosinus
Stratégie de planification du taux d'apprentissage qui décroît selon une fonction cosinus, avec une phase d'échauffement initiale, montrant de meilleures performances de convergence pour les modèles Transformer.
← Wstecz