Transformer Optimization
Layer-wise Learning Rate Decay
Stratégie d'optimisation appliquant des taux d'apprentissage différents selon la profondeur des couches, généralement plus élevés pour les couches supérieures.
← Retour