Momentum-based Optimization
LARS
Layer-wise Adaptive Rate Scaling qui adapte le taux d'apprentissage par couche en fonction du rapport entre la norme L2 des poids et des gradients pour entraînements à grande échelle.
← Retour