Transformer Optimization
Gradient Accumulation
Méthode simulant un batch size plus grand en accumulant les gradients sur plusieurs forward passes avant de mettre à jour les poids du modèle.
← Retour