Mixed Precision Computing
Gradient Accumulation in Mixed Precision
Technique où les gradients calculés en FP16 sont accumulés dans un buffer FP32 avant la mise à jour des poids, prévenant la perte de précision lors de l'agrégation sur plusieurs mini-batchs.
← ফিরে যান