Transformer Optimization
Optimizer State Sharding
Méthode de distribution mémoire partitionnant les états de l'optimiseur sur plusieurs GPU pour réduire significativement l'empreinte mémoire pendant l'entraînement.
← 返回