Transformer Optimization
Tensor Parallelism
Technique de parallélisme divisant les tenseurs de poids individuels entre plusieurs GPU pour permettre l'entraînement de couches plus larges que la mémoire d'un seul dispositif.
← Retour