Optimización de Transformers
Paralelismo de Tensor
Técnica de paralelismo que divide los tensores de pesos individuales entre múltiples GPUs para permitir el entrenamiento de capas más grandes que la memoria de un solo dispositivo.
← Volver