Optimización de Transformers
Particionamiento del Estado del Optimizador
Método de distribución de memoria que particiona los estados del optimizador en múltiples GPUs para reducir significativamente la huella de memoria durante el entrenamiento.
← Volver