Optimización de Transformers
Acumulación de Gradiente
Método que simula un tamaño de lote más grande acumulando gradientes en múltiples pasadas hacia adelante antes de actualizar los pesos del modelo.
← Volver