Otimização de Transformer
Acumulação de Gradiente
Método que simula um tamanho de batch maior acumulando gradientes em múltiplas passagens forward antes de atualizar os pesos do modelo.
← VoltarMétodo que simula um tamanho de batch maior acumulando gradientes em múltiplas passagens forward antes de atualizar os pesos do modelo.
← Voltar