Otimização de Transformer
Decaimento da Taxa de Aprendizagem por Camada
Estratégia de otimização aplicando taxas de aprendizagem diferentes de acordo com a profundidade das camadas, geralmente mais altas para as camadas superiores.
← Voltar