Arquitetura Encoder-Decoder
Taxa de Aprendizagem Cosseno
Estratégia de agendamento da taxa de aprendizagem que decresce de acordo com uma função cosseno, com uma fase de aquecimento inicial, mostrando melhor desempenho de convergência para modelos Transformer.
← Voltar