Redes Feed-Forward
Normalização de Camada Interna
Aplicação da normalização de camada antes ou depois do FFN na arquitetura Transformer, com variantes pré-norm e pós-norm afetando a estabilidade do treinamento.
← Voltar