Transformers Eficientes
Sparse Transformer
Variante que usa padrões de atenção esparsos preditivos para reduzir as conexões computacionais enquanto captura dependências de longa distância. A arquitetura fatoriza a atenção em subconjuntos para otimizar o processamento.
← Voltar