Transformers Eficientes
Dilated Attention
Extensão da atenção de janela deslizante usando padrões dilatados para capturar dependências de longo alcance sem aumentar a complexidade. Os buracos no padrão permitem expansão exponencial do campo receptivo.
← Voltar