Atenção Esparsa
Atenção baseada em Kernel
Abordagem que utiliza kernels para aproximar a atenção softmax, permitindo cálculos com complexidade linear através de técnicas como FAVOR+ (Fast Attention Via Positive Orthogonal Random Features).
← Voltar