Atenção Eficiente
Memory Compressed Attention
Método que comprime chaves e valores através de uma operação de pooling antes do cálculo da atenção, reduzindo o tamanho da matriz de atenção e, consequentemente, a complexidade computacional.
← Voltar