Atención eficiente
Memory Compressed Attention
Método que comprime las claves y los valores mediante una operación de pooling antes del cálculo de atención, reduciendo el tamaño de la matriz de atención y por tanto la complejidad computacional.
← Volver