Transformadores Eficientes
Synthesizer
Variante donde los pesos de atención se aprenden directamente de los embeddings de posición o se generan mediante pequeñas redes, sin depender del contenido de los tokens. Este enfoque elimina la necesidad de cálculos de similitud QK.
← Volver