Efficient Transformers
Synthesizer
Variante où les poids d'attention sont appris directement des embeddings de position ou générés par de petits réseaux, sans dépendre du contenu des tokens. Cette approche élimine le besoin de calculs de similarité QK.
← Retour