Efficient Transformers
Universal Transformer
Architecture adaptative où la profondeur est déterminée dynamiquement par un mécanisme d'arrêt adaptatif plutôt que fixe. Universal Transformer applique itérativement des transformations de poids partagés avec attention adaptative.
← 返回