Efficient Transformers - AI 术语表

📖

个术语

Sparse Transformer

Variante utilisant des motifs d'attention éparses prédictifs pour réduire les connexions computationnelles tout en capturant les dépendances à longue distance. L'architecture factorise l'attention en sous-ensembles pour optimiser le traitement.

📖

个术语

Compressive Transformer

Extension de Transformer-XL qui compresse les mémoires cachées anciennes en vecteurs plus denses pour préserver l'historique à long terme. Cette compression permet un stockage efficace d'informations contextuelles étendues.

📖

个术语

Universal Transformer

Architecture adaptative où la profondeur est déterminée dynamiquement par un mécanisme d'arrêt adaptatif plutôt que fixe. Universal Transformer applique itérativement des transformations de poids partagés avec attention adaptative.

📖

个术语

Set Transformer

Architecture permutation-invariant basée sur attention pour traiter des ensembles de données sans ordre prédéfini. Set Transformer utilise des blocs d'attention induite et des pooling mechanisms pour des opérations sur ensembles.

📖

个术语

Synthesizer

Variante où les poids d'attention sont appris directement des embeddings de position ou générés par de petits réseaux, sans dépendre du contenu des tokens. Cette approche élimine le besoin de calculs de similarité QK.

📖

个术语

Linear Transformer

Architecture utilisant la décomposition kernelisée de l'attention pour atteindre une complexité linéaire en séquence et mémoire. Linear Transformer remplace softmax par des fonctions kernel positives pour permettre le réordonnancement associatif.

📖

个术语

Local Attention

Mécanisme d'attention restreint à des voisinages locaux autour de chaque position, réduisant drastiquement le nombre de paires de tokens à considérer. Cette approche est particulièrement efficace pour les données avec structure locale forte.

📖

个术语

Dilated Attention

Extension de sliding window attention utilisant des motifs dilatés pour capturer des dépendances à plus longue portée sans augmenter la complexité. Les trous dans le pattern permettent une expansion exponentielle du champ réceptif.

📖

个术语

Axial Attention

Décomposition de l'attention multidimensionnelle en attentions unidimensionnelles appliquées séquentiellement sur chaque axe. Axial attention réduit la complexité de O(n²) à O(n*d) où d est le nombre de dimensions.

AI 词汇表