Efficient Transformers - AI 詞彙表

📖

術語

Sparse Transformer

Variante utilisant des motifs d'attention éparses prédictifs pour réduire les connexions computationnelles tout en capturant les dépendances à longue distance. L'architecture factorise l'attention en sous-ensembles pour optimiser le traitement.

📖

術語

Compressive Transformer

Extension de Transformer-XL qui compresse les mémoires cachées anciennes en vecteurs plus denses pour préserver l'historique à long terme. Cette compression permet un stockage efficace d'informations contextuelles étendues.

📖

術語

Universal Transformer

Architecture adaptative où la profondeur est déterminée dynamiquement par un mécanisme d'arrêt adaptatif plutôt que fixe. Universal Transformer applique itérativement des transformations de poids partagés avec attention adaptative.

📖

術語

Set Transformer

Architecture permutation-invariant basée sur attention pour traiter des ensembles de données sans ordre prédéfini. Set Transformer utilise des blocs d'attention induite et des pooling mechanisms pour des opérations sur ensembles.

📖

術語

Synthesizer

Variante où les poids d'attention sont appris directement des embeddings de position ou générés par de petits réseaux, sans dépendre du contenu des tokens. Cette approche élimine le besoin de calculs de similarité QK.

📖

術語

Linear Transformer

Architecture utilisant la décomposition kernelisée de l'attention pour atteindre une complexité linéaire en séquence et mémoire. Linear Transformer remplace softmax par des fonctions kernel positives pour permettre le réordonnancement associatif.

📖

術語

Local Attention

Mécanisme d'attention restreint à des voisinages locaux autour de chaque position, réduisant drastiquement le nombre de paires de tokens à considérer. Cette approche est particulièrement efficace pour les données avec structure locale forte.

📖

術語

Dilated Attention

Extension de sliding window attention utilisant des motifs dilatés pour capturer des dépendances à plus longue portée sans augmenter la complexité. Les trous dans le pattern permettent une expansion exponentielle du champ réceptif.

📖

術語

Axial Attention

Décomposition de l'attention multidimensionnelle en attentions unidimensionnelles appliquées séquentiellement sur chaque axe. Axial attention réduit la complexité de O(n²) à O(n*d) où d est le nombre de dimensions.

AI 詞彙表