AI 詞彙表
人工智能完整詞典
Sparse Transformer
Variante utilisant des motifs d'attention éparses prédictifs pour réduire les connexions computationnelles tout en capturant les dépendances à longue distance. L'architecture factorise l'attention en sous-ensembles pour optimiser le traitement.
Compressive Transformer
Extension de Transformer-XL qui compresse les mémoires cachées anciennes en vecteurs plus denses pour préserver l'historique à long terme. Cette compression permet un stockage efficace d'informations contextuelles étendues.
Universal Transformer
Architecture adaptative où la profondeur est déterminée dynamiquement par un mécanisme d'arrêt adaptatif plutôt que fixe. Universal Transformer applique itérativement des transformations de poids partagés avec attention adaptative.
Set Transformer
Architecture permutation-invariant basée sur attention pour traiter des ensembles de données sans ordre prédéfini. Set Transformer utilise des blocs d'attention induite et des pooling mechanisms pour des opérations sur ensembles.
Synthesizer
Variante où les poids d'attention sont appris directement des embeddings de position ou générés par de petits réseaux, sans dépendre du contenu des tokens. Cette approche élimine le besoin de calculs de similarité QK.
Linear Transformer
Architecture utilisant la décomposition kernelisée de l'attention pour atteindre une complexité linéaire en séquence et mémoire. Linear Transformer remplace softmax par des fonctions kernel positives pour permettre le réordonnancement associatif.
Local Attention
Mécanisme d'attention restreint à des voisinages locaux autour de chaque position, réduisant drastiquement le nombre de paires de tokens à considérer. Cette approche est particulièrement efficace pour les données avec structure locale forte.
Dilated Attention
Extension de sliding window attention utilisant des motifs dilatés pour capturer des dépendances à plus longue portée sans augmenter la complexité. Les trous dans le pattern permettent une expansion exponentielle du champ réceptif.
Axial Attention
Décomposition de l'attention multidimensionnelle en attentions unidimensionnelles appliquées séquentiellement sur chaque axe. Axial attention réduit la complexité de O(n²) à O(n*d) où d est le nombre de dimensions.