Sparse Attention - Glossaire IA

📖

termes

Longformer

Architecture Transformer utilisant une combinaison d'attention locale par fenêtre glissante et d'attention globale pour traiter efficacement des séquences très longues avec complexité linéaire.

📖

termes

Modèle implémentant l'attention sparse à travers trois motifs : attention locale, globale et aléatoire, permettant le traitement de séquences jusqu'à 4096 tokens avec préservation théorique des propriétés universelles.

📖

termes

Sliding Window Attention

Technique où chaque token n'attend qu'à un nombre fixe de voisins dans une fenêtre glissante, réduisant la complexité à O(n*w) où w est la taille de la fenêtre.

📖

termes

Dilated Sliding Window

Variante de l'attention par fenêtre glissante utilisant des sauts (dilatation) pour augmenter le champ récepteur sans augmenter la complexité computationnelle.

📖

termes

Global Attention

Mécanisme où certains tokens prédéfinis (comme tokens [CLS]) peuvent attirer l'attention de tous les autres tokens, permettant la propagation d'information à travers toute la séquence.

📖

termes

Random Attention

Approche où chaque token attire aléatoirement l'attention sur un sous-ensemble de tokens distants, préservant les connexions longue distance avec faible surcoût computationnel.

📖

termes

Pattern-based Attention

Stratégie appliquant des motifs prédéfinis d'attention sparse (comme motifs fixes ou appris) pour déterminer quelles paires requête-clé calculer.

📖

termes

Linear Complexity Attention

Classe de méthodes d'attention réduisant la complexité algorithmique de O(n²) à O(n), permettant le passage à l'échelle pour des séquences très longues.

📖

termes

Kernel-based Attention

Approche utilisant des noyaux pour approximer l'attention softmax, permettant des calculs en complexité linéaire via des techniques comme FAVOR+ (Fast Attention Via Positive Orthogonal Random Features).

📖

termes

Low-rank Approximation

Technique approximant la matrice d'attention par une décomposition en rang réduit, réduisant significativement les besoins en mémoire et en calcul.

📖

termes

Clustering-based Attention

Méthode groupant d'abord les tokens en clusters similaires puis appliquant l'attention au niveau des clusters, réduisant le nombre de calculs requis.

📖

termes

Routing Attention

Mécanisme apprenant à router les requêtes vers les clés les plus pertinentes en utilisant des fonctions de routage basées sur le contenu, évitant les calculs inutiles.

📖

termes

Reformer

Architecture utilisant la sensibilité à la localité (LSH) pour limiter les calculs d'attention aux paires les plus similaires, avec complexité quasi-linéaire en longueur de séquence.

📖

termes

Performer

Modèle basé sur l'attention FAVOR+ approximant efficacement l'attention softmax via des caractéristiques aléatoires orthogonales positives, permettant complexité linéaire.

📖

termes

Linformer

Architecture projetant la matrice clé-valeur dans un espace de dimension inférieure, transformant la complexité de O(n²) à O(n*k) où k << n.

📖

termes

Routing Transformer

Modèle utilisant un routage basé sur k-means pour regrouper les tokens et appliquer l'attention sélectivement, optimisant les calculs pour les dépendances longue distance.

📖

termes

Sinkhorn Sorting

Algorithme utilisant l'itération de Sinkhorn pour transformer l'attention en permutation différentiable, appliqué dans les architectures d'attention sparse.

📖

termes

Efficient Attention

Paradigme englobant toutes les variantes d'attention visant à réduire la complexité computationnelle tout en préservant les capacités de modélisation des Transformers.

Glossaire IA

Longformer

BigBird

Sliding Window Attention

Dilated Sliding Window

Global Attention

Random Attention

Pattern-based Attention

Linear Complexity Attention

Kernel-based Attention

Low-rank Approximation

Clustering-based Attention

Routing Attention

Reformer

Performer

Linformer

Routing Transformer

Sinkhorn Sorting

Efficient Attention

Aucun résultat trouvé