Attention Mechanisms Variants

📖

termes

Relative Position Encoding

Technode d'encodage positionnel basé sur les distances relatives entre tokens plutôt que sur leurs positions absolues. Améliore la capacité de généralisation du modèle à des longueurs de séquence non vues pendant l'entraînement.

📖

termes

Rotary Position Embedding (RoPE)

Méthode d'encodage positionnel appliquant une rotation matricielle aux embeddings de requêtes et clés en fonction de leurs positions. Intègre naturellement l'information positionnelle dans le mécanisme d'attention sans ajouter de paramètres.

📖

termes

Linear Attention

Famille de mécanismes d'attention avec complexité linéaire O(n) utilisant des décompositions matricielles ou des noyaux pour éviter le calcul explicite de la matrice d'attention. Permet de traiter des séquences très longues avec une efficacité computationnelle accrue.

📖

termes

Longformer Attention

Architecture hybride combinant attention locale par fenêtre glissante et attention globale pour certains tokens. Permet de traiter des documents de plusieurs milliers de tokens avec complexité linéaire.

📖

termes

BigBird Attention

Mécanisme d'attention sparse combinant trois types de connexions : aléatoires, locales et globales pour approcher l'attention complète. Théoriquement prouvée comme approximant universel pour les graphes complets avec complexité linéaire.

📖

termes

Reformer Attention

Implémentation efficace utilisant LSH (Locality Sensitive Hashing) pour limiter l'attention aux tokens similaires seulement. Réduit drastiquement la complexité tout en préservant les relations sémantiques importantes.

📖

termes

Linformer Attention

Projection de basse dimension des matrices clés et valeurs pour réduire la complexité de O(n²) à O(n). Basé sur l'hypothèse que les matrices d'attention ont un rang faible dans de nombreux scénarios pratiques.

📖

termes

Kernel Attention

Approche remplaçant le softmax par des fonctions noyau positives pour obtenir une complexité linéaire. Permet des approximations efficaces tout en préservant les propriétés mathématiques de l'attention.

📖

termes

Adaptive Attention Span

Mécanisme où chaque tête d'attention apprend dynamiquement sa portée optimale pendant l'entraînement. Optimise l'utilisation computationnelle en concentrant l'attention là où elle est nécessaire selon les patterns appris.

Glossaire IA

Relative Position Encoding

Rotary Position Embedding (RoPE)

Linear Attention

Longformer Attention

BigBird Attention

Reformer Attention

Linformer Attention

Kernel Attention

Adaptive Attention Span

Aucun résultat trouvé