Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Relative Position Encoding
Technode d'encodage positionnel basé sur les distances relatives entre tokens plutôt que sur leurs positions absolues. Améliore la capacité de généralisation du modèle à des longueurs de séquence non vues pendant l'entraînement.
Rotary Position Embedding (RoPE)
Méthode d'encodage positionnel appliquant une rotation matricielle aux embeddings de requêtes et clés en fonction de leurs positions. Intègre naturellement l'information positionnelle dans le mécanisme d'attention sans ajouter de paramètres.
Linear Attention
Famille de mécanismes d'attention avec complexité linéaire O(n) utilisant des décompositions matricielles ou des noyaux pour éviter le calcul explicite de la matrice d'attention. Permet de traiter des séquences très longues avec une efficacité computationnelle accrue.
Longformer Attention
Architecture hybride combinant attention locale par fenêtre glissante et attention globale pour certains tokens. Permet de traiter des documents de plusieurs milliers de tokens avec complexité linéaire.
BigBird Attention
Mécanisme d'attention sparse combinant trois types de connexions : aléatoires, locales et globales pour approcher l'attention complète. Théoriquement prouvée comme approximant universel pour les graphes complets avec complexité linéaire.
Reformer Attention
Implémentation efficace utilisant LSH (Locality Sensitive Hashing) pour limiter l'attention aux tokens similaires seulement. Réduit drastiquement la complexité tout en préservant les relations sémantiques importantes.
Linformer Attention
Projection de basse dimension des matrices clés et valeurs pour réduire la complexité de O(n²) à O(n). Basé sur l'hypothèse que les matrices d'attention ont un rang faible dans de nombreux scénarios pratiques.
Kernel Attention
Approche remplaçant le softmax par des fonctions noyau positives pour obtenir une complexité linéaire. Permet des approximations efficaces tout en préservant les propriétés mathématiques de l'attention.
Adaptive Attention Span
Mécanisme où chaque tête d'attention apprend dynamiquement sa portée optimale pendant l'entraînement. Optimise l'utilisation computationnelle en concentrant l'attention là où elle est nécessaire selon les patterns appris.