Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Longformer
Architecture Transformer utilisant une combinaison d'attention locale par fenêtre glissante et d'attention globale pour traiter efficacement des séquences très longues avec complexité linéaire.
BigBird
Modèle implémentant l'attention sparse à travers trois motifs : attention locale, globale et aléatoire, permettant le traitement de séquences jusqu'à 4096 tokens avec préservation théorique des propriétés universelles.
Sliding Window Attention
Technique où chaque token n'attend qu'à un nombre fixe de voisins dans une fenêtre glissante, réduisant la complexité à O(n*w) où w est la taille de la fenêtre.
Dilated Sliding Window
Variante de l'attention par fenêtre glissante utilisant des sauts (dilatation) pour augmenter le champ récepteur sans augmenter la complexité computationnelle.
Global Attention
Mécanisme où certains tokens prédéfinis (comme tokens [CLS]) peuvent attirer l'attention de tous les autres tokens, permettant la propagation d'information à travers toute la séquence.
Random Attention
Approche où chaque token attire aléatoirement l'attention sur un sous-ensemble de tokens distants, préservant les connexions longue distance avec faible surcoût computationnel.
Pattern-based Attention
Stratégie appliquant des motifs prédéfinis d'attention sparse (comme motifs fixes ou appris) pour déterminer quelles paires requête-clé calculer.
Linear Complexity Attention
Classe de méthodes d'attention réduisant la complexité algorithmique de O(n²) à O(n), permettant le passage à l'échelle pour des séquences très longues.
Kernel-based Attention
Approche utilisant des noyaux pour approximer l'attention softmax, permettant des calculs en complexité linéaire via des techniques comme FAVOR+ (Fast Attention Via Positive Orthogonal Random Features).
Low-rank Approximation
Technique approximant la matrice d'attention par une décomposition en rang réduit, réduisant significativement les besoins en mémoire et en calcul.
Clustering-based Attention
Méthode groupant d'abord les tokens en clusters similaires puis appliquant l'attention au niveau des clusters, réduisant le nombre de calculs requis.
Routing Attention
Mécanisme apprenant à router les requêtes vers les clés les plus pertinentes en utilisant des fonctions de routage basées sur le contenu, évitant les calculs inutiles.
Reformer
Architecture utilisant la sensibilité à la localité (LSH) pour limiter les calculs d'attention aux paires les plus similaires, avec complexité quasi-linéaire en longueur de séquence.
Performer
Modèle basé sur l'attention FAVOR+ approximant efficacement l'attention softmax via des caractéristiques aléatoires orthogonales positives, permettant complexité linéaire.
Linformer
Architecture projetant la matrice clé-valeur dans un espace de dimension inférieure, transformant la complexité de O(n²) à O(n*k) où k << n.
Routing Transformer
Modèle utilisant un routage basé sur k-means pour regrouper les tokens et appliquer l'attention sélectivement, optimisant les calculs pour les dépendances longue distance.
Sinkhorn Sorting
Algorithme utilisant l'itération de Sinkhorn pour transformer l'attention en permutation différentiable, appliqué dans les architectures d'attention sparse.
Efficient Attention
Paradigme englobant toutes les variantes d'attention visant à réduire la complexité computationnelle tout en préservant les capacités de modélisation des Transformers.