Słownik AI
Kompletny słownik sztucznej inteligencji
Approximation Noyau
Technique mathématique utilisant des fonctions noyau φ(x) pour approximer la similarité softmax, permettant la factorisation de la matrice d'attention en produits de vecteurs indépendants.
FAVOR+
Algorithme d'approximation par features aléatoires orthogonalisées (Fast Attention Via Positive Orthogonal Random Features) garantissant une approximation uniforme de l'attention softmax avec complexité linéaire.
Permutation Équivariante
Propriété des mécanismes d'attention linéaire où l'ordre des tokens n'affecte pas le résultat final, contrairement à l'attention standard qui est permutation-invariante mais dépendante de l'ordre séquentiel.
Attention à Faible Rang
Approximation de la matrice d'attention par décomposition en rang faible A=UVᵀ où U∈R^(n×r) et V∈R^(n×r) avec r≪n, réduisant drastiquement les besoins computationnels.
Complexité Sous-Quadratique
Classe d'algorithmes avec complexité temporelle o(n²), incluant les méthodes linéaires O(n) et quasi-linéaires O(n log n), permettant le traitement de séquences très longues.
Attention Causale Linéaire
Variante de l'attention linéaire préservant la causalité (masquage futur) par construction incrémentale, essentielle pour les modèles autorégressifs et la génération de texte.
Projection Aléatoire Orthogonale
Méthode générant des vecteurs aléatoires orthogonaux pour approximer les features du noyau RBF, garantissant une meilleure couverture de l'espace et réduisant la variance d'approximation.
Effondrement Dimensionnel
Phénomène dans l'attention linéaire où les représentations tendent à converger vers un sous-espace de faible dimension, nécessitant des techniques de normalisation pour maintenir la diversité des features.
Attention Hybride
Combination d'attention standard locale et d'attention linéaire globale, exploitant la précision quadratique pour les interactions proches et l'efficacité linéaire pour les dépendances à longue distance.
Réforme Spectrale
Technique utilisant des hashings sensibles à la localité (LSH) pour regrouper les tokens similaires avant l'attention, réduisant effectivement la longueur de séquence traitée par le mécanisme attentionnel.
Attention Synthétique
Approche générant des positions d'attention synthétiques plutôt que de calculer toutes les paires, utilisant des patterns prédéfinis ou appris pour approximer les interactions les plus pertinentes.
Biais d'Approximation
Erreur systématique introduite par les méthodes d'approximation dans l'attention linéaire, quantifiable et compensable par des techniques de calibration ou d'apprentissage adaptatif.
Attention à Complexité Mémoire Linéaire
Variantes optimisées non seulement pour le temps computationnel mais aussi pour l'empreinte mémoire O(n), cruciales pour le traitement de séquences massives sur ressources limitées.