Глоссарий ИИ
Полный словарь искусственного интеллекта
Query-Key-Value Projection
Transformations linéaires appliquées aux séquences d'entrée pour générer les vecteurs queries, keys et values utilisés dans le calcul d'attention.
Cross-Attention Matrix
Matrice de poids d'attention représentant les relations entre tokens de la séquence source et tokens de la séquence cible.
Scaled Dot-Product Cross-Attention
Implémentation mathématique de la cross-attention utilisant le produit scalaire normalisé pour calculer les scores d'attention.
Attention Weights Normalization
Application de la fonction softmax aux scores d'attention pour obtenir une distribution de probabilités somme à un.
Cross-Attention Layer
Couche neuronale spécifique implémentant le mécanisme de cross-attention avec ses propres paramètres apprenables.
Cross-Attention Head
Unité de calcul individuelle dans multi-head cross-attention opérant sur un sous-espace de dimension réduite des embeddings.
Bi-directional Cross-Attention
Configuration où l'attention circule dans les deux sens entre deux séquences, utilisée dans des architectures comme BERT.
Cross-Attention Residual Connection
Connexion résiduelle appliquée après la couche de cross-attention pour faciliter l'entraînement profond et préserver le gradient.
Cross-Attention Layer Normalization
Normalisation appliquée avant ou après la cross-attention pour stabiliser l'entraînement et améliorer la convergence.
Cross-Attention Position Encoding
Encodage positionnel injecté pour fournir des informations de position relatives entre tokens des différentes séquences.
Cross-Attention Memory Complexity
Complexité en mémoire O(n²) pour sequences de longueur n et m, constituant le principal goulot d'étranglement des transformeurs.
Cross-Attention Gradient Flow
Propagation du gradient à travers la matrice d'attention pendant la rétropropagation, essentielle pour l'apprentissage des poids d'attention.