Glosarium AI
Kamus lengkap Kecerdasan Buatan
Auto-Attention Multi-Tête
Mécanisme où le modèle calcule plusieurs fois l'attention en parallèle avec différentes projections linéaires des requêtes, clés et valeurs, permettant de capturer des dépendances variées à différentes positions de la séquence.
Requête (Query)
Vecteur représentant l'élément actuel pour lequel on cherche à calculer l'attention, utilisé pour interagir avec les clés afin de déterminer l'importance de chaque valeur dans la séquence.
Clé (Key)
Vecteur associé à chaque élément de la séquence, utilisé pour être comparé à la requête afin de calculer le score d'attention et de déterminer la pertinence de chaque élément.
Valeur (Value)
Vecteur contenant l'information réelle de chaque élément de la séquence, pondéré par les poids d'attention pour produire la sortie du mécanisme d'attention.
Projection Linéaire
Opération de multiplication matricielle appliquée aux requêtes, clés et valeurs dans chaque tête d'attention pour les projeter dans des sous-espaces de dimension inférieure, permettant des représentations diversifiées.
Dimension du Modèle (d_model)
Taille de l'espace d'embedding utilisé pour les représentations des requêtes, clés et valeurs après la concaténation des têtes, paramètre clé de l'architecture Transformer.
Dimension de la Tête (d_k)
Dimension réduite à laquelle les requêtes et les clés sont projetées dans chaque tête d'attention, calculée comme la dimension du modèle divisée par le nombre de têtes.
Dimension de la Valeur (d_v)
Dimension à laquelle les vecteurs de valeur sont projetés dans chaque tête d'attention, souvent identique à la dimension de la tête (d_k) pour simplifier l'architecture.
Softmax sur les Clés
Application de la fonction softmax aux scores d'attention (produits scalaires requête-clé) pour obtenir une distribution de probabilité normalisée servant de poids d'attention.
Mécanisme d'Attention Parallèle
Implémentation où toutes les têtes d'attention sont calculées simultanément en utilisant des opérations matricielles groupées, optimisant l'efficacité computationnelle sur les GPU.
Sous-Espace de Représentation
Espace vectoriel de dimension inférieure dans lequel chaque tête d'attention projette les données, permettant de capturer différents types de relations et de motifs dans les données.
Poids d'Attention (Attention Weights)
Coefficients normalisés issus de la fonction softmax qui quantifient l'importance de chaque valeur pour la construction de la sortie de l'élément courant.
Dépendance à Longue Portée
Capacité du mécanisme d'auto-attention à modéliser directement les relations entre des tokens éloignés dans la séquence, surmontant une limitation des réseaux récurrents.