Auto-Attention Multi-Tête

📖

termes

Auto-Attention Multi-Tête

Mécanisme où le modèle calcule plusieurs fois l'attention en parallèle avec différentes projections linéaires des requêtes, clés et valeurs, permettant de capturer des dépendances variées à différentes positions de la séquence.

📖

termes

Requête (Query)

Vecteur représentant l'élément actuel pour lequel on cherche à calculer l'attention, utilisé pour interagir avec les clés afin de déterminer l'importance de chaque valeur dans la séquence.

📖

termes

Clé (Key)

Vecteur associé à chaque élément de la séquence, utilisé pour être comparé à la requête afin de calculer le score d'attention et de déterminer la pertinence de chaque élément.

📖

termes

Valeur (Value)

Vecteur contenant l'information réelle de chaque élément de la séquence, pondéré par les poids d'attention pour produire la sortie du mécanisme d'attention.

📖

termes

Projection Linéaire

Opération de multiplication matricielle appliquée aux requêtes, clés et valeurs dans chaque tête d'attention pour les projeter dans des sous-espaces de dimension inférieure, permettant des représentations diversifiées.

📖

termes

Dimension du Modèle (d_model)

Taille de l'espace d'embedding utilisé pour les représentations des requêtes, clés et valeurs après la concaténation des têtes, paramètre clé de l'architecture Transformer.

📖

termes

Dimension de la Tête (d_k)

Dimension réduite à laquelle les requêtes et les clés sont projetées dans chaque tête d'attention, calculée comme la dimension du modèle divisée par le nombre de têtes.

📖

termes

Dimension de la Valeur (d_v)

Dimension à laquelle les vecteurs de valeur sont projetés dans chaque tête d'attention, souvent identique à la dimension de la tête (d_k) pour simplifier l'architecture.

📖

termes

Softmax sur les Clés

Application de la fonction softmax aux scores d'attention (produits scalaires requête-clé) pour obtenir une distribution de probabilité normalisée servant de poids d'attention.

📖

termes

Mécanisme d'Attention Parallèle

Implémentation où toutes les têtes d'attention sont calculées simultanément en utilisant des opérations matricielles groupées, optimisant l'efficacité computationnelle sur les GPU.

📖

termes

Sous-Espace de Représentation

Espace vectoriel de dimension inférieure dans lequel chaque tête d'attention projette les données, permettant de capturer différents types de relations et de motifs dans les données.

📖

termes

Poids d'Attention (Attention Weights)

Coefficients normalisés issus de la fonction softmax qui quantifient l'importance de chaque valeur pour la construction de la sortie de l'élément courant.

📖

termes

Dépendance à Longue Portée

Capacité du mécanisme d'auto-attention à modéliser directement les relations entre des tokens éloignés dans la séquence, surmontant une limitation des réseaux récurrents.

Glossaire IA