Attention Scaling

📖

termes

Technique de normalisation des scores d'attention par division par la racine carrée de la dimensionnalité pour maintenir une variance constante et stabiliser l'entraînement des modèles Transformers.

📖

termes

Dimensional Scaling Factor

Coefficient √dk utilisé pour normaliser les scores d'attention, où dk représente la dimensionnalité des vecteurs de requête et de clé dans l'architecture Transformer.

📖

termes

Gradient Stabilization

Processus visant à maintenir les gradients dans une plage numérique stable pendant la rétropropagation, essentiel pour éviter les problèmes d'entraînement dans les réseaux profonds.

📖

termes

Attention Score Normalization

Normalisation des scores de similarité avant l'application de Softmax pour contrôler la distribution de probabilité et prévenir les concentrations extrêmes d'attention.

📖

termes

Query-Key Dimensionality

Dimension commune des vecteurs de requête et de clé dans l'attention multi-têtes, dont la racine carrée détermine le facteur d'échelle de normalisation.

📖

termes

Attention Variance Control

Maintien de la variance constante des scores d'attention à travers différentes couches pour assurer une stabilité numérique optimale du modèle.

📖

termes

Numerical Stability in Attention

Ensemble de techniques garantissant que les calculs d'attention restent dans des plages numériques gérables, prévenant les overflows et underflows en virgule flottante.

📖

termes

Score Distribution Sharpening

Phénomène où les distributions d'attention deviennent trop concentrées sans normalisation appropriée, menant à un comportement suboptimal du modèle.

📖

termes

Multi-Head Attention Scaling

Application du facteur d'échelle √dk indépendamment à chaque tête d'attention dans l'architecture multi-têtes pour maintenir la cohérence à travers les représentations parallèles.

📖

termes

Embedding Dimension Normalization

Technique de normalisation basée sur la dimensionnalité des embeddings pour assurer une magnitude comparable des représentations vectorielles dans l'espace d'attention.

📖

termes

Attention Temperature Scaling

Ajustement dynamique du facteur d'échelle pour moduler la concentration de l'attention, permettant un contrôle fin sur la distribution des poids d'attention.

📖

termes

Gradient Flow Optimization

Optimisation du parcours des gradients à travers les couches d'attention pour maintenir un apprentissage efficace dans les réseaux profonds.

📖

termes

Score Magnitude Regularization

Contrôle de la magnitude des scores d'attention par normalisation pour prévenir les instabilités numériques et améliorer la convergence du modèle.

📖

termes

Attention Entropy Preservation

Maintien d'un niveau d'entropie approprié dans les distributions d'attention grâce à la normalisation, évitant les distributions trop dures ou trop uniformes.

Glossaire IA