एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
Attention Scaling
Technique de normalisation des scores d'attention par division par la racine carrée de la dimensionnalité pour maintenir une variance constante et stabiliser l'entraînement des modèles Transformers.
Dimensional Scaling Factor
Coefficient √dk utilisé pour normaliser les scores d'attention, où dk représente la dimensionnalité des vecteurs de requête et de clé dans l'architecture Transformer.
Gradient Stabilization
Processus visant à maintenir les gradients dans une plage numérique stable pendant la rétropropagation, essentiel pour éviter les problèmes d'entraînement dans les réseaux profonds.
Attention Score Normalization
Normalisation des scores de similarité avant l'application de Softmax pour contrôler la distribution de probabilité et prévenir les concentrations extrêmes d'attention.
Query-Key Dimensionality
Dimension commune des vecteurs de requête et de clé dans l'attention multi-têtes, dont la racine carrée détermine le facteur d'échelle de normalisation.
Attention Variance Control
Maintien de la variance constante des scores d'attention à travers différentes couches pour assurer une stabilité numérique optimale du modèle.
Numerical Stability in Attention
Ensemble de techniques garantissant que les calculs d'attention restent dans des plages numériques gérables, prévenant les overflows et underflows en virgule flottante.
Score Distribution Sharpening
Phénomène où les distributions d'attention deviennent trop concentrées sans normalisation appropriée, menant à un comportement suboptimal du modèle.
Multi-Head Attention Scaling
Application du facteur d'échelle √dk indépendamment à chaque tête d'attention dans l'architecture multi-têtes pour maintenir la cohérence à travers les représentations parallèles.
Embedding Dimension Normalization
Technique de normalisation basée sur la dimensionnalité des embeddings pour assurer une magnitude comparable des représentations vectorielles dans l'espace d'attention.
Attention Temperature Scaling
Ajustement dynamique du facteur d'échelle pour moduler la concentration de l'attention, permettant un contrôle fin sur la distribution des poids d'attention.
Gradient Flow Optimization
Optimisation du parcours des gradients à travers les couches d'attention pour maintenir un apprentissage efficace dans les réseaux profonds.
Score Magnitude Regularization
Contrôle de la magnitude des scores d'attention par normalisation pour prévenir les instabilités numériques et améliorer la convergence du modèle.
Attention Entropy Preservation
Maintien d'un niveau d'entropie approprié dans les distributions d'attention grâce à la normalisation, évitant les distributions trop dures ou trop uniformes.