Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Post-LN Transformer
Architecture originale de transformeur où la layer normalization est appliquée après les couches d'attention et feed-forward, nécessitant un réglage plus précis du taux d'apprentissage.
Gamma et Beta
Paramètres apprenables de la layer normalization permettant respectivement de mettre à l'échelle (scale) et de décaler (shift) les valeurs normalisées pour préserver la puissance de représentation du réseau.
Zero Centering
Processus de soustraction de la moyenne des activations dans la layer normalization pour centrer les données autour de zéro, facilitant l'optimisation des gradients.
Unit Variance
Standardisation des activations pour avoir une variance unitaire dans la layer normalization, assurant une stabilité numérique et des gradients constants à travers les couches.
Gradient Stability
Propriété de la layer normalization qui maintient des gradients stables durant la rétropropagation, évitant les problèmes de gradient explosif ou évanescent dans les transformeurs profonds.
Epsilon Parameter
Petite constante ajoutée au dénominateur dans la layer normalization pour éviter la division par zéro et assurer la stabilité numérique lors du calcul de la variance normalisée.
Activation Distribution
Distribution des valeurs d'activation dans une couche que la layer normalization maintient constante, facilitant la convergence et l'optimisation des réseaux de transformeurs.
Scale Invariance
Propriété de la layer normalization qui rend le modèle insensible aux changements d'échelle des entrées, améliorant la robustesse du modèle face aux variations de données.
Training Speed
Accélération significative de l'entraînement des transformeurs grâce à la layer normalization, permettant des taux d'apprentissage plus élevés et une convergence plus rapide.
Hidden State Normalization
Application de la layer normalization aux états cachés des transformeurs pour maintenir des activations stables à travers les différentes couches d'encodage et de décodage.