Layer Normalization - Glossaire IA

📖

termes

Post-LN Transformer

Architecture originale de transformeur où la layer normalization est appliquée après les couches d'attention et feed-forward, nécessitant un réglage plus précis du taux d'apprentissage.

📖

termes

Paramètres apprenables de la layer normalization permettant respectivement de mettre à l'échelle (scale) et de décaler (shift) les valeurs normalisées pour préserver la puissance de représentation du réseau.

📖

termes

Zero Centering

Processus de soustraction de la moyenne des activations dans la layer normalization pour centrer les données autour de zéro, facilitant l'optimisation des gradients.

📖

termes

Unit Variance

Standardisation des activations pour avoir une variance unitaire dans la layer normalization, assurant une stabilité numérique et des gradients constants à travers les couches.

📖

termes

Gradient Stability

Propriété de la layer normalization qui maintient des gradients stables durant la rétropropagation, évitant les problèmes de gradient explosif ou évanescent dans les transformeurs profonds.

📖

termes

Epsilon Parameter

Petite constante ajoutée au dénominateur dans la layer normalization pour éviter la division par zéro et assurer la stabilité numérique lors du calcul de la variance normalisée.

📖

termes

Activation Distribution

Distribution des valeurs d'activation dans une couche que la layer normalization maintient constante, facilitant la convergence et l'optimisation des réseaux de transformeurs.

📖

termes

Scale Invariance

Propriété de la layer normalization qui rend le modèle insensible aux changements d'échelle des entrées, améliorant la robustesse du modèle face aux variations de données.

📖

termes

Training Speed

Accélération significative de l'entraînement des transformeurs grâce à la layer normalization, permettant des taux d'apprentissage plus élevés et une convergence plus rapide.

📖

termes

Hidden State Normalization

Application de la layer normalization aux états cachés des transformeurs pour maintenir des activations stables à travers les différentes couches d'encodage et de décodage.

Glossaire IA

Post-LN Transformer

Gamma et Beta

Zero Centering

Unit Variance

Gradient Stability

Epsilon Parameter

Activation Distribution

Scale Invariance

Training Speed

Hidden State Normalization

Aucun résultat trouvé