🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Post-LN Transformer

Architecture originale de transformeur où la layer normalization est appliquée après les couches d'attention et feed-forward, nécessitant un réglage plus précis du taux d'apprentissage.

📖
termes

Gamma et Beta

Paramètres apprenables de la layer normalization permettant respectivement de mettre à l'échelle (scale) et de décaler (shift) les valeurs normalisées pour préserver la puissance de représentation du réseau.

📖
termes

Zero Centering

Processus de soustraction de la moyenne des activations dans la layer normalization pour centrer les données autour de zéro, facilitant l'optimisation des gradients.

📖
termes

Unit Variance

Standardisation des activations pour avoir une variance unitaire dans la layer normalization, assurant une stabilité numérique et des gradients constants à travers les couches.

📖
termes

Gradient Stability

Propriété de la layer normalization qui maintient des gradients stables durant la rétropropagation, évitant les problèmes de gradient explosif ou évanescent dans les transformeurs profonds.

📖
termes

Epsilon Parameter

Petite constante ajoutée au dénominateur dans la layer normalization pour éviter la division par zéro et assurer la stabilité numérique lors du calcul de la variance normalisée.

📖
termes

Activation Distribution

Distribution des valeurs d'activation dans une couche que la layer normalization maintient constante, facilitant la convergence et l'optimisation des réseaux de transformeurs.

📖
termes

Scale Invariance

Propriété de la layer normalization qui rend le modèle insensible aux changements d'échelle des entrées, améliorant la robustesse du modèle face aux variations de données.

📖
termes

Training Speed

Accélération significative de l'entraînement des transformeurs grâce à la layer normalization, permettant des taux d'apprentissage plus élevés et une convergence plus rapide.

📖
termes

Hidden State Normalization

Application de la layer normalization aux états cachés des transformeurs pour maintenir des activations stables à travers les différentes couches d'encodage et de décodage.

🔍

Aucun résultat trouvé