Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
242
catégories
3 353
sous-catégories
40 780
termes
termes
Projection Matrices
Matrices de poids apprenables Wq, Wk, Wv transformant les embeddings d'entrée en espaces Query, Key, Value, et Wo combinant les sorties de différentes têtes d'attention.
termes
Pre-LN Transformer
Variante d'architecture où la normalisation de couche est appliquée avant l'attention et le feed-forward plutôt qu'après, offrant une meilleure stabilité d'entraînement pour les modèles profonds.
🔍