Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Linear Projection
Transformation linéaire appliquée aux embeddings d'entrée pour générer les espaces Query, Key et Value dans chaque tête d'attention multi-têtes.
Attention Masking
Technique appliquant des valeurs infiniment négatives à certaines positions dans la matrice d'attention pour empêcher les interactions non désirées entre éléments de séquence.
Multi-Head Concatenation
Opération combinant les sorties de toutes les têtes d'attention en concaténant leurs représentations avant une projection linéaire finale pour produire l'output.
Contextual Embedding
Représentation vectorielle enrichie générée par le mécanisme d'attention qui incorpore des informations contextuelles de toute la séquence pour chaque élément.
Attention Head Dimension
Dimensionnalité réduite de chaque sous-espace d'attention dans Multi-Head Attention, typiquement calculée comme dimension_modèle / nombre_de_têtes.
Parallel Attention Computation
Processus où les multiples têtes d'attention sont calculées simultanément en parallèle, permettant une capture efficace de différents aspects des relations séquentielles.
Residual Attention Connection
Connexion résiduelle ajoutant l'input original à l'output de la couche d'attention, facilitant l'entraînement de réseaux profonds en préservant le flux d'information.
Attention Distribution
Distribution de probabilité sur les éléments de la séquence générée par softmax, indiquant où le modèle 'regarde' lors du traitement d'un élément spécifique.