एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
Analyse de Tête d'Attention (Attention Head Analysis)
Processus d'examen et d'interprétation des poids d'attention produits par chaque tête pour comprendre les motifs et les relations spécifiques que chaque tête a appris à capturer.
Spécialisation des Têtes (Head Specialization)
Phénomène où différentes têtes d'attention dans une même couche se spécialisent pour apprendre des types de relations linguistiques distincts, comme la syntaxe, la sémantique ou les dépendances à longue distance.
Matrice de Poids d'Attention (Attention Weight Matrix)
Matrice carrée générée par une tête d'attention, où chaque élément (i, j) représente le score d'importance ou de pertinence du token j pour le token i dans le contexte de la séquence.
Carte d'Attention (Attention Map)
Visualisation de la matrice de poids d'attention, souvent sous forme de heatmap, qui illustre graphiquement les relations de focus d'une tête d'attention sur une séquence d'entrée.
Rôle Syntaxique (Syntactic Role)
Type de relation, comme la liaison sujet-verbe ou la dépendance entre un nom et son adjectif, qu'une tête d'attention spécialisée peut apprendre à détecter et à modéliser.
Rôle Positionnel (Positional Role)
Fonction d'une tête d'attention qui se concentre principalement sur les relations de position relative entre les tokens, aidant le modèle à comprendre l'ordre des mots indépendamment de leur contenu sémantique.
Tête de Position (Positional Head)
Tête d'attention dont les poids d'attention révèlent des motifs fortement liés à la distance relative entre les tokens, agissant comme un mécanisme pour encoder la structure séquentielle.
Tête de Sous-mot (Subword Head)
Tête d'attention spécialisée dans la gestion des relations entre les fragments de mots (subwords) générés par des tokeniseurs comme BPE, aidant à reconstruire la cohérence lexicale.
Tête de Récupération (Retrieval Head)
Tête d'attention identifiée dans les modèles de grande taille qui se comporte comme un mécanisme de récupération d'informations, se connectant fortement à des tokens spécifiques qui agissent comme des 'clés' pour des connaissances mémorisées.
Redondance des Têtes (Head Redundancy)
Observation selon laquelle certaines têtes d'attention dans un modèle sur-paramétré apprennent des fonctions très similaires ou identiques, suggérant une inefficacité potentielle dans l'utilisation des ressources.
Pruning de Tête d'Attention (Attention Head Pruning)
Technique de compression de modèle qui consiste à identifier et à supprimer les têtes d'attention jugées redondantes ou peu importantes pour réduire la taille du modèle et son coût de calcul avec un impact minimal sur les performances.
Score d'Importance de Tête (Head Importance Score)
Métrique quantitative, souvent dérivée de la sensibilité de la perte ou de la performance du modèle à la suppression d'une tête, utilisée pour classer les têtes par leur contribution au fonctionnement global.
Analyse par Induction de Tête (Head Induction Analysis)
Méthodologie qui consiste à entraîner un modèle superviseur simple (comme un classifieur linéaire) sur les sorties d'une tête d'attention pour découvrir la fonction sous-jacente que cette tête a apprise à représenter.
Motif d'Attention Diagonal (Diagonal Attention Pattern)
Motif de poids d'attention où une tête se concentre principalement sur le token lui-même (auto-attention), souvent observé dans les couches inférieures pour affiner les représentations locales.
Motif d'Attention Vertical (Vertical Attention Pattern)
Motif où une tête d'attention se concentre sur un token de référence spécifique (souvent le token de début de séquence ou un marqueur de classe) pour toutes les positions, agrégeant des informations pour une tâche de classification.
Motif d'Attention de Bloc (Block Attention Pattern)
Motif où une tête d'attention se concentre sur des segments contigus de la séquence, indiquant une spécialisation dans le traitement de phrases ou de clauses locales.
Tête de Traduction (Translation Head)
Dans les modèles multilingues, tête d'attention qui apprend à aligner les mots et les phrases entre différentes langues, facilitant le transfert de connaissances linguistiques.
Mécanisme d'Attention Multi-têtes (Multi-Head Attention)
Composant fondamental des Transformers qui exécute en parallèle plusieurs têtes d'attention, concatène leurs sorties et les projette pour permettre au modèle de se concentrer sur différentes positions et différents espaces de représentation simultanément.
Interprétabilité des Têtes (Head Interpretability)
Domaine de recherche visant à développer des méthodes pour comprendre, quantifier et visualiser la fonction spécifique de chaque tête d'attention afin de démystifier le fonctionnement interne des modèles Transformer.