Attention Head Analysis

📖

termes

Analyse de Tête d'Attention (Attention Head Analysis)

Processus d'examen et d'interprétation des poids d'attention produits par chaque tête pour comprendre les motifs et les relations spécifiques que chaque tête a appris à capturer.

📖

termes

Spécialisation des Têtes (Head Specialization)

Phénomène où différentes têtes d'attention dans une même couche se spécialisent pour apprendre des types de relations linguistiques distincts, comme la syntaxe, la sémantique ou les dépendances à longue distance.

📖

termes

Matrice de Poids d'Attention (Attention Weight Matrix)

Matrice carrée générée par une tête d'attention, où chaque élément (i, j) représente le score d'importance ou de pertinence du token j pour le token i dans le contexte de la séquence.

📖

termes

Carte d'Attention (Attention Map)

Visualisation de la matrice de poids d'attention, souvent sous forme de heatmap, qui illustre graphiquement les relations de focus d'une tête d'attention sur une séquence d'entrée.

📖

termes

Rôle Syntaxique (Syntactic Role)

Type de relation, comme la liaison sujet-verbe ou la dépendance entre un nom et son adjectif, qu'une tête d'attention spécialisée peut apprendre à détecter et à modéliser.

📖

termes

Rôle Positionnel (Positional Role)

Fonction d'une tête d'attention qui se concentre principalement sur les relations de position relative entre les tokens, aidant le modèle à comprendre l'ordre des mots indépendamment de leur contenu sémantique.

📖

termes

Tête de Position (Positional Head)

Tête d'attention dont les poids d'attention révèlent des motifs fortement liés à la distance relative entre les tokens, agissant comme un mécanisme pour encoder la structure séquentielle.

📖

termes

Tête de Sous-mot (Subword Head)

Tête d'attention spécialisée dans la gestion des relations entre les fragments de mots (subwords) générés par des tokeniseurs comme BPE, aidant à reconstruire la cohérence lexicale.

📖

termes

Tête de Récupération (Retrieval Head)

Tête d'attention identifiée dans les modèles de grande taille qui se comporte comme un mécanisme de récupération d'informations, se connectant fortement à des tokens spécifiques qui agissent comme des 'clés' pour des connaissances mémorisées.

📖

termes

Redondance des Têtes (Head Redundancy)

Observation selon laquelle certaines têtes d'attention dans un modèle sur-paramétré apprennent des fonctions très similaires ou identiques, suggérant une inefficacité potentielle dans l'utilisation des ressources.

📖

termes

Pruning de Tête d'Attention (Attention Head Pruning)

Technique de compression de modèle qui consiste à identifier et à supprimer les têtes d'attention jugées redondantes ou peu importantes pour réduire la taille du modèle et son coût de calcul avec un impact minimal sur les performances.

📖

termes

Score d'Importance de Tête (Head Importance Score)

Métrique quantitative, souvent dérivée de la sensibilité de la perte ou de la performance du modèle à la suppression d'une tête, utilisée pour classer les têtes par leur contribution au fonctionnement global.

📖

termes

Analyse par Induction de Tête (Head Induction Analysis)

Méthodologie qui consiste à entraîner un modèle superviseur simple (comme un classifieur linéaire) sur les sorties d'une tête d'attention pour découvrir la fonction sous-jacente que cette tête a apprise à représenter.

📖

termes

Motif d'Attention Diagonal (Diagonal Attention Pattern)

Motif de poids d'attention où une tête se concentre principalement sur le token lui-même (auto-attention), souvent observé dans les couches inférieures pour affiner les représentations locales.

📖

termes

Motif d'Attention Vertical (Vertical Attention Pattern)

Motif où une tête d'attention se concentre sur un token de référence spécifique (souvent le token de début de séquence ou un marqueur de classe) pour toutes les positions, agrégeant des informations pour une tâche de classification.

📖

termes

Motif d'Attention de Bloc (Block Attention Pattern)

Motif où une tête d'attention se concentre sur des segments contigus de la séquence, indiquant une spécialisation dans le traitement de phrases ou de clauses locales.

📖

termes

Tête de Traduction (Translation Head)

Dans les modèles multilingues, tête d'attention qui apprend à aligner les mots et les phrases entre différentes langues, facilitant le transfert de connaissances linguistiques.

📖

termes

Mécanisme d'Attention Multi-têtes (Multi-Head Attention)

Composant fondamental des Transformers qui exécute en parallèle plusieurs têtes d'attention, concatène leurs sorties et les projette pour permettre au modèle de se concentrer sur différentes positions et différents espaces de représentation simultanément.

📖

termes

Interprétabilité des Têtes (Head Interpretability)

Domaine de recherche visant à développer des méthodes pour comprendre, quantifier et visualiser la fonction spécifique de chaque tête d'attention afin de démystifier le fonctionnement interne des modèles Transformer.

Glossaire IA

Analyse de Tête d'Attention (Attention Head Analysis)

Spécialisation des Têtes (Head Specialization)

Matrice de Poids d'Attention (Attention Weight Matrix)

Carte d'Attention (Attention Map)

Rôle Syntaxique (Syntactic Role)

Rôle Positionnel (Positional Role)

Tête de Position (Positional Head)

Tête de Sous-mot (Subword Head)

Tête de Récupération (Retrieval Head)

Redondance des Têtes (Head Redundancy)

Pruning de Tête d'Attention (Attention Head Pruning)

Score d'Importance de Tête (Head Importance Score)

Analyse par Induction de Tête (Head Induction Analysis)

Motif d'Attention Diagonal (Diagonal Attention Pattern)

Motif d'Attention Vertical (Vertical Attention Pattern)

Motif d'Attention de Bloc (Block Attention Pattern)

Tête de Traduction (Translation Head)

Mécanisme d'Attention Multi-têtes (Multi-Head Attention)

Interprétabilité des Têtes (Head Interpretability)

Aucun résultat trouvé