Interprétabilité des Mécanismes d'Attention

📖

terms

Carte de Chaleur d'Attention (Attention Heatmap)

Visualisation graphique de la matrice d'attention utilisant un dégradé de couleurs pour mettre en évidence les relations les plus fortes (généralement en rouge) et les plus faibles (généralement en bleu) entre les tokens.

📖

terms

Score d'Alignement

Valeur brute, avant l'application de la fonction softmax, résultant du produit scalaire entre la requête (query) et la clé (key) d'un token, mesurant leur compatibilité ou leur pertinence mutuelle.

📖

terms

Mécanisme d'Attention par Saut (Skip-Connection Attention)

Phénomène observé où une tête d'attention apprend à se concentrer principalement sur le token courant lui-même, agissant comme une connexion de saut et contribuant à la stabilité de l'entraînement.

📖

terms

Analyse de Rôle des Têtes (Head Role Analysis)

Étude systématique visant à caractériser la fonction spécifique de chaque tête d'attention, telle que la capture de relations syntaxiques, de dépendances à longue distance ou de motifs positionnels.

📖

terms

Attention Positionnelle

Composante de l'attention qui, sans encodage positionnel explicite, est apprise par le modèle pour se concentrer sur des positions relatives dans la séquence, révélant sa compréhension de l'ordre des mots.

📖

terms

Visualisation d'Attention par Couche (Layer-wise Attention Visualization)

Technique d'interprétabilité qui consiste à examiner les cartes d'attention à chaque couche successive d'un Transformer pour comprendre comment les représentations et les relations évoluent en profondeur.

📖

terms

Poids d'Attention Croisés (Cross-Attention Weights)

Dans les modèles encodeur-décodeur, poids d'attention qui mesurent l'alignement entre les tokens de la séquence de sortie (décodeur) et ceux de la séquence d'entrée (encodeur).

📖

terms

Régularisation de l'Attention (Attention Regularization)

Technique d'entraînement qui ajoute une pénalité à la fonction de perte pour encourager des schémas d'attention spécifiques, comme une plus grande diversité entre les têtes ou une plus grande parcimonie.

📖

terms

BertViz

Outil de visualisation open-source spécifiquement conçu pour inspecter les mécanismes d'attention dans les modèles de type BERT, offrant des vues interactives des poids par tête et par couche.

📖

terms

Gradient d'Attention

Méthode d'interprétabilité qui calcule le gradient de la sortie du modèle par rapport aux poids d'attention pour évaluer l'impact de chaque connexion d'attention sur la prédiction finale.

📖

terms

Attention Rétroactive (Rollback Attention)

Analyse qui consiste à modifier manuellement les poids d'attention observés (par exemple, en mettant certains à zéro) pour observer l'effet sur la sortie du modèle, testant ainsi la causalité des dépendances apprises.

📖

terms

Clustering de Têtes d'Attention

Approche qui regroupe les têtes d'attention en fonction de la similarité de leurs schémas de poids sur un corpus, afin d'identifier des familles de têtes partageant des fonctions linguistiques communes.

📖

terms

Analyse de l'Efficacité des Têtes (Head Efficiency Analysis)

Évaluation quantitative de la contribution de chaque tête d'attention à la performance globale du modèle, souvent en mesurant la baisse de performance lorsque la tête est éliminée (pruning).

📖

terms

Attention Maximale (Maximum Attention)

Métrique qui, pour chaque token source, identifie le token cible recevant le poids d'attention le plus élevé, fournissant une vue simplifiée et binaire des alignements les plus forts.

AI Glossary

Carte de Chaleur d'Attention (Attention Heatmap)

Score d'Alignement

Mécanisme d'Attention par Saut (Skip-Connection Attention)

Analyse de Rôle des Têtes (Head Role Analysis)

Attention Positionnelle

Visualisation d'Attention par Couche (Layer-wise Attention Visualization)

Poids d'Attention Croisés (Cross-Attention Weights)

Régularisation de l'Attention (Attention Regularization)

BertViz

Gradient d'Attention

Attention Rétroactive (Rollback Attention)

Clustering de Têtes d'Attention

Analyse de l'Efficacité des Têtes (Head Efficiency Analysis)

Attention Maximale (Maximum Attention)

No results found