Interprétabilité des Mécanismes d'Attention

📖

Begriffe

Carte de Chaleur d'Attention (Attention Heatmap)

Visualisation graphique de la matrice d'attention utilisant un dégradé de couleurs pour mettre en évidence les relations les plus fortes (généralement en rouge) et les plus faibles (généralement en bleu) entre les tokens.

📖

Begriffe

Score d'Alignement

Valeur brute, avant l'application de la fonction softmax, résultant du produit scalaire entre la requête (query) et la clé (key) d'un token, mesurant leur compatibilité ou leur pertinence mutuelle.

📖

Begriffe

Mécanisme d'Attention par Saut (Skip-Connection Attention)

Phénomène observé où une tête d'attention apprend à se concentrer principalement sur le token courant lui-même, agissant comme une connexion de saut et contribuant à la stabilité de l'entraînement.

📖

Begriffe

Analyse de Rôle des Têtes (Head Role Analysis)

Étude systématique visant à caractériser la fonction spécifique de chaque tête d'attention, telle que la capture de relations syntaxiques, de dépendances à longue distance ou de motifs positionnels.

📖

Begriffe

Attention Positionnelle

Composante de l'attention qui, sans encodage positionnel explicite, est apprise par le modèle pour se concentrer sur des positions relatives dans la séquence, révélant sa compréhension de l'ordre des mots.

📖

Begriffe

Visualisation d'Attention par Couche (Layer-wise Attention Visualization)

Technique d'interprétabilité qui consiste à examiner les cartes d'attention à chaque couche successive d'un Transformer pour comprendre comment les représentations et les relations évoluent en profondeur.

📖

Begriffe

Poids d'Attention Croisés (Cross-Attention Weights)

Dans les modèles encodeur-décodeur, poids d'attention qui mesurent l'alignement entre les tokens de la séquence de sortie (décodeur) et ceux de la séquence d'entrée (encodeur).

📖

Begriffe

Régularisation de l'Attention (Attention Regularization)

Technique d'entraînement qui ajoute une pénalité à la fonction de perte pour encourager des schémas d'attention spécifiques, comme une plus grande diversité entre les têtes ou une plus grande parcimonie.

📖

Begriffe

BertViz

Outil de visualisation open-source spécifiquement conçu pour inspecter les mécanismes d'attention dans les modèles de type BERT, offrant des vues interactives des poids par tête et par couche.

📖

Begriffe

Gradient d'Attention

Méthode d'interprétabilité qui calcule le gradient de la sortie du modèle par rapport aux poids d'attention pour évaluer l'impact de chaque connexion d'attention sur la prédiction finale.

📖

Begriffe

Attention Rétroactive (Rollback Attention)

Analyse qui consiste à modifier manuellement les poids d'attention observés (par exemple, en mettant certains à zéro) pour observer l'effet sur la sortie du modèle, testant ainsi la causalité des dépendances apprises.

📖

Begriffe

Clustering de Têtes d'Attention

Approche qui regroupe les têtes d'attention en fonction de la similarité de leurs schémas de poids sur un corpus, afin d'identifier des familles de têtes partageant des fonctions linguistiques communes.

📖

Begriffe

Analyse de l'Efficacité des Têtes (Head Efficiency Analysis)

Évaluation quantitative de la contribution de chaque tête d'attention à la performance globale du modèle, souvent en mesurant la baisse de performance lorsque la tête est éliminée (pruning).

📖

Begriffe

Attention Maximale (Maximum Attention)

Métrique qui, pour chaque token source, identifie le token cible recevant le poids d'attention le plus élevé, fournissant une vue simplifiée et binaire des alignements les plus forts.

KI-Glossar

Carte de Chaleur d'Attention (Attention Heatmap)

Score d'Alignement

Mécanisme d'Attention par Saut (Skip-Connection Attention)

Analyse de Rôle des Têtes (Head Role Analysis)

Attention Positionnelle

Visualisation d'Attention par Couche (Layer-wise Attention Visualization)

Poids d'Attention Croisés (Cross-Attention Weights)

Régularisation de l'Attention (Attention Regularization)

BertViz

Gradient d'Attention

Attention Rétroactive (Rollback Attention)

Clustering de Têtes d'Attention

Analyse de l'Efficacité des Têtes (Head Efficiency Analysis)

Attention Maximale (Maximum Attention)

Keine Ergebnisse gefunden