KI-Glossar
Das vollständige Wörterbuch der Künstlichen Intelligenz
Carte de Chaleur d'Attention (Attention Heatmap)
Visualisation graphique de la matrice d'attention utilisant un dégradé de couleurs pour mettre en évidence les relations les plus fortes (généralement en rouge) et les plus faibles (généralement en bleu) entre les tokens.
Score d'Alignement
Valeur brute, avant l'application de la fonction softmax, résultant du produit scalaire entre la requête (query) et la clé (key) d'un token, mesurant leur compatibilité ou leur pertinence mutuelle.
Mécanisme d'Attention par Saut (Skip-Connection Attention)
Phénomène observé où une tête d'attention apprend à se concentrer principalement sur le token courant lui-même, agissant comme une connexion de saut et contribuant à la stabilité de l'entraînement.
Analyse de Rôle des Têtes (Head Role Analysis)
Étude systématique visant à caractériser la fonction spécifique de chaque tête d'attention, telle que la capture de relations syntaxiques, de dépendances à longue distance ou de motifs positionnels.
Attention Positionnelle
Composante de l'attention qui, sans encodage positionnel explicite, est apprise par le modèle pour se concentrer sur des positions relatives dans la séquence, révélant sa compréhension de l'ordre des mots.
Visualisation d'Attention par Couche (Layer-wise Attention Visualization)
Technique d'interprétabilité qui consiste à examiner les cartes d'attention à chaque couche successive d'un Transformer pour comprendre comment les représentations et les relations évoluent en profondeur.
Poids d'Attention Croisés (Cross-Attention Weights)
Dans les modèles encodeur-décodeur, poids d'attention qui mesurent l'alignement entre les tokens de la séquence de sortie (décodeur) et ceux de la séquence d'entrée (encodeur).
Régularisation de l'Attention (Attention Regularization)
Technique d'entraînement qui ajoute une pénalité à la fonction de perte pour encourager des schémas d'attention spécifiques, comme une plus grande diversité entre les têtes ou une plus grande parcimonie.
BertViz
Outil de visualisation open-source spécifiquement conçu pour inspecter les mécanismes d'attention dans les modèles de type BERT, offrant des vues interactives des poids par tête et par couche.
Gradient d'Attention
Méthode d'interprétabilité qui calcule le gradient de la sortie du modèle par rapport aux poids d'attention pour évaluer l'impact de chaque connexion d'attention sur la prédiction finale.
Attention Rétroactive (Rollback Attention)
Analyse qui consiste à modifier manuellement les poids d'attention observés (par exemple, en mettant certains à zéro) pour observer l'effet sur la sortie du modèle, testant ainsi la causalité des dépendances apprises.
Clustering de Têtes d'Attention
Approche qui regroupe les têtes d'attention en fonction de la similarité de leurs schémas de poids sur un corpus, afin d'identifier des familles de têtes partageant des fonctions linguistiques communes.
Analyse de l'Efficacité des Têtes (Head Efficiency Analysis)
Évaluation quantitative de la contribution de chaque tête d'attention à la performance globale du modèle, souvent en mesurant la baisse de performance lorsque la tête est éliminée (pruning).
Attention Maximale (Maximum Attention)
Métrique qui, pour chaque token source, identifie le token cible recevant le poids d'attention le plus élevé, fournissant une vue simplifiée et binaire des alignements les plus forts.