注意力头分析

📖

个术语

检查和解释每个注意力头产生的注意力权重的过程，以理解每个头学习捕捉的特定模式和关系。

📖

个术语

头专业化

同一层中不同注意力头专门学习不同类型语言关系的现象，如句法、语义或长距离依赖关系。

📖

个术语

注意力权重矩阵

由注意力头生成的方阵，其中每个元素(i, j)表示在序列上下文中词元j对词元i的重要性或相关性得分。

📖

个术语

注意力图

注意力权重矩阵的可视化，通常以热力图形式呈现，图形化地展示注意力头在输入序列上的关注关系。

📖

个术语

句法角色

一种关系类型，如主谓连接或名词与其形容词之间的依赖关系，专门化的注意力头可以学习检测和建模这类关系。

📖

个术语

位置角色

注意力头主要关注词元间相对位置关系的功能，帮助模型理解词序而独立于其语义内容。

📖

个术语

位置头

其注意力权重显示出与词元间相对距离强烈相关模式的注意力头，作为编码序列结构的机制。

📖

个术语

子词头

专门处理由BPE等分词器生成的词片段之间关系的注意力头，帮助重建词汇一致性。

📖

个术语

检索头（Retrieval Head）

在大模型中识别出的注意力头，其行为类似于信息检索机制，与充当记忆知识'键'的特定标记强连接。

📖

个术语

头冗余（Head Redundancy）

观察到过参数化模型中某些注意力头学习到非常相似或相同的功能，表明资源使用存在潜在低效性。

📖

个术语

注意力头剪枝（Attention Head Pruning）

一种模型压缩技术，通过识别并删除被认为冗余或不重要的注意力头来减小模型规模并降低计算成本，同时对性能影响最小。

📖

个术语

头重要性分数（Head Importance Score）

量化指标，通常源自损失敏感性或模型性能对删除某个头的影响，用于根据头对整体功能的贡献对其进行排序。

📖

个术语

头归纳分析（Head Induction Analysis）

一种方法学，通过在注意力头输出上训练简单监督模型（如线性分类器）来发现该头学习表示的底层功能。

📖

个术语

对角线注意力模式（Diagonal Attention Pattern）

注意力权重模式，其中头主要关注标记本身（自注意力），通常在较低层观察到，用于细化局部表示。

📖

个术语

垂直注意力模式（Vertical Attention Pattern）

注意力模式，其中注意力头对所有位置都关注特定的参考标记（通常是序列开始标记或类别标记），为分类任务聚合信息。

📖

个术语

块注意力模式（Block Attention Pattern）

注意力模式，其中注意力头关注序列的连续片段，表明在处理局部句子或子句方面具有专门化。

📖

个术语

翻译头

在多语言模型中，学习在不同语言之间对齐单词和短语的注意力头，促进语言知识的迁移。

📖

个术语

多头注意力机制

Transformer的基本组件，并行执行多个注意力头，拼接它们的输出并进行投影，使模型能够同时关注不同位置和不同表示空间。

📖

个术语

头可解释性

研究领域，旨在开发方法来理解、量化和可视化每个注意力头的具体功能，以揭示Transformer模型的内部工作机制。

AI 词汇表