视觉变换器（ViT）

📖

術語

多头自注意力机制 (MHSA)

一种机制，允许模型通过并行计算多个注意力矩阵来同时关注图像的不同部分，从而捕捉各种类型的空间关系。

📖

術語

层缩放

在深度ViT中引入的正则化技术，其中可学习的权重被应用于残差输出，以稳定初始层的训练。

📖

術語

窗口注意力

一种注意力机制，仅限于图像的非重叠局部窗口，将计算复杂度从O(n²)降低到O(n)，其中n是补丁的数量。

📖

術語

移位窗口注意力

一种技术，其中注意力窗口在层之间进行移位，以实现跨窗口连接，从而增强模型建模长距离关系的能力。

📖

術語

DeiT (数据高效图像变换器)

ViT的一种变体，通过知识蒸馏策略可在较少数据量下进行训练，其中添加了一个蒸馏标记以从CNN教师模型中学习。

📖

術語

蒸馏标记

DeiT中的额外标记，学习模仿教师模型（通常是CNN）的预测，促进知识转移并在较少数据下提高性能。

📖

術語

掩码自编码器 (MAE)

ViT的自监督学习方法，其中图像的随机补丁被掩码（高达75%），模型学习重建它们，展现出惊人的学习能力。

📖

術語

补丁合并

分层变换器中的操作，将相邻的2x2补丁组合起来创建较低分辨率的标记，从而增加深度和感受野。

📖

術語

相对位置偏置

添加到注意力分数中的偏置，取决于图像块之间的相对位置，增强模型理解空间关系的能力，无需绝对位置编码。

📖

術語

混合架构

结合初始卷积网络进行特征提取与Transformer进行全局处理的方法，在ViT的早期实现中用于减少数据需求。

📖

術語

标记标注

一种训练策略，每个图像块都获得一个监督标签，而不是每张图像只有一个标签，迫使模型学习更丰富和局部化的表示。

AI 詞彙表