视觉变换器 (ViT) - AI 术语表

📖

个术语

视觉Transformer (ViT)

应用于图像处理的神经网络架构，将图像分割成补丁序列，通过Transformer机制进行顺序处理。

📖

个术语

补丁嵌入

通过线性投影将图像补丁转换为固定维度的嵌入向量，以供Transformer处理的过程。

📖

个术语

类别标记

添加到嵌入序列中的特殊标记，其经过Transformer处理后的最终表示用于图像分类。

📖

个术语

多头自注意力

允许模型同时计算多个注意力表示的机制，用于捕获图像补丁之间的不同关系。

📖

个术语

Transformer编码器

由自注意力层和前馈网络组成的基础模块，与归一化和残差连接交替出现。

📖

个术语

图像补丁标记化

将图像分割成非重叠的固定大小补丁（通常为16x16像素）然后转换为序列标记的过程。

📖

个术语

注意力图可视化

可解释性技术，可视化补丁之间的注意力权重，以理解模型关注的图像区域。

📖

个术语

大数据集预训练

在数百万张图像（如ImageNet-21k）上进行初始训练阶段，在微调之前学习通用的视觉表示。

📖

个术语

Patch Size Hyperparameter

关键超参数，定义图像块的尺寸，直接影响模型的计算复杂度和性能。

📖

个术语

Token-to-Patch Reconstruction

在生成任务中的逆向过程，其中token被重新转换为图像块以重建原始图像。

📖

个术语

Hierarchical Vision Transformer

ViT的一种变体，使用金字塔结构和可变的图像块尺寸来捕获多尺度特征。

📖

个术语

Self-Supervised ViT Pre-training

如DINO或MAE等无监督训练方法，利用Transformer结构在没有标注的情况下进行学习。

📖

个术语

Cross-Attention in Multi-Modal ViT

一种扩展ViT的机制，通过使用不同模态间的注意力来联合处理图像和文本。

📖

个术语

Computational Complexity O(n²)

自注意力相对于图像块数量的二次方复杂度，是Vision Transformer的主要限制。

AI 词汇表