AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
视觉Transformer (ViT)
应用于图像处理的神经网络架构,将图像分割成补丁序列,通过Transformer机制进行顺序处理。
个术语
补丁嵌入
通过线性投影将图像补丁转换为固定维度的嵌入向量,以供Transformer处理的过程。
个术语
类别标记
添加到嵌入序列中的特殊标记,其经过Transformer处理后的最终表示用于图像分类。
个术语
多头自注意力
允许模型同时计算多个注意力表示的机制,用于捕获图像补丁之间的不同关系。
个术语
Transformer编码器
由自注意力层和前馈网络组成的基础模块,与归一化和残差连接交替出现。
个术语
图像补丁标记化
将图像分割成非重叠的固定大小补丁(通常为16x16像素)然后转换为序列标记的过程。
个术语
注意力图可视化
可解释性技术,可视化补丁之间的注意力权重,以理解模型关注的图像区域。
个术语
大数据集预训练
在数百万张图像(如ImageNet-21k)上进行初始训练阶段,在微调之前学习通用的视觉表示。
个术语
Patch Size Hyperparameter
关键超参数,定义图像块的尺寸,直接影响模型的计算复杂度和性能。
个术语
Token-to-Patch Reconstruction
在生成任务中的逆向过程,其中token被重新转换为图像块以重建原始图像。
个术语
Hierarchical Vision Transformer
ViT的一种变体,使用金字塔结构和可变的图像块尺寸来捕获多尺度特征。
个术语
Self-Supervised ViT Pre-training
如DINO或MAE等无监督训练方法,利用Transformer结构在没有标注的情况下进行学习。
个术语
Cross-Attention in Multi-Modal ViT
一种扩展ViT的机制,通过使用不同模态间的注意力来联合处理图像和文本。
个术语
Computational Complexity O(n²)
自注意力相对于图像块数量的二次方复杂度,是Vision Transformer的主要限制。
🔍