🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

视觉Transformer (ViT)

应用于图像处理的神经网络架构,将图像分割成补丁序列,通过Transformer机制进行顺序处理。

📖
个术语

补丁嵌入

通过线性投影将图像补丁转换为固定维度的嵌入向量,以供Transformer处理的过程。

📖
个术语

类别标记

添加到嵌入序列中的特殊标记,其经过Transformer处理后的最终表示用于图像分类。

📖
个术语

多头自注意力

允许模型同时计算多个注意力表示的机制,用于捕获图像补丁之间的不同关系。

📖
个术语

Transformer编码器

由自注意力层和前馈网络组成的基础模块,与归一化和残差连接交替出现。

📖
个术语

图像补丁标记化

将图像分割成非重叠的固定大小补丁(通常为16x16像素)然后转换为序列标记的过程。

📖
个术语

注意力图可视化

可解释性技术,可视化补丁之间的注意力权重,以理解模型关注的图像区域。

📖
个术语

大数据集预训练

在数百万张图像(如ImageNet-21k)上进行初始训练阶段,在微调之前学习通用的视觉表示。

📖
个术语

Patch Size Hyperparameter

关键超参数,定义图像块的尺寸,直接影响模型的计算复杂度和性能。

📖
个术语

Token-to-Patch Reconstruction

在生成任务中的逆向过程,其中token被重新转换为图像块以重建原始图像。

📖
个术语

Hierarchical Vision Transformer

ViT的一种变体,使用金字塔结构和可变的图像块尺寸来捕获多尺度特征。

📖
个术语

Self-Supervised ViT Pre-training

如DINO或MAE等无监督训练方法,利用Transformer结构在没有标注的情况下进行学习。

📖
个术语

Cross-Attention in Multi-Modal ViT

一种扩展ViT的机制,通过使用不同模态间的注意力来联合处理图像和文本。

📖
个术语

Computational Complexity O(n²)

自注意力相对于图像块数量的二次方复杂度,是Vision Transformer的主要限制。

🔍

未找到结果