BenchVibe AI Ecosystem

VIP 👤

🏠 Accueil

基準測試

📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction

Modèles

🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code

Ressources

💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200

類別

2,608

子類別

30,011

術語

视觉Transformer (ViT)

应用于图像处理的神经网络架构，将图像分割成补丁序列，通过Transformer机制进行顺序处理。

补丁嵌入

通过线性投影将图像补丁转换为固定维度的嵌入向量，以供Transformer处理的过程。

类别标记

添加到嵌入序列中的特殊标记，其经过Transformer处理后的最终表示用于图像分类。

多头自注意力

允许模型同时计算多个注意力表示的机制，用于捕获图像补丁之间的不同关系。

Transformer编码器

由自注意力层和前馈网络组成的基础模块，与归一化和残差连接交替出现。

图像补丁标记化

将图像分割成非重叠的固定大小补丁（通常为16x16像素）然后转换为序列标记的过程。

注意力图可视化

可解释性技术，可视化补丁之间的注意力权重，以理解模型关注的图像区域。

大数据集预训练

在数百万张图像（如ImageNet-21k）上进行初始训练阶段，在微调之前学习通用的视觉表示。

Patch Size Hyperparameter

关键超参数，定义图像块的尺寸，直接影响模型的计算复杂度和性能。

Token-to-Patch Reconstruction

在生成任务中的逆向过程，其中token被重新转换为图像块以重建原始图像。

Hierarchical Vision Transformer

ViT的一种变体，使用金字塔结构和可变的图像块尺寸来捕获多尺度特征。

Self-Supervised ViT Pre-training

如DINO或MAE等无监督训练方法，利用Transformer结构在没有标注的情况下进行学习。

Cross-Attention in Multi-Modal ViT

一种扩展ViT的机制，通过使用不同模态间的注意力来联合处理图像和文本。

Computational Complexity O(n²)

自注意力相对于图像块数量的二次方复杂度，是Vision Transformer的主要限制。

🔍

搵唔到結果