🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

视觉Transformer (ViT)

应用于图像处理的神经网络架构,将图像分割成补丁序列,通过Transformer机制进行顺序处理。

📖
術語

补丁嵌入

通过线性投影将图像补丁转换为固定维度的嵌入向量,以供Transformer处理的过程。

📖
術語

类别标记

添加到嵌入序列中的特殊标记,其经过Transformer处理后的最终表示用于图像分类。

📖
術語

多头自注意力

允许模型同时计算多个注意力表示的机制,用于捕获图像补丁之间的不同关系。

📖
術語

Transformer编码器

由自注意力层和前馈网络组成的基础模块,与归一化和残差连接交替出现。

📖
術語

图像补丁标记化

将图像分割成非重叠的固定大小补丁(通常为16x16像素)然后转换为序列标记的过程。

📖
術語

注意力图可视化

可解释性技术,可视化补丁之间的注意力权重,以理解模型关注的图像区域。

📖
術語

大数据集预训练

在数百万张图像(如ImageNet-21k)上进行初始训练阶段,在微调之前学习通用的视觉表示。

📖
術語

Patch Size Hyperparameter

关键超参数,定义图像块的尺寸,直接影响模型的计算复杂度和性能。

📖
術語

Token-to-Patch Reconstruction

在生成任务中的逆向过程,其中token被重新转换为图像块以重建原始图像。

📖
術語

Hierarchical Vision Transformer

ViT的一种变体,使用金字塔结构和可变的图像块尺寸来捕获多尺度特征。

📖
術語

Self-Supervised ViT Pre-training

如DINO或MAE等无监督训练方法,利用Transformer结构在没有标注的情况下进行学习。

📖
術語

Cross-Attention in Multi-Modal ViT

一种扩展ViT的机制,通过使用不同模态间的注意力来联合处理图像和文本。

📖
術語

Computational Complexity O(n²)

自注意力相对于图像块数量的二次方复杂度,是Vision Transformer的主要限制。

🔍

搵唔到結果