🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

ALBEF (先对齐后融合)

一种创新架构,首先在共享空间中对齐图文表示,然后再进行融合,使用动量蒸馏来提高性能。

📖
个术语

MDETR (端到端多模态理解的调制检测)

一种端到端的目标检测架构,通过自然语言进行调制,允许复杂的文本查询来定位和识别图像中的对象。

📖
个术语

UNITER (通用图文表示)

在4个大型多模态任务(图文匹配、掩码语言建模、掩码区域建模、词-区域匹配)上预训练的模型,用于实现通用的视觉-语言理解。

📖
个术语

VILLA (视觉和语言大规模模型)

使用统一的Transformer架构预训练的大规模模型,用于视觉-语言理解任务,采用交叉掩码预训练。

📖
个术语

FLAVA (基础语言和视觉对齐)

统一的多模态基础模型,采用简单的Transformer架构,同时在纯文本、纯图像和多模态数据上进行预训练。

📖
个术语

Oscar (对象语义对齐预训练)

一种预训练方法,引入检测到的对象标签作为语义锚点来对齐文本和图像,显著改善多模态理解能力。

📖
个术语

VinVL (增强视觉特征的视觉和语言预训练)

通过大规模对象检测器和属性增强视觉特征的框架,在V+L基准测试上达到最先进性能。

📖
个术语

BridgeTower (桥接塔)

在单模态编码器之间引入桥接的架构,促进模态间的深度交互,优化不同尺度下的图文信息交换。

📖
个术语

Pix2Struct

预训练的Transformer模型,在截图解析任务上进行训练,擅长理解用户界面、图表和视觉结构化文档。

📖
个术语

PaLI (Pathways Language and Image model)

基于Pathways的大规模多模态模型,结合图像编码器和文本编码器-解码器,用于视觉翻译和视觉问答任务。

🔍

未找到结果