多模态Transformers - AI 术语表

📖

个术语

ALBEF (先对齐后融合)

一种创新架构，首先在共享空间中对齐图文表示，然后再进行融合，使用动量蒸馏来提高性能。

📖

个术语

MDETR (端到端多模态理解的调制检测)

一种端到端的目标检测架构，通过自然语言进行调制，允许复杂的文本查询来定位和识别图像中的对象。

📖

个术语

UNITER (通用图文表示)

在4个大型多模态任务（图文匹配、掩码语言建模、掩码区域建模、词-区域匹配）上预训练的模型，用于实现通用的视觉-语言理解。

📖

个术语

VILLA (视觉和语言大规模模型)

使用统一的Transformer架构预训练的大规模模型，用于视觉-语言理解任务，采用交叉掩码预训练。

📖

个术语

FLAVA (基础语言和视觉对齐)

统一的多模态基础模型，采用简单的Transformer架构，同时在纯文本、纯图像和多模态数据上进行预训练。

📖

个术语

Oscar (对象语义对齐预训练)

一种预训练方法，引入检测到的对象标签作为语义锚点来对齐文本和图像，显著改善多模态理解能力。

📖

个术语

VinVL (增强视觉特征的视觉和语言预训练)

通过大规模对象检测器和属性增强视觉特征的框架，在V+L基准测试上达到最先进性能。

📖

个术语

BridgeTower (桥接塔)

在单模态编码器之间引入桥接的架构，促进模态间的深度交互，优化不同尺度下的图文信息交换。

📖

个术语

Pix2Struct

预训练的Transformer模型，在截图解析任务上进行训练，擅长理解用户界面、图表和视觉结构化文档。

📖

个术语

PaLI (Pathways Language and Image model)

基于Pathways的大规模多模态模型，结合图像编码器和文本编码器-解码器，用于视觉翻译和视觉问答任务。

AI 词汇表