多模态问答 - AI 术语表

📖

个术语

跨模态

系统理解和关联来自不同模态（如文本和图像）信息的能力，以丰富上下文理解。

📖

个术语

视觉-语言Transformer (VLT)

在大规模图像和文本配对语料库上预训练的Transformer架构，专为多模态理解和生成任务设计。

📖

个术语

视觉推理

QA系统通过分析图像中的空间关系、对象属性或复杂场景来推断非显式信息的能力。

📖

个术语

视觉基础定位

将语言概念（词语、短语）锚定到图像或视频中特定实体或区域的操作，创建有形的语义链接。

📖

个术语

模态间对齐

将一个模态的段落（例如一个句子）与另一个模态的相关段落（例如图像区域）进行匹配的学习过程。

📖

个术语

量化向量码本 (VQ)

多模态模型中使用的技术，将连续表示（例如图像）离散化为有限个离散标记集合，便于语言模型处理。

📖

个术语

多模态感知机 (MLP)

神经网络，通常是MLP，接收多个模态的融合特征作为输入，执行最终的分类或回归任务。

📖

个术语

双流融合模型

架构中每个模态由独立的神经网络（一个流）处理，然后将其表示组合起来进行共同决策。

📖

个术语

多模态信息检索

任务是从另一种模态（如文本）的查询中检索相关文档（如图像），基于它们在共享嵌入空间中的相似性。

📖

个术语

条件响应生成

过程是语言模型生成文本响应，其内容受图像等非文本模态提取的信息的条件和指导。

📖

个术语

图像标记化

将图像转换为离散标记序列的过程，通常通过VAE或VQ-VAE，使其与Transformer架构兼容。

AI 词汇表

跨模态