多模态模型 - AI 詞彙表

📖

術語

视觉语言模型 (VLM)

多模态模型的一个子类，专门用于联合理解文本和图像，能够执行如图像字幕生成、视觉推理或根据文本生成图像等任务。

📖

術語

视觉分词

一种将图像切割成一系列离散的图像块或标记的技术，通常通过像视觉转换器（ViT）这样的神经网络，使其与文本转换器的架构兼容。

📖

術語

对齐模型

一种模型，通常基于像CLIP这样的对比模型，在海量的（图像，文本）对语料库上进行训练，以学习如何将两种模态投射到一个共享的向量空间中，在该空间中，余弦相似度反映了它们之间的相关性。

📖

術語

多模态条件生成

一种生成任务，其输出（例如文本、图像）是基于一种或多种不同模态的输入而产生的，例如图像描述或文本到图像的生成。

📖

術語

多模态思维链推理

模型利用多种模态信息来构建一个逻辑思维序列并得出结论的能力，例如通过分析图表和文本来回答问题。

📖

術語

多模态感知机

一个理论概念或基础架构，其中不同性质的输入通常通过拼接或融合操作进行组合，然后再由全连接神经网络层处理。

📖

術語

多模态扩散模型

一种生成式架构，它使用迭代式的加噪和去噪过程，并使用条件信息来引导去噪，从而创建由另一种模态（如文本描述）所条件化的数据（如图像）。

📖

術語

分离式编码 vs 统一式编码

多模态模型的两种架构策略：分离式编码在融合前使用专门的编码器分别处理每种模态；而统一式编码则使用单个转换器来处理一个混合的标记序列。

📖

術語

零样本多模态学习

模型在没有明确训练的情况下，通过利用从另一种模态（例如类标签的文本）转移的知识来执行某种模态任务（例如分类图像）的能力。

📖

術語

音频-视觉-文本模型

先进的多模态模型形式，集成三种数据流（声音、图像、文本）用于复杂任务，如视频描述，其中模型必须同步和解释视觉和听觉信息以产生文本叙述。

📖

術語

潜在投影

神经网络层，通常是简单的线性变换，用于在融合或比较之前将每种模态的嵌入向量映射到一个共同的潜在空间。

📖

術語

多模态基础模型

大规模模型，在海量异质数据上预训练，作为适应（微调）到多种特定多模态任务的基础。

📖

術語

多模态模型中的模块化

设计原则，其中每种模态的编码器是独立且可互换的模块，允许更新或替换某个组件（例如视觉编码器）而无需重新训练整个模型。

📖

術語

多模态提示

与模型交互的技术，其中输入（'提示'）由多种模态组成，例如图像附带文本问题，以引导模型产生特定答案。

AI 詞彙表