多模态可解释性 - AI 术语表

📖

个术语

多模态属性融合

将来自不同模态（文本、图像、声音）的特征组合成统一表示的过程，用于学习模型，旨在捕捉数据源之间复杂的相互作用。

📖

个术语

投影解释

一种可解释性方法，将复杂模态（如图像）的贡献投影到更简单且可解释的空间（如关键词或概念），以解释其对模型预测的影响。

📖

个术语

多模态显著图

一种可视化方法，突出显示每个模态中对模型特定决策最具影响力的区域或片段（图像像素、文本词语、音频片段），通常通过将贡献叠加在原始数据上来实现。

📖

个术语

跨模态语义对齐

旨在建立不同模态元素之间语义对应关系的技术（如将词语与图像区域关联或将声音与动作关联），对于模型理解关系并提供一致解释至关重要。

📖

个术语

模态分解

一种可解释性方法，分离并量化每个输入模态对最终预测的个体贡献，从而理解决策是否主要由文本、图像或声音引导。

📖

个术语

多模态概念瓶颈

一种模型架构，其中最终预测由一组可解释概念所条件化，这些概念本身是从模态融合中推导出来的，提供了从原始数据到概念再到决策的清晰可追溯性。

📖

个术语

正交正则化

在训练过程中施加的约束，强制共享潜在空间中不同模态的表示尽可能独立，避免冗余并提高模态解释的清晰度。

📖

个术语

多模态反事实解释

生成修改后的示例（通过改变一个或多个模态），这些示例足以逆转模型的预测，有助于理解决策所需的最小条件以及模态间的相互作用。

📖

个术语

用于可解释性的晚期融合

一种策略，其中每种模态都由专门的模型处理至中间决策阶段，然后融合结果。这种方法通过隔离每种模态的逻辑再进行最终组合，从而便于解释。

📖

个术语

基础视觉-语言模型

在大量文本和视觉数据上预训练的大规模模型，能够理解和生成这两种模态的内容，由于其内在复杂性，其可解释性是一个主要挑战。

📖

个术语

模态角色分析

系统评估每种模态在不同任务或情境中所扮演的角色，确定模态是作为上下文支持、主要信息来源还是其他模态的修饰者。

📖

个术语

视觉-语言基础

将语言符号（单词、短语）锚定到视觉数据中的具体实体或概念的过程，对于模型连接文本和图像的解释在语义上正确且可理解至关重要。

📖

个术语

融合节点可解释性

专注于分析多模态信息融合发生的特定神经元或层的方法，以理解交互如何被编码以及它们如何影响模型输出。

📖

个术语

交叉梯度解释

一种可解释性技术，计算模型输出相对于一种模态特征的梯度，同时将此计算条件化于另一种模态的特征，从而揭示模态间的依赖关系。

AI 词汇表