AI 词汇表
人工智能完整词典
多模态属性融合
将来自不同模态(文本、图像、声音)的特征组合成统一表示的过程,用于学习模型,旨在捕捉数据源之间复杂的相互作用。
投影解释
一种可解释性方法,将复杂模态(如图像)的贡献投影到更简单且可解释的空间(如关键词或概念),以解释其对模型预测的影响。
多模态显著图
一种可视化方法,突出显示每个模态中对模型特定决策最具影响力的区域或片段(图像像素、文本词语、音频片段),通常通过将贡献叠加在原始数据上来实现。
跨模态语义对齐
旨在建立不同模态元素之间语义对应关系的技术(如将词语与图像区域关联或将声音与动作关联),对于模型理解关系并提供一致解释至关重要。
模态分解
一种可解释性方法,分离并量化每个输入模态对最终预测的个体贡献,从而理解决策是否主要由文本、图像或声音引导。
多模态概念瓶颈
一种模型架构,其中最终预测由一组可解释概念所条件化,这些概念本身是从模态融合中推导出来的,提供了从原始数据到概念再到决策的清晰可追溯性。
正交正则化
在训练过程中施加的约束,强制共享潜在空间中不同模态的表示尽可能独立,避免冗余并提高模态解释的清晰度。
多模态反事实解释
生成修改后的示例(通过改变一个或多个模态),这些示例足以逆转模型的预测,有助于理解决策所需的最小条件以及模态间的相互作用。
用于可解释性的晚期融合
一种策略,其中每种模态都由专门的模型处理至中间决策阶段,然后融合结果。这种方法通过隔离每种模态的逻辑再进行最终组合,从而便于解释。
基础视觉-语言模型
在大量文本和视觉数据上预训练的大规模模型,能够理解和生成这两种模态的内容,由于其内在复杂性,其可解释性是一个主要挑战。
模态角色分析
系统评估每种模态在不同任务或情境中所扮演的角色,确定模态是作为上下文支持、主要信息来源还是其他模态的修饰者。
视觉-语言基础
将语言符号(单词、短语)锚定到视觉数据中的具体实体或概念的过程,对于模型连接文本和图像的解释在语义上正确且可理解至关重要。
融合节点可解释性
专注于分析多模态信息融合发生的特定神经元或层的方法,以理解交互如何被编码以及它们如何影响模型输出。
交叉梯度解释
一种可解释性技术,计算模型输出相对于一种模态特征的梯度,同时将此计算条件化于另一种模态的特征,从而揭示模态间的依赖关系。