AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
跨模态
系统理解和关联来自不同模态(如文本和图像)信息的能力,以丰富上下文理解。
術語
视觉-语言Transformer (VLT)
在大规模图像和文本配对语料库上预训练的Transformer架构,专为多模态理解和生成任务设计。
術語
视觉推理
QA系统通过分析图像中的空间关系、对象属性或复杂场景来推断非显式信息的能力。
術語
视觉基础定位
将语言概念(词语、短语)锚定到图像或视频中特定实体或区域的操作,创建有形的语义链接。
術語
模态间对齐
将一个模态的段落(例如一个句子)与另一个模态的相关段落(例如图像区域)进行匹配的学习过程。
術語
量化向量码本 (VQ)
多模态模型中使用的技术,将连续表示(例如图像)离散化为有限个离散标记集合,便于语言模型处理。
術語
多模态感知机 (MLP)
神经网络,通常是MLP,接收多个模态的融合特征作为输入,执行最终的分类或回归任务。
術語
双流融合模型
架构中每个模态由独立的神经网络(一个流)处理,然后将其表示组合起来进行共同决策。
術語
多模态信息检索
任务是从另一种模态(如文本)的查询中检索相关文档(如图像),基于它们在共享嵌入空间中的相似性。
術語
条件响应生成
过程是语言模型生成文本响应,其内容受图像等非文本模态提取的信息的条件和指导。
術語
图像标记化
将图像转换为离散标记序列的过程,通常通过VAE或VQ-VAE,使其与Transformer架构兼容。
🔍