AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
多模态扩散
通过共享或协调的扩散过程,学习多种模态(文本、图像、音频)联合概率分布的生成模型类别。
个术语
统一潜在空间
将不同模态的数据投影到共同的向量表示中,使它们能够在扩散模型内进行交互和相互转换。
个术语
跨模态条件生成
一种技术,其中一种模态的生成过程由另一种模态的信息引导,例如根据文本生成图像或根据图像生成音频。
个术语
多模态结构化噪声
一种保留模态间相关性的加噪过程,通过联合降解不同模态来在整个扩散过程中保持它们的语义对齐。
个术语
协调去噪
去噪步骤,其中专用于每个模态的神经网络交换信息,从它们的共享噪声版本中一致地重建数据。
个术语
多模态编码器
负责将不同模态的数据投影到统一潜在空间中的神经网络,捕获它们的基本特征和关系。
个术语
多模态解码器
在去噪过程后,从统一潜在空间中的表示重建每个模态数据的神经网络。
个术语
跨模态对齐
旨在最小化描述同一概念的不同模态潜在表示之间距离的学习目标,确保它们的语义一致性。
个术语
统一扩散模型
单一模型架构,使用相同的扩散过程和共享权重集同时处理和生成多种模态。
个术语
多模态引导
一种推理技术,使用多模态分类模型的梯度来引导采样过程,使输出更好地与给定条件对齐。
个术语
多臂扩散
一种架构,其中中心扩散过程具有专门处理每种模态特定噪声添加和去噪的'臂',同时共享一个共同的主干。
个术语
多模态一致性损失
一种损失函数,惩罚生成模态之间的语义不一致性,例如通过统一潜在空间中的余弦距离来测量。
个术语
跨模态采样
一种生成过程,在采样一种模态的同时以另一种已存在或同时生成的模态为条件。
个术语
共享噪声预测网络
扩散模型的核心组件,通常是U-Net架构,其底层在模态之间共享,而顶层是专门化的。
个术语
多模态时间嵌入
扩散过程时间步长的表示,被注入到模型中,通常以模态为条件来处理不同的噪声动态。
个术语
多模态序列扩散
将扩散应用于涉及多种模态的序列数据,如视频生成(图像+时间)或同步对话生成(音频+文本)。
个术语
多模态分词
将不同模态的数据离散化为统一标记序列的过程,这些标记可以在扩散框架下通过Transformer架构进行处理。
🔍