AI 词汇表
人工智能完整词典
音频扩散模型
一种生成神经网络架构,通过应用扩散和渐进去噪过程,从初始随机噪声合成高保真音频波形。
条件频谱图
音频信号的时频表示,用作扩散模型中的输入或条件,其中迭代去噪过程被引导以重建一致的频谱结构。
神经声码器
将中间声学表示(如频谱图或旋律特征)转换为连续音频波形的神经网络,通常集成在音频扩散管道的末端。
语音扩散
扩散模型在语音信号生成中的专门应用,旨在捕捉语音的语音学、韵律和音色细微差别,实现自然的语音合成。
音乐扩散
专注于音乐内容生成的音频扩散子领域,包括和声、节奏、旋律和音色,通常以乐谱或和弦等结构信息为条件。
无分类器引导
一种推理技术,通过在条件预测和无条件预测之间进行插值,增强扩散模型对条件(文本、旋律等)的遵循,从而提高生成的保真度和可控性。
扩散时间步
表示加噪或去噪过程阶段的离散变量,范围从0(纯净信号)到T(纯噪声),用于调节神经网络以预测每次迭代中需要去除的噪声。
音频潜在空间
通过编码器获得的音频数据的压缩抽象表示,在其中应用扩散过程以降低计算复杂度,同时保留语义信息。
音频修复
通过扩散模型,基于周围音频上下文,对缺失或损坏的音频信号片段进行再生或补全的操纵任务。
音频超分辨率
扩散模型提升低分辨率音频信号质量或采样率的过程,添加合理且一致的高频细节。
连续音频编码
将离散波形转换为潜在空间中一组连续向量的表示方法,作为生成式音频模型扩散过程的基础。
文本-音频条件控制
音频扩散模型通过文本描述引导生成对应声音的技术,需要能够对齐文本和听觉模态的多模态架构。
噪声评分匹配(去噪评分匹配)
扩散模型的基本训练目标,使神经网络学习预测数据分布相对于噪声输入的梯度(评分),从而实现迭代去噪。
随机采样
扩散模型的推理方法,其中每一步去噪都包含随机成分,促进生成多样性但可能引入伪影。
确定性采样(DDIM)
通过以确定性方式减少去噪步骤来加速生成过程的推理策略,降低随机性以获得更可重复的结果。
潜在扩散模型
在由自编码器学习的低维潜在空间中操作的扩散模型变体,使训练和推理对高分辨率数据(如音频)更高效。
卷积变换器用于音频
混合架构,结合卷积层以捕捉局部模式和注意力机制以处理长期依赖关系,常用作音频扩散U-Net的主干网络。
音频生成流程
完整的操作序列,从条件编码(文本、旋律)到潜在空间扩散,最后通过声码器解码,以产生最终的音频信号。
噪声重缩放
调整扩散过程每个步骤中添加噪声方差的技巧,用于稳定训练并提高音频模型中生成样本的质量。