声波与波动扩散 - AI 术语表

📖

个术语

音频扩散模型

一种生成神经网络架构，通过应用扩散和渐进去噪过程，从初始随机噪声合成高保真音频波形。

📖

个术语

条件频谱图

音频信号的时频表示，用作扩散模型中的输入或条件，其中迭代去噪过程被引导以重建一致的频谱结构。

📖

个术语

神经声码器

将中间声学表示（如频谱图或旋律特征）转换为连续音频波形的神经网络，通常集成在音频扩散管道的末端。

📖

个术语

语音扩散

扩散模型在语音信号生成中的专门应用，旨在捕捉语音的语音学、韵律和音色细微差别，实现自然的语音合成。

📖

个术语

音乐扩散

专注于音乐内容生成的音频扩散子领域，包括和声、节奏、旋律和音色，通常以乐谱或和弦等结构信息为条件。

📖

个术语

无分类器引导

一种推理技术，通过在条件预测和无条件预测之间进行插值，增强扩散模型对条件（文本、旋律等）的遵循，从而提高生成的保真度和可控性。

📖

个术语

扩散时间步

表示加噪或去噪过程阶段的离散变量，范围从0（纯净信号）到T（纯噪声），用于调节神经网络以预测每次迭代中需要去除的噪声。

📖

个术语

音频潜在空间

通过编码器获得的音频数据的压缩抽象表示，在其中应用扩散过程以降低计算复杂度，同时保留语义信息。

📖

个术语

音频修复

通过扩散模型，基于周围音频上下文，对缺失或损坏的音频信号片段进行再生或补全的操纵任务。

📖

个术语

音频超分辨率

扩散模型提升低分辨率音频信号质量或采样率的过程，添加合理且一致的高频细节。

📖

个术语

连续音频编码

将离散波形转换为潜在空间中一组连续向量的表示方法，作为生成式音频模型扩散过程的基础。

📖

个术语

文本-音频条件控制

音频扩散模型通过文本描述引导生成对应声音的技术，需要能够对齐文本和听觉模态的多模态架构。

📖

个术语

噪声评分匹配（去噪评分匹配）

扩散模型的基本训练目标，使神经网络学习预测数据分布相对于噪声输入的梯度（评分），从而实现迭代去噪。

📖

个术语

随机采样

扩散模型的推理方法，其中每一步去噪都包含随机成分，促进生成多样性但可能引入伪影。

📖

个术语

确定性采样（DDIM）

通过以确定性方式减少去噪步骤来加速生成过程的推理策略，降低随机性以获得更可重复的结果。

📖

个术语

潜在扩散模型

在由自编码器学习的低维潜在空间中操作的扩散模型变体，使训练和推理对高分辨率数据（如音频）更高效。

📖

个术语

卷积变换器用于音频

混合架构，结合卷积层以捕捉局部模式和注意力机制以处理长期依赖关系，常用作音频扩散U-Net的主干网络。

📖

个术语

音频生成流程

完整的操作序列，从条件编码（文本、旋律）到潜在空间扩散，最后通过声码器解码，以产生最终的音频信号。

📖

个术语

噪声重缩放

调整扩散过程每个步骤中添加噪声方差的技巧，用于稳定训练并提高音频模型中生成样本的质量。

AI 词汇表