潜在扩散模型

📖

術語

在通过自编码器获得的低维潜在空间中运行的扩散架构，显著降低计算成本的同时保持高质量的图像生成。

📖

術語

感知编码器

LDM中自编码器的组成部分，将高维图像（像素）转换为低维表示（潜在），捕获本质的语义信息。

📖

術語

交叉注意力机制

注意力机制，使潜在扩散模型能够整合异构信息（如CLIP文本嵌入），以灵活精确的方式引导图像生成。

📖

術語

噪声调度器

定义前向过程中每个时间步添加噪声方差的算法，影响LDM中生成的收敛速度和最终质量。

📖

術語

噪声回归（去噪）

U-Net扩散模型的主要任务，预测在给定时间步添加到潜在表示的噪声，通过相减逐步对信号进行去噪。

📖

術語

分层U-Net

U形神经网络架构，具有残差连接和注意力机制，作为扩散模型的核心，用于预测每个去噪步骤的噪声。

📖

術語

无分类器引导（CFG）

一种条件方法，利用模型自身的对数概率梯度来增强对提示的遵循，避免需要外部分类器并提高对文本的保真度。

📖

術語

Stable Diffusion

潜在扩散模型架构的著名开源实现，结合VAE、U-Net和通过CLIP的文本条件，实现可访问且高性能的图像生成。

📖

術語

随机分数匹配（SDE）

扩散模型的替代理论框架，将其解释为通过求解随机微分方程来学习数据密度梯度（分数）的过程。

📖

術語

潜在重采样（Latent Resampling）

一种推理技术，动态修改潜在空间中的去噪轨迹，通过调整时间步长或引导强度来提高生成结果的一致性和质量。

📖

術語

时间蒸馏

模型压缩过程，利用大型慢速扩散模型训练更小更快的模型，使其能在更少的去噪步骤中生成质量相当的图像。

📖

術語

一致性去噪

一类推理方法，通过求解常微分方程（ODE）来近似去噪过程，实现单步或极少步骤的高质量生成。

📖

術語

提示词分词

预处理步骤，将输入文本转换为数字标识符序列（token），随后由语言模型（如CLIP）转换为嵌入向量用于条件控制。

📖

術語

KL重建损失

LDM的VAE训练中的正则化项，衡量学习到的潜在分布与先验分布（通常为标准高斯分布）之间的KL散度。

📖

術語

文本嵌入空间

高维向量空间，其中文本（提示词）以嵌入向量形式表示，通过交叉注意力机制为扩散模型提供条件控制。

AI 詞彙表