视频与时间扩散 - AI 术语表

📖

个术语

视频扩散模型

一种生成架构，将扩散过程应用于时空数据，通过在视频序列的图像中逐步添加噪声，然后学习去噪以重建或创建连贯的视频。

📖

个术语

时空潜在扩散

视频扩散模型的变体，在压缩的潜在空间中操作，通过在低维表示而非原始像素帧上应用噪声添加和去噪过程，降低计算复杂度。

📖

个术语

3D注意力

同时处理视频的空间维度（高度、宽度）和时间维度（时间）的注意力机制，使模型能够权衡不同时刻不同区域的重要性，以捕获时空依赖关系。

📖

个术语

时间嵌入

将时间信息（扩散步数、序列中的位置）编码为向量的技术，这些向量被注入到网络中，指导生成过程以保持时间上的连贯性和运动。

📖

个术语

基于前一帧的条件去噪

一种策略，其中视频帧的噪声预测以前一帧的去噪版本为条件，确保生成序列中连续图像之间的强连续性和时间一致性。

📖

个术语

3D U-Net架构

适用于视频数据的卷积神经网络结构，结合了编码器-解码器路径和3D残差连接，以在去噪过程中有效捕获多尺度时空上下文。

📖

个术语

时空潜在空间

视频序列的压缩抽象表示，其中空间和时间信息被编码在低维向量或特征图中，作为视频生成或操作的基础。

📖

个术语

视频无分类器引导

无需显式分类器控制视频生成的方法，通过同时训练条件（如文本）和非条件数据模型，然后在它们的预测之间进行插值，以调整对提示的遵循程度，同时保持多样性。

📖

个术语

时间扩散调度

规划分配给每帧或时间段的去噪步骤数量，可以是均匀的或自适应的，以根据运动复杂度优化生成视频的质量和整体一致性。

📖

个术语

扩散时间超分辨率

应用扩散模型来增加视频的帧率，通过生成连贯的中间帧，以逼真的方式插值现有帧之间的运动和变化。

📖

个术语

扩散视频修复

使用扩散模型填充视频序列中缺失或遮罩区域的过程，该模型基于周围帧的上下文生成空间和时间上一致的像素。

📖

个术语

潜在运动建模

一种技术，其中视频中的运动直接在潜在空间中建模和生成，通常通过预测连续帧潜在代码之间的位移或变换，然后将它们解码为图像。

📖

个术语

约束时间一致性

一种在模型损失函数中添加惩罚或显式约束的方法，以抑制相邻帧之间与运动无关的外观变化（例如颜色、纹理），促进视觉稳定性。

📖

个术语

时空噪声分解

一种先进方法，其中模型添加和预测的噪声被分解为空间分量（外观）和时间分量（运动），从而实现对动态视频的更精细控制和更稳健的生成。

📖

个术语

扩散潜在自回归

一种混合策略，以逐帧自回归的方式生成视频，其中每个潜在帧通过以前一潜在帧为条件的扩散步骤产生，结合了自回归的一致性和扩散的质量。

📖

个术语

时间特征归一化

应用于3D U-Net特征图时间维度的归一化层，通过确保激活分布在序列的不同时间阶段保持一致来稳定训练。

AI 词汇表