AI 詞彙表
人工智能完整詞典
视频扩散模型
一种生成架构,将扩散过程应用于时空数据,通过在视频序列的图像中逐步添加噪声,然后学习去噪以重建或创建连贯的视频。
时空潜在扩散
视频扩散模型的变体,在压缩的潜在空间中操作,通过在低维表示而非原始像素帧上应用噪声添加和去噪过程,降低计算复杂度。
3D注意力
同时处理视频的空间维度(高度、宽度)和时间维度(时间)的注意力机制,使模型能够权衡不同时刻不同区域的重要性,以捕获时空依赖关系。
时间嵌入
将时间信息(扩散步数、序列中的位置)编码为向量的技术,这些向量被注入到网络中,指导生成过程以保持时间上的连贯性和运动。
基于前一帧的条件去噪
一种策略,其中视频帧的噪声预测以前一帧的去噪版本为条件,确保生成序列中连续图像之间的强连续性和时间一致性。
3D U-Net架构
适用于视频数据的卷积神经网络结构,结合了编码器-解码器路径和3D残差连接,以在去噪过程中有效捕获多尺度时空上下文。
时空潜在空间
视频序列的压缩抽象表示,其中空间和时间信息被编码在低维向量或特征图中,作为视频生成或操作的基础。
视频无分类器引导
无需显式分类器控制视频生成的方法,通过同时训练条件(如文本)和非条件数据模型,然后在它们的预测之间进行插值,以调整对提示的遵循程度,同时保持多样性。
时间扩散调度
规划分配给每帧或时间段的去噪步骤数量,可以是均匀的或自适应的,以根据运动复杂度优化生成视频的质量和整体一致性。
扩散时间超分辨率
应用扩散模型来增加视频的帧率,通过生成连贯的中间帧,以逼真的方式插值现有帧之间的运动和变化。
扩散视频修复
使用扩散模型填充视频序列中缺失或遮罩区域的过程,该模型基于周围帧的上下文生成空间和时间上一致的像素。
潜在运动建模
一种技术,其中视频中的运动直接在潜在空间中建模和生成,通常通过预测连续帧潜在代码之间的位移或变换,然后将它们解码为图像。
约束时间一致性
一种在模型损失函数中添加惩罚或显式约束的方法,以抑制相邻帧之间与运动无关的外观变化(例如颜色、纹理),促进视觉稳定性。
时空噪声分解
一种先进方法,其中模型添加和预测的噪声被分解为空间分量(外观)和时间分量(运动),从而实现对动态视频的更精细控制和更稳健的生成。
扩散潜在自回归
一种混合策略,以逐帧自回归的方式生成视频,其中每个潜在帧通过以前一潜在帧为条件的扩散步骤产生,结合了自回归的一致性和扩散的质量。
时间特征归一化
应用于3D U-Net特征图时间维度的归一化层,通过确保激活分布在序列的不同时间阶段保持一致来稳定训练。