AI 詞彙表
人工智能完整詞典
经典动量
一种优化技术,它通过衰减因子累积过去的梯度,在权重更新中产生惯性。这种方法可以在恒定方向上加速收敛,同时抑制振荡。
动量因子 (beta)
一个超参数,控制先前梯度对当前更新的影响,通常设定在0.9到0.99之间。更高的值会增加惯性,并稳定优化在狭窄山谷中的轨迹。
动量速度
一个累积先前迭代加权梯度的向量,表示参数空间中的下降方向和速度。速度在每次迭代中通过当前梯度和先前速度的线性组合进行更新。
优化中的惯性
一种物理类比现象,其中参数更新保留一部分先前的动量,从而能够越过高原和浅层局部最小值。惯性在复杂的非凸损失景观中导航时特别有效。
阻尼振荡
通过在一致方向上累积动量,逐渐减少围绕最优下降方向的波动。这种机制特别稳定优化在梯度高度相关的狭窄山谷中。
自适应动量
动量的一种扩展,其中惯性因子根据优化景观的局部特征动态调整。这种适应性允许根据损失曲面的几何形状,在探索和利用之间实现最佳平衡。
梯度历史
用于计算当前更新方向的先前梯度的记忆,能够捕捉下降的长期趋势。指数加权历史优先考虑最近的梯度,同时保留先前迭代的信息。
虚拟质量
一个类比概念,表示优化轨迹中对变化的抵抗,由动量因子控制。高虚拟质量会产生更平滑的运动,对瞬时梯度噪声不那么敏感。
摩擦力
动量中隐含的正则化机制,通过抵消加速度来避免发散,通常通过 (1-beta) 因子实现。这种力确保了数值稳定性并保证收敛到有意义的最小值。
随机动量
在随机优化中应用动量,其中噪声梯度被时间平均以减少估计的方差。该技术在大型数据集的 mini-batch 训练中特别有效。
小批量动量
一种策略,其中速度在每个小批量(mini-batch)之后而不是在每个单独样本之后更新,在稳定性和计算成本之间取得平衡。这种方法在保持动量优势的同时,实现了更好的泛化能力。
动量衰减
在训练期间调整动量因子的一种技术,通常通过逐渐减小它来优化最终收敛。该策略结合了训练初期的快速探索和优化后期的精确性。
循环动量
动量因子与学习周期同步的周期性变化,以逃离局部最小值并探索解决方案空间。这种方法通常与循环学习率结合使用,以改进全局优化。
动量热身
训练的初始阶段,动量因子从零开始逐渐增加,以避免早期迭代的不稳定性。该技术有助于深度网络中优化的逐步稳定。