动量 - AI 詞彙表

📖

術語

经典动量

一种优化技术，它通过衰减因子累积过去的梯度，在权重更新中产生惯性。这种方法可以在恒定方向上加速收敛，同时抑制振荡。

📖

術語

动量因子 (beta)

一个超参数，控制先前梯度对当前更新的影响，通常设定在0.9到0.99之间。更高的值会增加惯性，并稳定优化在狭窄山谷中的轨迹。

📖

術語

动量速度

一个累积先前迭代加权梯度的向量，表示参数空间中的下降方向和速度。速度在每次迭代中通过当前梯度和先前速度的线性组合进行更新。

📖

術語

优化中的惯性

一种物理类比现象，其中参数更新保留一部分先前的动量，从而能够越过高原和浅层局部最小值。惯性在复杂的非凸损失景观中导航时特别有效。

📖

術語

阻尼振荡

通过在一致方向上累积动量，逐渐减少围绕最优下降方向的波动。这种机制特别稳定优化在梯度高度相关的狭窄山谷中。

📖

術語

自适应动量

动量的一种扩展，其中惯性因子根据优化景观的局部特征动态调整。这种适应性允许根据损失曲面的几何形状，在探索和利用之间实现最佳平衡。

📖

術語

梯度历史

用于计算当前更新方向的先前梯度的记忆，能够捕捉下降的长期趋势。指数加权历史优先考虑最近的梯度，同时保留先前迭代的信息。

📖

術語

虚拟质量

一个类比概念，表示优化轨迹中对变化的抵抗，由动量因子控制。高虚拟质量会产生更平滑的运动，对瞬时梯度噪声不那么敏感。

📖

術語

摩擦力

动量中隐含的正则化机制，通过抵消加速度来避免发散，通常通过 (1-beta) 因子实现。这种力确保了数值稳定性并保证收敛到有意义的最小值。

📖

術語

随机动量

在随机优化中应用动量，其中噪声梯度被时间平均以减少估计的方差。该技术在大型数据集的 mini-batch 训练中特别有效。

📖

術語

小批量动量

一种策略，其中速度在每个小批量（mini-batch）之后而不是在每个单独样本之后更新，在稳定性和计算成本之间取得平衡。这种方法在保持动量优势的同时，实现了更好的泛化能力。

📖

術語

动量衰减

在训练期间调整动量因子的一种技术，通常通过逐渐减小它来优化最终收敛。该策略结合了训练初期的快速探索和优化后期的精确性。

📖

術語

循环动量

动量因子与学习周期同步的周期性变化，以逃离局部最小值并探索解决方案空间。这种方法通常与循环学习率结合使用，以改进全局优化。

📖

術語

动量热身

训练的初始阶段，动量因子从零开始逐渐增加，以避免早期迭代的不稳定性。该技术有助于深度网络中优化的逐步稳定。

AI 詞彙表