AdaDelta - AI 术语表

📖

个术语

存储和累积过去梯度信息以动态调整学习率的过程。在AdaDelta中，这种累积被限制在一个滑动窗口内，以避免学习率的无限衰减。

📖

个术语

一个参数（通常在0.9到0.999之间），控制过去梯度影响指数衰减的速度。该因子决定了AdaDelta等自适应算法中滑动窗口的有效大小。

📖

个术语

利用历史统计数据对梯度进行缩放以稳定训练的过程。AdaDelta通过将梯度除以其平方的移动平均值的平方根来归一化梯度。

📖

个术语

AdaDelta的一个基本原则，即更新量与参数具有相同的单位，从而无需全局学习率。这种方法使用过去更新的移动平均值与当前梯度的移动平均值之间的比率。

📖

个术语

根据每个参数的梯度历史动态调整其更新幅度的过程。AdaDelta使用过去更新的移动平均值来确定这种自适应缩放。

📖

个术语

确保优化算法达到局部或全局最优的数学标准。AdaDelta等自适应算法通过动态改变优化步骤的方向和幅度来修改这些条件。

📖

个术语

自适应算法存储的额外信息，用于计算未来的更新。AdaDelta维护两种状态：梯度的平方的移动平均值和更新量的平方的移动平均值。

📖

个术语

AdaDelta的唯一参数（通常设置为0.95），控制滑动窗口指数衰减的速度。该参数决定了更新计算中近期信息和历史信息之间的平衡。

AI 词汇表