AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
历史累积
存储和累积过去梯度信息以动态调整学习率的过程。在AdaDelta中,这种累积被限制在一个滑动窗口内,以避免学习率的无限衰减。
个术语
衰减因子
一个参数(通常在0.9到0.999之间),控制过去梯度影响指数衰减的速度。该因子决定了AdaDelta等自适应算法中滑动窗口的有效大小。
个术语
梯度归一化
利用历史统计数据对梯度进行缩放以稳定训练的过程。AdaDelta通过将梯度除以其平方的移动平均值的平方根来归一化梯度。
个术语
单位一致性
AdaDelta的一个基本原则,即更新量与参数具有相同的单位,从而无需全局学习率。这种方法使用过去更新的移动平均值与当前梯度的移动平均值之间的比率。
个术语
参数缩放
根据每个参数的梯度历史动态调整其更新幅度的过程。AdaDelta使用过去更新的移动平均值来确定这种自适应缩放。
个术语
收敛条件
确保优化算法达到局部或全局最优的数学标准。AdaDelta等自适应算法通过动态改变优化步骤的方向和幅度来修改这些条件。
个术语
优化状态
自适应算法存储的额外信息,用于计算未来的更新。AdaDelta维护两种状态:梯度的平方的移动平均值和更新量的平方的移动平均值。
个术语
Rho超参数
AdaDelta的唯一参数(通常设置为0.95),控制滑动窗口指数衰减的速度。该参数决定了更新计算中近期信息和历史信息之间的平衡。
🔍