Adagrad - AI 术语表

📖

个术语

自适应学习率

在训练过程中自动调整学习率的机制，根据损失函数景观的局部特征改变参数更新的幅度。

📖

个术语

历史梯度平方和

Adagrad 中用于归一化参数更新的过去梯度平方的指数累积，惩罚频繁的大梯度并偏爱历史梯度较小的方向。

📖

个术语

对角缩放因子

Adagrad 中用于预处理梯度的对角矩阵，其每个元素代表每个单独参数的梯度平方累积和的平方根。

📖

个术语

凸损失函数

目标函数，其中表面上任意两点之间的直线都位于表面上方，确保没有局部最小值以及梯度下降方法的全局收敛。

📖

个术语

梯度范数

梯度向量大小的度量，在 Adagrad 中用于确定参数是否在历史上经历了显著更新，从而需要自适应学习率调整。

📖

个术语

梯度平方的期望

梯度平方长期平均值的统计估计，作为 Adagrad 家族优化器中自适应缩放因子计算的基础。

📖

个术语

参数向量

模型中所有可优化变量的集合，由 Adagrad 迭代更新，并为向量的每个分量单独调整学习率。

📖

个术语

病态条件

梯度在不同方向上的尺度差异很大的情况，Adagrad 通过动态调整每个维度的学习率来专门解决这个问题。

📖

个术语

偏差校正

Adam及其变体中的一种机制，用于纠正由于指数移动平均线零初始化导致的初始一阶和二阶矩估计的偏差。

📖

个术语

Epsilon超参数

在Adagrad及其变体中添加到分母的一个小常数，用于在梯度平方和非常小的情况下，通过避免除以零来确保数值稳定性。

AI 词汇表