AI 词汇表
人工智能完整词典
SVRG (随机方差缩减梯度)
一种优化算法,它通过结合周期性的完整梯度计算与随机更新来减少方差。SVRG 维护一个完整梯度的参考,用以校正随机梯度的估计值。
SAGA
一种方差缩减方法,它为每个数据点使用一个历史梯度表,并在每次迭代中进行校正。SAGA 结合了 SAG 和 SVRG 的优点,并对凸问题保证了线性收敛。
SAG (随机平均梯度)
一种优化算法,它在内存中为每个数据点维护先前的梯度,并对其进行增量更新。SAG 通过使用历史梯度的平均值作为参考估计来减少方差。
小批量
完整数据集的一个中等大小的子集,用于在每次迭代中计算梯度估计。与纯 SGD 相比,小批量减少了方差,同时比完整梯度计算更高效。
控制变量
一种通过引入相关的控制变量来减少估计量方差的统计技术。在随机优化中,控制变量通过使用一个低方差参考来修正梯度估计。
梯度快照
在像 SVRG 这样的方差缩减算法中,定期存储的完整梯度计算。该快照用作参考,以在完整更新之间修正随机梯度估计。
线性收敛
对于强凸问题,其误差随迭代次数呈指数级下降的收敛速度。在某些条件下,像 SVRG 和 SAGA 这样的方差缩减方法可以达到线性收敛。
梯度方差
由于数据的随机采样,随机梯度估计值的可变性度量。降低这种方差是 SVRG 和 SAGA 技术以改善收敛性的主要目标。
内存复杂度
算法为存储计算所需信息而要求的内存空间。SAG和SAGA需要O(n)内存来存储历史梯度,而SVRG只需要O(1)的额外内存。
强凸性
函数的一种属性,其曲率下界为一个正常数。强凸性是保证方差缩减方法线性收敛的关键条件。
近端算子
一种数学运算,它推广了凸集投影以包含正则化项。方差缩减方法可以与近端算子结合,以处理不可微问题。
随机梯度估计器
在数据随机子集上计算的真实梯度的无偏估计量。方差缩减技术修改此估计量以降低其方差,同时保持其无偏性。
方差界
方差缩减算法所保证的梯度估计方差的理论上界。这个界通常与问题的条件数和到最优解的距离有关。
SARAH (随机递归梯度算法)
一种方差缩减算法,它使用递归方法在每次迭代中更新梯度估计量。SARAH结合了SVRG和加速梯度方法的思想,并具有收敛保证。