人工智能完整词典
由于mini-batch随机采样导致的梯度估计的固有变异性,有助于跳出局部最小值。这种噪声的特征是其方差与batch大小成反比,并随着收敛而减小。
随机梯度下降的基础版本,没有动量或学习率自适应等加速机制。普通SGD使用恒定的学习率沿梯度的负方向更新权重。
使用整个数据集在每次迭代中计算精确梯度估计的梯度下降变体。这种方法提供了稳定的收敛,但对于大型数据集具有不可接受的计算成本。