随机梯度下降方法

📖

術語

自适应优化算法，它根据累积梯度的历史记录，为每个参数动态调整学习率。它允许对不频繁出现的参数进行较大的更新，而对频繁出现的参数进行较小的更新。

📖

術語

一种优化方法，通过使用梯度平方的指数移动平均，解决了Adagrad算法中学习率过度衰减的问题。RMSprop在保持自适应学习率的同时，避免了学习率的急剧下降。

📖

術語

一种正则化技术，在训练过程中逐步降低学习率，以便更精细地收敛到最优点。学习率衰减有助于在训练的最后阶段稳定优化过程。

📖

術語

随机方法中梯度估计固有的统计变异性，源于对数据的随机抽样。噪声有助于逃离局部最小值，但需要相应的技术来控制其方差。

📖

術語

随机方法中梯度估计离散程度的度量，直接影响优化的稳定性。降低方差是提高随机算法效率的一个关键目标。

📖

術語

在小批量方法中，用于计算每次梯度估计的样本数量。批次大小影响着计算效率、梯度估计质量和泛化能力之间的权衡。

📖

術語

一个完整的训练周期，在此期间，数据集中的每个样本都恰好被使用一次来更新参数。周期用于构建训练结构并监控学习进度。

📖

術語

一种基础的随机逼近算法，它使用带噪声的观测和递减的步长来收敛到一个函数的零点。该方法构成了现代随机梯度下降的理论基础。

AI 詞彙表