AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
解耦 L2 正则化
将权重衰减从梯度更新中分离,以便独立于优化步骤应用正则化。
術語
超参数 beta1 和 beta2
分别控制 AdamW 算法中一阶和二阶矩的指数衰减的系数。
術語
一阶矩
梯度的指数移动平均,捕捉下降的平均方向,以加速在误差峡谷中的收敛。
術語
二阶矩
梯度平方的指数移动平均,估计方差,以根据局部曲率调整学习率。
術語
稳定项 epsilon
一个小的常数,添加到分母中,以避免除以零并在梯度归一化时确保数值稳定性。
術語
渐近收敛
一种理论特性,确保算法在某些条件下,当迭代次数趋于无穷大时,能达到一个临界点。
術語
梯度分解
在 AdamW 的实现中,将梯度进行向量分离,分解为权重衰减分量和实际更新分量。
術語
冷启动偏差
在初始迭代中,由于零初始化导致的矩估计偏差问题,通过 AdamW 的偏差校正因子进行修正。
術語
权重衰减因子
控制独立应用于每个权重更新的解耦L2正则化强度的lambda参数。
術語
自适应归一化
将梯度除以其二阶矩的平方根,以根据梯度历史来归一化更新的幅度。
🔍