AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
解耦 L2 正则化
将权重衰减从梯度更新中分离,以便独立于优化步骤应用正则化。
个术语
超参数 beta1 和 beta2
分别控制 AdamW 算法中一阶和二阶矩的指数衰减的系数。
个术语
一阶矩
梯度的指数移动平均,捕捉下降的平均方向,以加速在误差峡谷中的收敛。
个术语
二阶矩
梯度平方的指数移动平均,估计方差,以根据局部曲率调整学习率。
个术语
稳定项 epsilon
一个小的常数,添加到分母中,以避免除以零并在梯度归一化时确保数值稳定性。
个术语
渐近收敛
一种理论特性,确保算法在某些条件下,当迭代次数趋于无穷大时,能达到一个临界点。
个术语
梯度分解
在 AdamW 的实现中,将梯度进行向量分离,分解为权重衰减分量和实际更新分量。
个术语
冷启动偏差
在初始迭代中,由于零初始化导致的矩估计偏差问题,通过 AdamW 的偏差校正因子进行修正。
个术语
权重衰减因子
控制独立应用于每个权重更新的解耦L2正则化强度的lambda参数。
个术语
自适应归一化
将梯度除以其二阶矩的平方根,以根据梯度历史来归一化更新的幅度。
🔍