AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
RMSprop
自适应优化技术,通过将学习率除以近期梯度平方的指数移动平均值来处理大梯度。
術語
Adagrad
自适应优化算法,通过累积历史梯度的平方来调整每个参数的学习率,有利于不频繁出现的参数。
術語
Adadelta
Adagrad的扩展,通过指数移动平均值将过去梯度的窗口限制为固定大小,解决了学习率急剧衰减的问题。
術語
Adamax
基于无穷范数而非L2范数的Adam变体,在某些场景下提供更好的数值稳定性和更鲁棒的收敛性。
術語
Nadam
结合Nesterov加速梯度和Adam的算法,将Nesterov加速集成到Adam的自适应框架中,实现更快更稳定的收敛。
術語
AMSGrad
Adam的修改版本,通过保持指数移动平方均值的最大值来保证理论收敛性,避免Adam的潜在发散。
術語
AdamW
Adam的变体,将权重衰减与自适应更新解耦,直接对权重而不是梯度应用衰减。
術語
SGDW
带解耦权重衰减的SGD扩展,独立于梯度更新应用权重衰减,以实现更好的正则化。
術語
RAdam
修正Adam,通过引入自适应修正机制解决初始训练阶段的大方差问题。
術語
YellowFin
优化器,使用二阶方法的局部收敛理论分析自动调整学习率和动量系数。
術語
LARS
逐层自适应速率缩放,根据权重和梯度的L2范数之比调整每层学习率,用于大规模训练。
術語
LAMB
批训练的逐层自适应矩优化器,扩展了LARS,集成了Adam类型的自适应统计量,用于高效训练大规模模型。
術語
Rprop
弹性反向传播,忽略梯度的大小,仅考虑其符号来调整每个参数的学习率,实现鲁棒更新。
術語
QHAdam
准双曲Adam,通过引入准双曲性参数推广了Adam和动量方法,实现对矩贡献的精细控制。
🔍