AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
RMSprop
自适应优化技术,通过将学习率除以近期梯度平方的指数移动平均值来处理大梯度。
个术语
Adagrad
自适应优化算法,通过累积历史梯度的平方来调整每个参数的学习率,有利于不频繁出现的参数。
个术语
Adadelta
Adagrad的扩展,通过指数移动平均值将过去梯度的窗口限制为固定大小,解决了学习率急剧衰减的问题。
个术语
Adamax
基于无穷范数而非L2范数的Adam变体,在某些场景下提供更好的数值稳定性和更鲁棒的收敛性。
个术语
Nadam
结合Nesterov加速梯度和Adam的算法,将Nesterov加速集成到Adam的自适应框架中,实现更快更稳定的收敛。
个术语
AMSGrad
Adam的修改版本,通过保持指数移动平方均值的最大值来保证理论收敛性,避免Adam的潜在发散。
个术语
AdamW
Adam的变体,将权重衰减与自适应更新解耦,直接对权重而不是梯度应用衰减。
个术语
SGDW
带解耦权重衰减的SGD扩展,独立于梯度更新应用权重衰减,以实现更好的正则化。
个术语
RAdam
修正Adam,通过引入自适应修正机制解决初始训练阶段的大方差问题。
个术语
YellowFin
优化器,使用二阶方法的局部收敛理论分析自动调整学习率和动量系数。
个术语
LARS
逐层自适应速率缩放,根据权重和梯度的L2范数之比调整每层学习率,用于大规模训练。
个术语
LAMB
批训练的逐层自适应矩优化器,扩展了LARS,集成了Adam类型的自适应统计量,用于高效训练大规模模型。
个术语
Rprop
弹性反向传播,忽略梯度的大小,仅考虑其符号来调整每个参数的学习率,实现鲁棒更新。
个术语
QHAdam
准双曲Adam,通过引入准双曲性参数推广了Adam和动量方法,实现对矩贡献的精细控制。
🔍