基于动量的优化 - AI 术语表

📖

个术语

RMSprop

自适应优化技术，通过将学习率除以近期梯度平方的指数移动平均值来处理大梯度。

📖

个术语

Adagrad

自适应优化算法，通过累积历史梯度的平方来调整每个参数的学习率，有利于不频繁出现的参数。

📖

个术语

Adadelta

Adagrad的扩展，通过指数移动平均值将过去梯度的窗口限制为固定大小，解决了学习率急剧衰减的问题。

📖

个术语

Adamax

基于无穷范数而非L2范数的Adam变体，在某些场景下提供更好的数值稳定性和更鲁棒的收敛性。

📖

个术语

Nadam

结合Nesterov加速梯度和Adam的算法，将Nesterov加速集成到Adam的自适应框架中，实现更快更稳定的收敛。

📖

个术语

AMSGrad

Adam的修改版本，通过保持指数移动平方均值的最大值来保证理论收敛性，避免Adam的潜在发散。

📖

个术语

AdamW

Adam的变体，将权重衰减与自适应更新解耦，直接对权重而不是梯度应用衰减。

📖

个术语

SGDW

带解耦权重衰减的SGD扩展，独立于梯度更新应用权重衰减，以实现更好的正则化。

📖

个术语

RAdam

修正Adam，通过引入自适应修正机制解决初始训练阶段的大方差问题。

📖

个术语

YellowFin

优化器，使用二阶方法的局部收敛理论分析自动调整学习率和动量系数。

📖

个术语

LARS

逐层自适应速率缩放，根据权重和梯度的L2范数之比调整每层学习率，用于大规模训练。

📖

个术语

LAMB

批训练的逐层自适应矩优化器，扩展了LARS，集成了Adam类型的自适应统计量，用于高效训练大规模模型。

📖

个术语

Rprop

弹性反向传播，忽略梯度的大小，仅考虑其符号来调整每个参数的学习率，实现鲁棒更新。

📖

个术语

QHAdam

准双曲Adam，通过引入准双曲性参数推广了Adam和动量方法，实现对矩贡献的精细控制。

AI 词汇表