深度优化 - AI 术语表

📖

个术语

Nesterov 动量

动量算法的一种变体，它通过在预估的未来位置计算梯度来应用前瞻性校正，从而加速收敛并减少振荡。

📖

个术语

Adam (自适应矩估计)

一种结合了 Momentum 和 RMSprop 思想的优化算法，使用梯度的一阶矩和二阶矩估计来为每个参数自适应学习率。

📖

个术语

AdaGrad

一种自适应优化器，它根据其梯度的历史平方和来调整每个参数的学习率，有利于不经常出现的参数。

📖

个术语

AdaDelta

AdaGrad 的扩展，它通过滑动平均将过去梯度的累积窗口限制为固定大小，从而避免学习率的激进衰减。

📖

个术语

学习率衰减

一种在训练期间逐渐降低学习率的策略，通常遵循预定义的时间表（如步长、指数或余弦衰减），以优化向最小值的收敛。

📖

个术语

LAMB 优化器 (逐层自适应矩)

一种为大规模训练设计的优化算法，通过使用权重和梯度的范数逐层自适应学习率，对非常大的数据批次很有效。

📖

个术语

LARS 优化器 (逐层自适应速率缩放)

一种优化方法，它根据权重范数和梯度范数之间的比率为每一层调整学习率，特别适用于大批量训练。

📖

个术语

Lookahead 优化器

一种优化机制，它周期性地将“慢”权重更新为由内部优化器生成的“快”权重的平均值，从而提高泛化能力和收敛稳定性。

📖

个术语

RAdam (Rectified Adam)

Adam的变体，修正了训练早期学习率自适应的方差，提供更稳定的收敛，无需预热阶段。

📖

个术语

SWATS (Switching from Adam to SGD)

一种策略，先用Adam等自适应优化器开始训练以快速收敛，然后切换到随机梯度下降(SGD)以获得更好的泛化能力。

📖

个术语

Optimiseur Yogi

Adam的改进版，通过使用不那么激进二阶矩更新来提供更稳定的收敛，减少振荡，在复杂任务上提高性能。

📖

个术语

Shampoo

二阶优化器，使用块状Hessian矩阵近似对梯度进行预处理，加速病态问题的收敛。

📖

个术语

Redécoupage du Taux d'Apprentissage (Learning Rate Restart)

循环技术，学习率定期重置为初始值，让模型能够逃离局部最小值并探索解空间的新区域。

AI 词汇表