AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
Nesterov 动量
动量算法的一种变体,它通过在预估的未来位置计算梯度来应用前瞻性校正,从而加速收敛并减少振荡。
个术语
Adam (自适应矩估计)
一种结合了 Momentum 和 RMSprop 思想的优化算法,使用梯度的一阶矩和二阶矩估计来为每个参数自适应学习率。
个术语
AdaGrad
一种自适应优化器,它根据其梯度的历史平方和来调整每个参数的学习率,有利于不经常出现的参数。
个术语
AdaDelta
AdaGrad 的扩展,它通过滑动平均将过去梯度的累积窗口限制为固定大小,从而避免学习率的激进衰减。
个术语
学习率衰减
一种在训练期间逐渐降低学习率的策略,通常遵循预定义的时间表(如步长、指数或余弦衰减),以优化向最小值的收敛。
个术语
LAMB 优化器 (逐层自适应矩)
一种为大规模训练设计的优化算法,通过使用权重和梯度的范数逐层自适应学习率,对非常大的数据批次很有效。
个术语
LARS 优化器 (逐层自适应速率缩放)
一种优化方法,它根据权重范数和梯度范数之间的比率为每一层调整学习率,特别适用于大批量训练。
个术语
Lookahead 优化器
一种优化机制,它周期性地将“慢”权重更新为由内部优化器生成的“快”权重的平均值,从而提高泛化能力和收敛稳定性。
个术语
RAdam (Rectified Adam)
Adam的变体,修正了训练早期学习率自适应的方差,提供更稳定的收敛,无需预热阶段。
个术语
SWATS (Switching from Adam to SGD)
一种策略,先用Adam等自适应优化器开始训练以快速收敛,然后切换到随机梯度下降(SGD)以获得更好的泛化能力。
个术语
Optimiseur Yogi
Adam的改进版,通过使用不那么激进二阶矩更新来提供更稳定的收敛,减少振荡,在复杂任务上提高性能。
个术语
Shampoo
二阶优化器,使用块状Hessian矩阵近似对梯度进行预处理,加速病态问题的收敛。
个术语
Redécoupage du Taux d'Apprentissage (Learning Rate Restart)
循环技术,学习率定期重置为初始值,让模型能够逃离局部最小值并探索解空间的新区域。
🔍