🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

Nesterov 动量

动量算法的一种变体,它通过在预估的未来位置计算梯度来应用前瞻性校正,从而加速收敛并减少振荡。

📖
个术语

Adam (自适应矩估计)

一种结合了 Momentum 和 RMSprop 思想的优化算法,使用梯度的一阶矩和二阶矩估计来为每个参数自适应学习率。

📖
个术语

AdaGrad

一种自适应优化器,它根据其梯度的历史平方和来调整每个参数的学习率,有利于不经常出现的参数。

📖
个术语

AdaDelta

AdaGrad 的扩展,它通过滑动平均将过去梯度的累积窗口限制为固定大小,从而避免学习率的激进衰减。

📖
个术语

学习率衰减

一种在训练期间逐渐降低学习率的策略,通常遵循预定义的时间表(如步长、指数或余弦衰减),以优化向最小值的收敛。

📖
个术语

LAMB 优化器 (逐层自适应矩)

一种为大规模训练设计的优化算法,通过使用权重和梯度的范数逐层自适应学习率,对非常大的数据批次很有效。

📖
个术语

LARS 优化器 (逐层自适应速率缩放)

一种优化方法,它根据权重范数和梯度范数之间的比率为每一层调整学习率,特别适用于大批量训练。

📖
个术语

Lookahead 优化器

一种优化机制,它周期性地将“慢”权重更新为由内部优化器生成的“快”权重的平均值,从而提高泛化能力和收敛稳定性。

📖
个术语

RAdam (Rectified Adam)

Adam的变体,修正了训练早期学习率自适应的方差,提供更稳定的收敛,无需预热阶段。

📖
个术语

SWATS (Switching from Adam to SGD)

一种策略,先用Adam等自适应优化器开始训练以快速收敛,然后切换到随机梯度下降(SGD)以获得更好的泛化能力。

📖
个术语

Optimiseur Yogi

Adam的改进版,通过使用不那么激进二阶矩更新来提供更稳定的收敛,减少振荡,在复杂任务上提高性能。

📖
个术语

Shampoo

二阶优化器,使用块状Hessian矩阵近似对梯度进行预处理,加速病态问题的收敛。

📖
个术语

Redécoupage du Taux d'Apprentissage (Learning Rate Restart)

循环技术,学习率定期重置为初始值,让模型能够逃离局部最小值并探索解空间的新区域。

🔍

未找到结果