人工智能完整詞典
一种训练策略,它定期将学习率重置为较高值,同时保留模型权重,以避免局部最小值。带有余弦衰减的热启动(SGDR)改善了参数空间的探索。
Adam 的修正变体,它在训练的初始预热阶段纠正了自适应权重方差。RAdam 结合了 SGD 的理论优势以及 Adam 的实际性能,在训练初期提供更稳定的收敛。