[浏览需要 0 积分] 发布于 2026-01-04 10:26:14

《让炼丹更科学一些（四）：新恒等式，新学习率》

https://kexue.fm/archives/11494

在这篇文章中，我们推广了上篇的核心恒等式，然后得到了理论最佳的终点损失收敛速度。有意思的是，取得这一成绩的学习率策略并不是常数学习率，也不是传统的逆步数、逆步数平方根学习率，而是更贴近我们日常实践的线性衰减。接下来，我们还会继续探讨该结论背后的深刻意义。

浏览 (147)