[浏览需要 0 积分] 发布于 2026-01-20 20:53:55

《让炼丹更科学一些（六）：自上而下的精妙构造》

https://kexue.fm/archives/11540

上文末我们提到终点损失的最优学习率策略的证明困难问题，而在这篇文章中，我们通过自上而下的、小心谨慎的放缩和构造，完成了这个证明，并得到了更高精度的结果，同时讨论了这个结果对学习率的“Warmup-Decay”机制的启发。

浏览 (179)