元语音 [浏览需要 0 积分] 发布于 12天前 《让炼丹更科学一些(六):自上而下的精妙构造》 https://kexue.fm/archives/11540 上文末我们提到终点损失的最优学习率策略的证明困难问题,而在这篇文章中,我们通过自上而下的、小心谨慎的放缩和构造,完成了这个证明,并得到了更高精度的结果,同时讨论了这个结果对学习率的“Warmup-Decay”机制的启发。 语音 #文本#苏神 浏览 (32) 点赞 收藏