元语音
[浏览需要 0 积分] 发布于

《让炼丹更科学一些(六):自上而下的精妙构造》

https://kexue.fm/archives/11540

上文末我们提到终点损失的最优学习率策略的证明困难问题,而在这篇文章中,我们通过自上而下的、小心谨慎的放缩和构造,完成了这个证明,并得到了更高精度的结果,同时讨论了这个结果对学习率的“Warmup-Decay”机制的启发。

浏览 (32)
点赞
收藏
评论