元语音
[浏览需要 0 积分] 发布于

《让炼丹更科学一些(四):新恒等式,新学习率》

https://kexue.fm/archives/11494

在这篇文章中,我们推广了上篇的核心恒等式,然后得到了理论最佳的终点损失收敛速度。有意思的是,取得这一成绩的学习率策略并不是常数学习率,也不是传统的逆步数、逆步数平方根学习率,而是更贴近我们日常实践的线性衰减。接下来,我们还会继续探讨该结论背后的深刻意义。

浏览 (58)
点赞
收藏
评论