元语音
[浏览需要 0 积分] 发布于

《让炼丹更科学一些(五):基于梯度精调学习率》

https://kexue.fm/archives/11530

这篇文章开始,我们考虑基于梯度的学习率调度,它有助于我们了解诸如 Warmup、Decay 等学习率策略的原理,也能为各种自适应学习率优化器提供有益的参考。

浏览 (60)
点赞
收藏
评论