元语音 [浏览需要 0 积分] 发布于 23天前 《让炼丹更科学一些(五):基于梯度精调学习率》 https://kexue.fm/archives/11530 这篇文章开始,我们考虑基于梯度的学习率调度,它有助于我们了解诸如 Warmup、Decay 等学习率策略的原理,也能为各种自适应学习率优化器提供有益的参考。 语音 #苏神 浏览 (60) 点赞 收藏