METASPEECH
[浏览需要 0 积分] 发布于

《Adam的epsilon如何影响学习率的Scaling Law?》

https://kexue.fm/archives/10563

本文延续了上一篇文章的方法,尝试分析了 Adam 的 ϵ 对学习率与 Batch Size 之间的 Scaling Law 的影响,结果是一个介乎 SGD 与 SignSGD 之间的形式,当 ϵ 越大,结果越接近 SGD,“Surge 现象”出现的概率就越低。总的来说,计算结果没有特别让人意外之处,但可以作为分析 ϵ 作用的一个参考过程。

浏览 (454)
点赞 (2)
收藏
评论