Speech
[浏览需要 0 积分] 发布于

《Muon优化器赏析:向量与矩阵有何本质区别?》

https://kexue.fm/archives/10592

本文介绍了最近推特上颇为热闹的 Muon 优化器,它专门为矩阵参数定制,目前看来比 AdamW 更高效,并且似乎体现了一些向量化与矩阵化的本质差异,值得学习和思考一番。

浏览 (384)
点赞 (2)
收藏
评论