METASPEECH
[浏览需要 0 积分] 发布于

《初探muP:超参数的跨模型尺度迁移规律》

https://kexue.fm/archives/10770

本文以尽可能简明清晰的方式介绍了 muP(Maximal Update Parametrization),这是旨在研究超参数跨模型尺度的迁移规律的工作。基于 muP,我们可以在小模型上以相对较小的成本仔细搜索超参数(这里主要是学习率和初始化),然后迁移到大模型上,降低大模型的炼丹成本。

浏览 (101)
点赞 (2)
收藏
评论