元语音 [浏览需要 0 积分] 发布于 2025-03-13 18:12:04 《初探muP:超参数的跨模型尺度迁移规律》 https://kexue.fm/archives/10770 本文以尽可能简明清晰的方式介绍了 muP(Maximal Update Parametrization),这是旨在研究超参数跨模型尺度的迁移规律的工作。基于 muP,我们可以在小模型上以相对较小的成本仔细搜索超参数(这里主要是学习率和初始化),然后迁移到大模型上,降低大模型的炼丹成本。 文本 #文本#苏神 2 浏览 (508) 点赞 (2) 收藏