METASPEECH
[浏览需要 0 积分] 发布于

《MoE环游记:4、难处应该多投入》

https://kexue.fm/archives/10815

本文提出了一种动态选择 Expert 数目的 MoE 设计,主要思想是对 Loss-Free 的 MoE 形式稍作修改,然后修改 Bias 项的更新规则,利用它的额外自由度来同时实现负载均衡和预算控制。

浏览 (77)
点赞 (2)
收藏
评论