METASPEECH
[浏览需要 0 积分] 发布于

《MoE环游记:5、均匀分布的反思》

https://kexue.fm/archives/10945

本文介绍了 MoE 的 Shared Expert 和 Fine-Grained Expert 策略,并指出它们某种程度上都体现了负载均衡的非最优性。

浏览 (40)
点赞 (1)
收藏
评论