《MoE环游记:3、换个思路来分配》
https://kexue.fm/archives/10757
本文介绍了 MoE 负载均衡问题的 Loss-Free 方法,它由 DeepSeek 提出,其核心在于通过引入一个简单的偏置项来实现负载均衡。本文进一步思考了它与 Aux Loss 的联系,以及它在类似数学问题上的应用潜力。
https://kexue.fm/archives/10757
本文介绍了 MoE 负载均衡问题的 Loss-Free 方法,它由 DeepSeek 提出,其核心在于通过引入一个简单的偏置项来实现负载均衡。本文进一步思考了它与 Aux Loss 的联系,以及它在类似数学问题上的应用潜力。