- [浏览需要 0 积分] 发布于5天前赞 2评论浏览 13
- [浏览需要 0 积分] 发布于14天前
《Transformer升级之路:19、第二类旋转位置编码》
https://kexue.fm/archives/10862 本文围绕着“RoPE 可以加在 V 上吗”进行展开,讨论了 RoPE 的第二种用法。赞 2评论浏览 30 - [浏览需要 0 积分] 发布于2025-03-28 21:43:09
《MoE环游记:4、难处应该多投入》
https://kexue.fm/archives/10815 本文提出了一种动态选择 Expert 数目的 MoE 设计,主要思想是对 Loss-Free 的 MoE 形式稍作修改,然后修改 Bias 项的更新规则,利用它的额外自由度来同时实现负载均衡和...赞 2评论浏览 78 - [浏览需要 0 积分] 发布于2025-03-24 11:31:24
《高阶muP:更简明但更高明的谱条件缩放》
https://kexue.fm/archives/10795 这篇文章介绍了 muP 的升级版——谱条件,它从谱范数相关的不等式切入来分析模型稳定训练的条件,以一种更便捷的方式得到了比 muP 更丰富的结果。赞 2评论浏览 79 - [浏览需要 0 积分] 发布于2025-03-13 18:12:04
《初探muP:超参数的跨模型尺度迁移规律》
https://kexue.fm/archives/10770 本文以尽可能简明清晰的方式介绍了 muP(Maximal Update Parametrization),这是旨在研究超参数跨模型尺度的迁移规律的工作。基于 muP,我们可以在小模型上以相对较...赞 2评论浏览 102 - [浏览需要 0 积分] 发布于2025-03-05 11:34:22
《MoE环游记:3、换个思路来分配》
https://kexue.fm/archives/10757 本文介绍了 MoE 负载均衡问题的 Loss-Free 方法,它由 DeepSeek 提出,其核心在于通过引入一个简单的偏置项来实现负载均衡。本文进一步思考了它与 Aux Loss 的联系,以...赞 2评论浏览 159 - [浏览需要 0 积分] 发布于2025-02-27 15:45:00
《Muon续集:为什么我们选择尝试Muon?》
https://kexue.fm/archives/10739 本文介绍了我们在 Muon 优化器上的一次较大规模实践(Moonlight),并分享了我们对 Muon 优化器的最新思考。赞 2评论浏览 211 - [浏览需要 0 积分] 发布于2025-02-21 11:25:16赞 2评论浏览 250
- [浏览需要 0 积分] 发布于2025-02-14 16:07:25
《生成扩散模型漫谈(二十九):用DDPM来离散编码》
https://kexue.fm/archives/10711 本文介绍了扩散模型的一个新脑洞,它将 DDPM 生成过程中的噪声限制在一个有限的集合上,并结合条件生成的思路,将 DDPM 免训练地变成一个类似 VQ-VAE 的离散自编码器。赞 2评论浏览 354 - [浏览需要 0 积分] 发布于2025-02-08 16:18:01
《MoE环游记:1、从几何意义出发》
https://kexue.fm/archives/10699 本文从 Dense 模型的最佳逼近出发来推导和理解 MoE,得到了一种特定的 MoE 形式,它比现有 MoE 多了一个 Normalize 步骤,但能让 MoE 的几何意义更加明显。当然,不管...赞 2评论浏览 399 - [浏览需要 0 积分] 发布于2025-01-17 15:43:22赞 2评论浏览 417
- [浏览需要 0 积分] 发布于2025-01-06 17:00:09赞 2评论浏览 324
- [浏览需要 0 积分] 发布于2024-12-25 11:25:15赞 2评论浏览 406
- [浏览需要 0 积分] 发布于2024-12-18 17:55:00
《生成扩散模型漫谈(二十八):分步理解一致性模型》
https://kexue.fm/archives/10633 本文通过逐步解构和优化 ReFLow 训练流程的方式,提供了一个从 ReFlow 逐渐过渡到一致性模型(Consistency Models)的直观理解路径。赞 2评论浏览 361 - [浏览需要 0 积分] 发布于2024-12-15 17:45:57
《生成扩散模型漫谈(二十七):将步长作为条件输入》
https://kexue.fm/archives/10617 本文介绍了一个单阶段训练就可以实现单步生成的扩散模型新工作,它的突破思想是将步长也当成条件输入到扩散模型中,并配以一个直观的正则项,这样只通过单阶段训练就可以得到单步生成的扩散模型。赞 2评论浏览 393 - [浏览需要 0 积分] 发布于2024-12-10 11:33:58
《Muon优化器赏析:向量与矩阵有何本质区别?》
https://kexue.fm/archives/10592 本文介绍了最近推特上颇为热闹的 Muon 优化器,它专门为矩阵参数定制,目前看来比 AdamW 更高效,并且似乎体现了一些向量化与矩阵化的本质差异,值得学习和思考一番。赞 2评论浏览 384 - [浏览需要 0 积分] 发布于2024-11-29 23:30:38
《从Hessian近似看自适应学习率优化器》
https://kexue.fm/archives/10588 本文介绍了从 Newton 法和 Hessian 近似看待 Adam 等自适应学习率优化器的一个视角,并讨论了 Hessian 近似的相关结果。赞 2评论浏览 377 - [浏览需要 0 积分] 发布于2024-11-22 18:21:28
《生成扩散模型漫谈(二十六):基于恒等式的蒸馏(下)》
https://kexue.fm/archives/10567 本文介绍了 SiD(Score identity Distillation)的后续理论进展,主要内容是从梯度视角解释了 SiD 中的 λ 参数设置,核心部分是由 FGM(Flow Genera...赞 2评论浏览 513