- [浏览需要 0 积分] 发布于2025-03-13 18:12:04
《初探muP:超参数的跨模型尺度迁移规律》
https://kexue.fm/archives/10770 本文以尽可能简明清晰的方式介绍了 muP(Maximal Update Parametrization),这是旨在研究超参数跨模型尺度的迁移规律的工作。基于 muP,我们可以在小模型上以相对较...赞 2评论浏览 553 - [浏览需要 0 积分] 发布于2026-01-26 11:09:51赞评论浏览 113
- [浏览需要 0 积分] 发布于2025-06-14 09:51:34赞 1评论浏览 487
- [浏览需要 0 积分] 发布于2026-01-20 20:53:55
《让炼丹更科学一些(六):自上而下的精妙构造》
https://kexue.fm/archives/11540 上文末我们提到终点损失的最优学习率策略的证明困难问题,而在这篇文章中,我们通过自上而下的、小心谨慎的放缩和构造,完成了这个证明,并得到了更高精度的结果,同时讨论了这个结果对学习率的“Warmu...赞评论浏览 101 - [浏览需要 0 积分] 发布于2026-01-09 17:25:16
《让炼丹更科学一些(五):基于梯度精调学习率》
https://kexue.fm/archives/11530 这篇文章开始,我们考虑基于梯度的学习率调度,它有助于我们了解诸如 Warmup、Decay 等学习率策略的原理,也能为各种自适应学习率优化器提供有益的参考。赞评论浏览 128 - [浏览需要 0 积分] 发布于2025-06-20 23:28:42
《线性注意力简史:从模仿、创新到反哺》
https://kexue.fm/archives/11033 本文简要梳理了线性 Attention 的发展脉络,并介绍了部分模型的数学原理。线性 Attention 从模仿 Softmax Attention 起步,逐渐发展出自身特色,如今已成为极具竞...赞 1评论浏览 368 - [浏览需要 0 积分] 发布于2026-01-20 20:54:26
《为什么我们偏爱各向同性?基于最速下降的理解》
https://kexue.fm/archives/11549 这篇文章我们讨论了一个问题:参数层面上的最速下降,何时才刚好是特征层面上的最速下降?答案正是标题所述的“各向同性”,由此我们得出为什么偏爱各向同性的一个解释——它能同步两个层面上的最速下降,提...赞评论浏览 127 - [浏览需要 0 积分] 发布于2025-04-18 19:50:03
《矩阵的有效秩(Effective Rank)》
https://kexue.fm/archives/10847 本文探讨了矩阵的有效秩(Effective Rank)概念,它是线性代数中矩阵的秩(Rank)概念在数值计算方面的延伸,能够更有效地度量矩阵的本质维度。赞 2评论浏览 444 - [浏览需要 0 积分] 发布于2025-03-28 21:43:09
《MoE环游记:4、难处应该多投入》
https://kexue.fm/archives/10815 本文提出了一种动态选择 Expert 数目的 MoE 设计,主要思想是对 Loss-Free 的 MoE 形式稍作修改,然后修改 Bias 项的更新规则,利用它的额外自由度来同时实现负载均衡和...赞 2评论浏览 411 - [浏览需要 0 积分] 发布于2025-03-24 11:31:24
《高阶muP:更简明但更高明的谱条件缩放》
https://kexue.fm/archives/10795 这篇文章介绍了 muP 的升级版——谱条件,它从谱范数相关的不等式切入来分析模型稳定训练的条件,以一种更便捷的方式得到了比 muP 更丰富的结果。赞 2评论浏览 436 - [浏览需要 0 积分] 发布于2025-04-18 19:50:50
《Transformer升级之路:19、第二类旋转位置编码》
https://kexue.fm/archives/10862 本文围绕着“RoPE 可以加在 V 上吗”进行展开,讨论了 RoPE 的第二种用法。赞 2评论浏览 406 - [浏览需要 0 积分] 发布于2025-03-05 11:34:22
《MoE环游记:3、换个思路来分配》
https://kexue.fm/archives/10757 本文介绍了 MoE 负载均衡问题的 Loss-Free 方法,它由 DeepSeek 提出,其核心在于通过引入一个简单的偏置项来实现负载均衡。本文进一步思考了它与 Aux Loss 的联系,以...赞 2评论浏览 614 - [浏览需要 0 积分] 发布于2025-02-27 15:45:00
《Muon续集:为什么我们选择尝试Muon?》
https://kexue.fm/archives/10739 本文介绍了我们在 Muon 优化器上的一次较大规模实践(Moonlight),并分享了我们对 Muon 优化器的最新思考。赞 2评论浏览 544 - [浏览需要 0 积分] 发布于2025-02-21 11:25:16赞 2评论浏览 514
- [浏览需要 0 积分] 发布于2025-02-14 16:07:25
《生成扩散模型漫谈(二十九):用DDPM来离散编码》
https://kexue.fm/archives/10711 本文介绍了扩散模型的一个新脑洞,它将 DDPM 生成过程中的噪声限制在一个有限的集合上,并结合条件生成的思路,将 DDPM 免训练地变成一个类似 VQ-VAE 的离散自编码器。赞 2评论浏览 696 - [浏览需要 0 积分] 发布于2025-02-08 16:18:01
《MoE环游记:1、从几何意义出发》
https://kexue.fm/archives/10699 本文从 Dense 模型的最佳逼近出发来推导和理解 MoE,得到了一种特定的 MoE 形式,它比现有 MoE 多了一个 Normalize 步骤,但能让 MoE 的几何意义更加明显。当然,不管...赞 2评论浏览 787 - [浏览需要 0 积分] 发布于2025-01-17 15:43:22赞 2评论浏览 892
- [浏览需要 0 积分] 发布于2025-01-12 21:38:43
《低秩近似之路(五):CUR》
https://kexue.fm/archives/10662 本文介绍了 CUR 分解,它可以视为上一篇文章介绍的插值分解(ID)的进一步延伸,特点是同时以原始矩阵的若干行与列作为骨架来构建低秩近似。赞 2评论浏览 591 - [浏览需要 0 积分] 发布于2025-01-06 17:00:09赞 2评论浏览 572
- [浏览需要 0 积分] 发布于2024-12-25 11:25:15赞 2评论浏览 744