- [浏览需要 0 积分] 发布于2025-01-12 21:38:43
《低秩近似之路(五):CUR》
https://kexue.fm/archives/10662 本文介绍了 CUR 分解,它可以视为上一篇文章介绍的插值分解(ID)的进一步延伸,特点是同时以原始矩阵的若干行与列作为骨架来构建低秩近似。赞 2评论浏览 499 - [浏览需要 0 积分] 发布于2025-04-26 21:52:17赞 2评论浏览 133
- [浏览需要 0 积分] 发布于2025-05-26 22:58:04
《生成扩散模型漫谈(三十):从瞬时速度到平均速度》
https://kexue.fm/archives/10958 本文以最近出来的 MeanFlow 为中心,讨论了“平均速度”视角下的扩散模型加速生成思路。赞 1评论浏览 146 - [浏览需要 0 积分] 发布于2025-05-17 10:35:08赞 1评论浏览 131
- [浏览需要 0 积分] 发布于2025-05-17 10:28:42
《MoE环游记:5、均匀分布的反思》
https://kexue.fm/archives/10945 本文介绍了 MoE 的 Shared Expert 和 Fine-Grained Expert 策略,并指出它们某种程度上都体现了负载均衡的非最优性。赞 1评论浏览 119 - [浏览需要 0 积分] 发布于2025-06-14 09:49:48
《msign算子的Newton-Schulz迭代(下)》
https://kexue.fm/archives/10996 本文介绍了求解 msign 算子的 Newton-Schulz 迭代的最新进展,它通过等值振荡定理和贪心转换,直接求出理论上的最优解,整个过程相当硬核,值得学习一波。赞 1评论浏览 93 - [浏览需要 0 积分] 发布于2025-02-21 11:25:16赞 2评论浏览 328
- [浏览需要 0 积分] 发布于2025-02-14 16:07:25
《生成扩散模型漫谈(二十九):用DDPM来离散编码》
https://kexue.fm/archives/10711 本文介绍了扩散模型的一个新脑洞,它将 DDPM 生成过程中的噪声限制在一个有限的集合上,并结合条件生成的思路,将 DDPM 免训练地变成一个类似 VQ-VAE 的离散自编码器。赞 2评论浏览 529 - [浏览需要 0 积分] 发布于2025-02-08 16:18:01
《MoE环游记:1、从几何意义出发》
https://kexue.fm/archives/10699 本文从 Dense 模型的最佳逼近出发来推导和理解 MoE,得到了一种特定的 MoE 形式,它比现有 MoE 多了一个 Normalize 步骤,但能让 MoE 的几何意义更加明显。当然,不管...赞 2评论浏览 609 - [浏览需要 0 积分] 发布于2025-01-17 15:43:22赞 2评论浏览 729
- [浏览需要 0 积分] 发布于2025-02-27 15:45:00
《Muon续集:为什么我们选择尝试Muon?》
https://kexue.fm/archives/10739 本文介绍了我们在 Muon 优化器上的一次较大规模实践(Moonlight),并分享了我们对 Muon 优化器的最新思考。赞 2评论浏览 397 - [浏览需要 0 积分] 发布于2025-01-06 17:00:09赞 2评论浏览 403
- [浏览需要 0 积分] 发布于2024-12-25 11:25:15赞 2评论浏览 598
- [浏览需要 0 积分] 发布于2024-12-18 17:55:00
《生成扩散模型漫谈(二十八):分步理解一致性模型》
https://kexue.fm/archives/10633 本文通过逐步解构和优化 ReFLow 训练流程的方式,提供了一个从 ReFlow 逐渐过渡到一致性模型(Consistency Models)的直观理解路径。赞 2评论浏览 398 - [浏览需要 0 积分] 发布于2024-12-15 17:45:57
《生成扩散模型漫谈(二十七):将步长作为条件输入》
https://kexue.fm/archives/10617 本文介绍了一个单阶段训练就可以实现单步生成的扩散模型新工作,它的突破思想是将步长也当成条件输入到扩散模型中,并配以一个直观的正则项,这样只通过单阶段训练就可以得到单步生成的扩散模型。赞 2评论浏览 448 - [浏览需要 0 积分] 发布于2024-12-10 11:33:58
《Muon优化器赏析:向量与矩阵有何本质区别?》
https://kexue.fm/archives/10592 本文介绍了最近推特上颇为热闹的 Muon 优化器,它专门为矩阵参数定制,目前看来比 AdamW 更高效,并且似乎体现了一些向量化与矩阵化的本质差异,值得学习和思考一番。赞 2评论浏览 442 - [浏览需要 0 积分] 发布于2024-11-29 23:30:38
《从Hessian近似看自适应学习率优化器》
https://kexue.fm/archives/10588 本文介绍了从 Newton 法和 Hessian 近似看待 Adam 等自适应学习率优化器的一个视角,并讨论了 Hessian 近似的相关结果。赞 2评论浏览 412 - [浏览需要 0 积分] 发布于2024-11-22 18:21:28
《生成扩散模型漫谈(二十六):基于恒等式的蒸馏(下)》
https://kexue.fm/archives/10567 本文介绍了 SiD(Score identity Distillation)的后续理论进展,主要内容是从梯度视角解释了 SiD 中的 λ 参数设置,核心部分是由 FGM(Flow Genera...赞 2评论浏览 551 - [浏览需要 0 积分] 发布于2024-11-18 18:07:51
《Adam的epsilon如何影响学习率的Scaling Law?》
https://kexue.fm/archives/10563 本文延续了上一篇文章的方法,尝试分析了 Adam 的 ϵ 对学习率与 Batch Size 之间的 Scaling Law 的影响,结果是一个介乎 SGD 与 SignSGD 之间的形式,当 ...赞 2评论浏览 491