文本 - 话题 | 元语音研究网

METASPEECH

[浏览需要 0 积分] 发布于2025-01-12 21:38:43

《低秩近似之路（五）：CUR》
https://kexue.fm/archives/10662 本文介绍了 CUR 分解，它可以视为上一篇文章介绍的插值分解（ID）的进一步延伸，特点是同时以原始矩阵的若干行与列作为骨架来构建低秩近似。

赞 2

评论

浏览 536

语音
METASPEECH

[浏览需要 0 积分] 发布于2025-04-26 21:52:17

《SVD的导数》
https://kexue.fm/archives/10878 SVD 大家应该都听说过吗？但大家有没有想到过，SVD 其实是可导的？

赞 2

评论

浏览 266

文本
METASPEECH

[浏览需要 0 积分] 发布于2025-05-26 22:58:04

《生成扩散模型漫谈（三十）：从瞬时速度到平均速度》
https://kexue.fm/archives/10958 本文以最近出来的 MeanFlow 为中心，讨论了“平均速度”视角下的扩散模型加速生成思路。

赞 1

评论

浏览 280

文本
METASPEECH

[浏览需要 0 积分] 发布于2025-05-17 10:35:08

《msign算子的Newton-Schulz迭代》
https://kexue.fm/archives/10922 介绍 Muon 优化器的核心运算 msign 的最新计算进展。

赞 1

评论

浏览 255

文本
METASPEECH

[浏览需要 0 积分] 发布于2025-05-17 10:28:42

《MoE环游记：5、均匀分布的反思》
https://kexue.fm/archives/10945 本文介绍了 MoE 的 Shared Expert 和 Fine-Grained Expert 策略，并指出它们某种程度上都体现了负载均衡的非最优性。

赞 1

评论

浏览 259

文本
METASPEECH

[浏览需要 0 积分] 发布于2025-06-14 09:49:48

《msign算子的Newton-Schulz迭代（下）》
https://kexue.fm/archives/10996 本文介绍了求解 msign 算子的 Newton-Schulz 迭代的最新进展，它通过等值振荡定理和贪心转换，直接求出理论上的最优解，整个过程相当硬核，值得学习一波。

赞 1

评论

浏览 253

文本
METASPEECH

[浏览需要 0 积分] 发布于2025-02-21 11:25:16

《MoE环游记：2、不患寡而患不均》
https://kexue.fm/archives/10735 本文介绍了 MoE 的负载均衡问题，并给出了一种构建 Aux Loss 的一般思路。

赞 2

评论

浏览 407

文本
METASPEECH

[浏览需要 0 积分] 发布于2025-02-14 16:07:25

《生成扩散模型漫谈（二十九）：用DDPM来离散编码》
https://kexue.fm/archives/10711 本文介绍了扩散模型的一个新脑洞，它将 DDPM 生成过程中的噪声限制在一个有限的集合上，并结合条件生成的思路，将 DDPM 免训练地变成一个类似 VQ-VAE 的离散自编码器。

赞 2

评论

浏览 616

文本
METASPEECH

[浏览需要 0 积分] 发布于2025-02-08 16:18:01

《MoE环游记：1、从几何意义出发》
https://kexue.fm/archives/10699 本文从 Dense 模型的最佳逼近出发来推导和理解 MoE，得到了一种特定的 MoE 形式，它比现有 MoE 多了一个 Normalize 步骤，但能让 MoE 的几何意义更加明显。当然，不管...

赞 2

评论

浏览 691

文本
Speech

[浏览需要 0 积分] 发布于2025-01-17 15:43:22

《细水长flow之TARFLOW：流模型满血归来？》
https://kexue.fm/archives/10667 Normalizing Flow 的生成效果也赶上了 SOTA。

赞 2

评论

浏览 806

文本
METASPEECH

[浏览需要 0 积分] 发布于2025-02-27 15:45:00

《Muon续集：为什么我们选择尝试Muon？》
https://kexue.fm/archives/10739 本文介绍了我们在 Muon 优化器上的一次较大规模实践（Moonlight），并分享了我们对 Muon 优化器的最新思考。

赞 2

评论

浏览 465

文本
METASPEECH

[浏览需要 0 积分] 发布于2025-01-06 17:00:09

《为什么梯度裁剪的默认模长总是1？》
https://kexue.fm/archives/10657 对“梯度裁剪的默认模长为 1”这一现象给出了自己的一些看法和思考。

赞 2

评论

浏览 486

文本
Speech

[浏览需要 0 积分] 发布于2024-12-25 11:25:15

《从谱范数梯度到新式权重衰减的思考》
https://kexue.fm/archives/10648 本文推导了谱范数的梯度，由此导出了一种新的权重衰减，并分享了笔者对它的思考。

赞 2

评论

浏览 672

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-12-18 17:55:00

《生成扩散模型漫谈（二十八）：分步理解一致性模型》
https://kexue.fm/archives/10633 本文通过逐步解构和优化 ReFLow 训练流程的方式，提供了一个从 ReFlow 逐渐过渡到一致性模型（Consistency Models）的直观理解路径。

赞 2

评论

浏览 442

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-12-15 17:45:57

《生成扩散模型漫谈（二十七）：将步长作为条件输入》
https://kexue.fm/archives/10617 本文介绍了一个单阶段训练就可以实现单步生成的扩散模型新工作，它的突破思想是将步长也当成条件输入到扩散模型中，并配以一个直观的正则项，这样只通过单阶段训练就可以得到单步生成的扩散模型。

赞 2

评论

浏览 496

文本
Speech

[浏览需要 0 积分] 发布于2024-12-10 11:33:58

《Muon优化器赏析：向量与矩阵有何本质区别？》
https://kexue.fm/archives/10592 本文介绍了最近推特上颇为热闹的 Muon 优化器，它专门为矩阵参数定制，目前看来比 AdamW 更高效，并且似乎体现了一些向量化与矩阵化的本质差异，值得学习和思考一番。

赞 2

评论

浏览 505

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-11-29 23:30:38

《从Hessian近似看自适应学习率优化器》
https://kexue.fm/archives/10588 本文介绍了从 Newton 法和 Hessian 近似看待 Adam 等自适应学习率优化器的一个视角，并讨论了 Hessian 近似的相关结果。

赞 2

评论

浏览 448

文本
Speech

[浏览需要 0 积分] 发布于2024-11-29 14:20:54

如何 from scratch 构建LLM ？
文章链接代码链接

赞 2

评论

浏览 606

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-11-22 18:21:28

《生成扩散模型漫谈（二十六）：基于恒等式的蒸馏（下）》
https://kexue.fm/archives/10567 本文介绍了 SiD（Score identity Distillation）的后续理论进展，主要内容是从梯度视角解释了 SiD 中的 λ 参数设置，核心部分是由 FGM（Flow Genera...

赞 2

评论

浏览 590

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-11-18 18:07:51

《Adam的epsilon如何影响学习率的Scaling Law？》
https://kexue.fm/archives/10563 本文延续了上一篇文章的方法，尝试分析了 Adam 的 ϵ 对学习率与 Batch Size 之间的 Scaling Law 的影响，结果是一个介乎 SGD 与 SignSGD 之间的形式，当 ...

赞 2

评论

浏览 535

文本

METASPEECH
270 帖子 • 51 评论

1664
Speech
166 帖子 • 24 评论

1292
AI柠檬
14 帖子 • 16 评论

517
江南一点红
1 帖子 • 1 评论

46
懵
懵懵懂懂的新手
1 帖子 • 17 评论

39
M
Mephisto
0 帖子 • 4 评论

28
後藤ひとり
0 帖子 • 0 评论

23
心行
2 帖子 • 0 评论

20
出东巷
0 帖子 • 0 评论

15
betciso
0 帖子 • 1 评论

12