[浏览需要 0 积分] 发布于2025-06-20 23:28:42

《线性注意力简史：从模仿、创新到反哺》

https://kexue.fm/archives/11033 本文简要梳理了线性 Attention 的发展脉络，并介绍了部分模型的数学原理。线性 Attention 从模仿 Softmax Attention 起步，逐渐发展出自身特色，如今已成为极具竞...

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-06-14 09:51:34

《msign的导数》

https://kexue.fm/archives/11025 本文讨论了 msign 算子的导数计算，如果你关心“TTT + Muon”的组合，那么本文也许对你有帮助。

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-06-14 09:50:41

蔡崇信的现场分享：

我女儿大学毕业三年了，今年 25 岁，当时她正处于跳槽过渡期，我们聊到了职业规划，她说：“我现在不想在找到新工作前贸然辞职”，其实我之前建议她，先辞去当前工作，用半年时间好好思考真正想做什么，但是她说，这样做对我的简历很不好。所以我首先给出的建议是，也是...

交流讨论

METASPEECH

[浏览需要 0 积分] 发布于2025-06-14 09:49:48

《msign算子的Newton-Schulz迭代（下）》

https://kexue.fm/archives/10996 本文介绍了求解 msign 算子的 Newton-Schulz 迭代的最新进展，它通过等值振荡定理和贪心转换，直接求出理论上的最优解，整个过程相当硬核，值得学习一波。

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-05-26 22:58:04

《生成扩散模型漫谈（三十）：从瞬时速度到平均速度》

https://kexue.fm/archives/10958 本文以最近出来的 MeanFlow 为中心，讨论了“平均速度”视角下的扩散模型加速生成思路。

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-05-17 10:35:08

《msign算子的Newton-Schulz迭代》

https://kexue.fm/archives/10922 介绍 Muon 优化器的核心运算 msign 的最新计算进展。

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-05-17 10:29:35

MMAR

🔊💬🎵 我们正式推出 MMAR——首个面向音频-语言模型的深度推理评测基准！1000 道高难度音频-问答对，覆盖声音、音乐、语音及其混合场景，挑战模型的多层次认知能力！ ✨ 核心亮点 ✅ 四层推理任务：从信号（Signal）感知（Perception）到语...

语音

METASPEECH

[浏览需要 0 积分] 发布于2025-05-17 10:28:42

《MoE环游记：5、均匀分布的反思》

https://kexue.fm/archives/10945 本文介绍了 MoE 的 Shared Expert 和 Fine-Grained Expert 策略，并指出它们某种程度上都体现了负载均衡的非最优性。

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-04-26 21:52:17

《SVD的导数》

https://kexue.fm/archives/10878 SVD 大家应该都听说过吗？但大家有没有想到过，SVD 其实是可导的？

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-04-18 19:50:50

《Transformer升级之路：19、第二类旋转位置编码》

https://kexue.fm/archives/10862 本文围绕着“RoPE 可以加在 V 上吗”进行展开，讨论了 RoPE 的第二种用法。

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-04-18 19:50:03

《矩阵的有效秩（Effective Rank）》

https://kexue.fm/archives/10847 本文探讨了矩阵的有效秩（Effective Rank）概念，它是线性代数中矩阵的秩（Rank）概念在数值计算方面的延伸，能够更有效地度量矩阵的本质维度。

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-03-28 21:43:09

《MoE环游记：4、难处应该多投入》

https://kexue.fm/archives/10815 本文提出了一种动态选择 Expert 数目的 MoE 设计，主要思想是对 Loss-Free 的 MoE 形式稍作修改，然后修改 Bias 项的更新规则，利用它的额外自由度来同时实现负载均衡和...

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-03-24 11:31:24

《高阶muP：更简明但更高明的谱条件缩放》

https://kexue.fm/archives/10795 这篇文章介绍了 muP 的升级版——谱条件，它从谱范数相关的不等式切入来分析模型稳定训练的条件，以一种更便捷的方式得到了比 muP 更丰富的结果。

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-03-20 14:03:55

开源儿童数据，南开大学

大家好，我们开源了一个 3-5 岁的儿童语音数据集，包括 397 名儿童的 41.25h 的语音，说话人覆盖了 22 个省市，目前已经在 huggingface 上开放下载了，论文链接：https://arxiv.org/abs/2409.18584

语音

METASPEECH

[浏览需要 0 积分] 发布于2025-03-13 18:12:04

《初探muP：超参数的跨模型尺度迁移规律》

https://kexue.fm/archives/10770 本文以尽可能简明清晰的方式介绍了 muP（Maximal Update Parametrization），这是旨在研究超参数跨模型尺度的迁移规律的工作。基于 muP，我们可以在小模型上以相对较...

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-03-05 11:34:22

《MoE环游记：3、换个思路来分配》

https://kexue.fm/archives/10757 本文介绍了 MoE 负载均衡问题的 Loss-Free 方法，它由 DeepSeek 提出，其核心在于通过引入一个简单的偏置项来实现负载均衡。本文进一步思考了它与 Aux Loss 的联系，以...

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-02-27 15:45:00

《Muon续集：为什么我们选择尝试Muon？》

https://kexue.fm/archives/10739 本文介绍了我们在 Muon 优化器上的一次较大规模实践（Moonlight），并分享了我们对 Muon 优化器的最新思考。

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-02-21 11:25:16

《MoE环游记：2、不患寡而患不均》

https://kexue.fm/archives/10735 本文介绍了 MoE 的负载均衡问题，并给出了一种构建 Aux Loss 的一般思路。

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-02-14 16:07:25

《生成扩散模型漫谈（二十九）：用DDPM来离散编码》

https://kexue.fm/archives/10711 本文介绍了扩散模型的一个新脑洞，它将 DDPM 生成过程中的噪声限制在一个有限的集合上，并结合条件生成的思路，将 DDPM 免训练地变成一个类似 VQ-VAE 的离散自编码器。

文本

METASPEECH

[浏览需要 0 积分] 发布于2025-02-08 16:18:01

《MoE环游记：1、从几何意义出发》

https://kexue.fm/archives/10699 本文从 Dense 模型的最佳逼近出发来推导和理解 MoE，得到了一种特定的 MoE 形式，它比现有 MoE 多了一个 Normalize 步骤，但能让 MoE 的几何意义更加明显。当然，不管...

文本