苏神 - 话题 | 元语音研究网

METASPEECH

[浏览需要 0 积分] 发布于2024-07-29 16:49:35

《对齐全量微调！这是我看过最精彩的LoRA改进（二）》
https://kexue.fm/archives/10266 本文介绍了另一个对齐全量微调的工作 LoRA-Pro，它跟上一篇的 LoRA-GA 正好是互补的两个结果，LoRA-GA 试图通过改进初始化来使得 LoRA 跟全量微调对齐，LoRA-Pro ...

赞 2

评论

浏览 1137

文本
METASPEECH

[浏览需要 0 积分] 发布于2025-06-20 23:28:42

《线性注意力简史：从模仿、创新到反哺》
https://kexue.fm/archives/11033 本文简要梳理了线性 Attention 的发展脉络，并介绍了部分模型的数学原理。线性 Attention 从模仿 Softmax Attention 起步，逐渐发展出自身特色，如今已成为极具竞...

赞 1

评论

浏览 35

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-10-31 18:51:06

《低秩近似之路（四）：ID》
https://kexue.fm/archives/10501 本文介绍了 ID（Interpolative Decomposition，插值分解），它通过从原矩阵中选择若干列来作为“骨架”来逼近原矩阵，是一种具有特定结构的低秩分解。

赞 2

评论

浏览 618

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-10-24 17:18:47

《VQ的旋转技巧：梯度直通估计的一般推广》
https://kexue.fm/archives/10489 旋转技巧是近日 arXiv 上面提出的训练 VQ（Vector Quantization）模型的新技术，它推广了原本的直通估计器（STE），声称能改善编码表的坍缩或利用率低等问题，本文对此进行...

赞 2

评论

浏览 665

文本
Speech

[浏览需要 0 积分] 发布于2024-10-11 10:05:57

《低秩近似之路（三）：CR近似》
https://kexue.fm/archives/10427 本文介绍了矩阵乘法的 CR 近似，这是一种具有特定行列结构的低秩近似，相比由 SVD 给出的最优低秩近似，CR 近似具有更直观的物理意义以及更好的可解释性。 https://mp.weixin...

赞 2

评论

浏览 1032

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-10-01 17:50:29

《低秩近似之路（二）：SVD》
https://kexue.fm/archives/10407 本文的主角是声名显赫的 SVD（奇异值分解），想必不少读者已经对它有所了解。在这篇文章中，我们主要围绕着 SVD 与低秩近似的相关内容进行展开，对 SVD 的存在性、计算以及与低秩近似的联系等...

赞 2

评论

浏览 1147

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-09-19 15:18:47

《Softmax后传：寻找Top-K的光滑近似》
https://kexue.fm/archives/10373 如果说 Max 或者说 Top-1 的光滑近似是 Softmax，那么 Top-K 的光滑近似又是什么呢？本文讨论了几种构造方案。 https://mp.weixin.qq.com/s/KMU...

赞 2

评论

浏览 1221

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-09-15 16:58:36

《低秩近似之路（一）：伪逆》
https://kexue.fm/archives/10366 开一个新坑，介绍低秩近似的相关内容。在第一篇文章中，我们从用低秩近似的角度介绍了伪逆，这是逆矩阵概念对于非方阵或不可逆方阵的扩展，使我们可以更有效地分析和求解一般的矩阵方程。 https://...

赞 2

评论

浏览 1065

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-09-06 18:05:31

《“闭门造车”之多模态思路浅谈（三）：位置编码》
https://kexue.fm/archives/10352 本文分享了笔者关于多模态位置编码的后续思考，提出了构建多模态位置编码的三个原则：兼容性、等价性和对称性，改进了之前提出过的 RoPE-Tie，最后讨论了“文本-视频”混合模态的位置编码设计和困...

赞 2

评论

浏览 1059

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-09-04 09:55:33

《Decoder-only的LLM为什么需要位置编码？》
https://kexue.fm/archives/10347 尽管已经有一些工作表明，Deocder-only 模型不加位置编码似乎也能取得不错的结果，但主流的 LLM 仍然额外加上了额外的位置编码，本文试图对这个现象给出自己的理解。 https://m...

赞 2

评论

浏览 994

文本
Speech

[浏览需要 0 积分] 发布于2024-08-06 15:00:12

《迈向最优分布：概率空间的最小化》
https://kexue.fm/archives/10289 本文系统整理了概率空间中目标函数的最小化方法，包括取到极小值的必要条件、类似梯度下降的迭代法等内容，相关结果在最优化、生成模型（尤其是扩散模型）等场景中时有用到。 https://mp.wei...

赞 2

评论

浏览 659

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-05-13 14:13:58

《缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA》
https://kexue.fm/archives/10091 本文简单概率了多头注意力的演变历程，特别是从 MHA 向 MQA、GQA，最终到 MLA 的变化理念，最后详细展开了对 MLA 的介绍。在本文中，MLA 被视为 GQA 的一般化，它用投影矩阵...

赞 1

评论

浏览 1744

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-07-24 11:44:41

《Monarch矩阵：计算高效的稀疏型矩阵分解》
https://kexue.fm/archives/10249 本文介绍了 Monarch 矩阵，这是 Tri Dao 前两年提出的一簇能够分解为转置矩阵与稀疏矩阵乘积的矩阵，具备计算高效的特点（众所周知，Tri Dao 是高性能的代名词），可以用来为全连...

赞 2

评论

浏览 1144

文本
Speech

[浏览需要 0 积分] 发布于2024-07-12 11:35:49

《对齐全量微调！这是我看过最机智的LoRA改进》
https://kexue.fm/archives/10226 本文介绍了 LoRA 的一个新改进 LoRA-GA。虽然 LoRA 的各种变体并不鲜见，但 LoRA-GA 以非常直观的理论指导折服了笔者，其改进思路给人一种“确认过眼神，它就是对的论文”的感...

赞 2

评论

浏览 782

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-07-09 10:59:18

《“闭门造车”之多模态思路浅谈（二）：自回归》
https://kexue.fm/archives/10197 这篇文章继续“闭门造车”了一些有关多模态学习的思路，主要围绕视觉的自回归学习进行展开，讨论了多模态学习的本质难度、世界模型等内容，里边可能有不少“暴论”和“谬论”，请读者自行甄别和海涵。 ht...

赞 2

评论

浏览 1056

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-06-27 11:11:45

《重温SSM（四）：有理生成函数的新视角》
https://kexue.fm/archives/10180 本文介绍了 SSM 模型的一个新工作 RTF，它观察到线性 RNN 的卷积核的生成函数实际上可以表示为一个有理函数（分式多项式），利用这个特点，我们可以将 SSM 的参数化全部转移到生成函数空...

赞 1

评论

浏览 627

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-06-21 00:47:35

《重温SSM（三）：HiPPO的高效计算（S4）》
https://kexue.fm/archives/10162 本文介绍了 HiPPO 的后续之作 S4，它的关键之处是提出了“对角矩阵 + 低秩矩阵”的分解，从而实现了 HiPPO 矩阵的高效并行计算，本文主要对其中比较困难的数学细节做了介绍和推导。 h...

赞 1

评论

浏览 815

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-06-14 16:23:31

《通向概率分布之路：盘点Softmax及其替代品》
https://kexue.fm/archives/10145 本文简单回顾和整理了 Softmax 及其部分替代品，其中包含的工作有 Softmax、Margin Softmax、Taylor Softmax、Sparse Softmax、Perturb...

赞 1

评论

浏览 757

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-06-05 16:12:31

《重温SSM（二）：HiPPO的一些遗留问题》
https://kexue.fm/archives/10137 在这篇文章中，我们补充探讨了上一篇文章介绍的 HiPPO 的一些遗留问题，其中包括如何对 ODE 进行离散化、LegS 型 ODE 的一些优良性质，以及利用傅立叶基记忆整个历史区间的结果推导（...

赞 1

评论

浏览 637

文本
METASPEECH

[浏览需要 0 积分] 发布于2024-05-30 19:32:57

《Transformer升级之路：18、RoPE的底数设计原则》
https://kexue.fm/archives/10122 本文简单介绍了论文《Base of RoPE Bounds Context Length》，它从语义聚合的期望性质讨论了 RoPE 的底数下界，由此指出更大的训练长度应该选择更大的底数，而不单...

赞 1

评论

浏览 613

文本

METASPEECH
270 帖子 • 51 评论

1656
Speech
166 帖子 • 24 评论

1292
AI柠檬
14 帖子 • 16 评论

512
江南一点红
1 帖子 • 1 评论

46
懵
懵懵懂懂的新手
1 帖子 • 17 评论

39
M
Mephisto
0 帖子 • 4 评论

28
後藤ひとり
0 帖子 • 0 评论

23
心行
2 帖子 • 0 评论

20
出东巷
0 帖子 • 0 评论

15
betciso
0 帖子 • 1 评论

12