- [浏览需要 0 积分] 发布于2024-07-29 16:49:35
《对齐全量微调!这是我看过最精彩的LoRA改进(二)》
https://kexue.fm/archives/10266 本文介绍了另一个对齐全量微调的工作 LoRA-Pro,它跟上一篇的 LoRA-GA 正好是互补的两个结果,LoRA-GA 试图通过改进初始化来使得 LoRA 跟全量微调对齐,LoRA-Pro ...赞 2评论浏览 914 - [浏览需要 0 积分] 发布于6天前赞 2评论浏览 14
- [浏览需要 0 积分] 发布于2024-10-31 18:51:06
《低秩近似之路(四):ID》
https://kexue.fm/archives/10501 本文介绍了 ID(Interpolative Decomposition,插值分解),它通过从原矩阵中选择若干列来作为“骨架”来逼近原矩阵,是一种具有特定结构的低秩分解。赞 2评论浏览 588 - [浏览需要 0 积分] 发布于2024-10-24 17:18:47
《VQ的旋转技巧:梯度直通估计的一般推广》
https://kexue.fm/archives/10489 旋转技巧是近日 arXiv 上面提出的训练 VQ(Vector Quantization)模型的新技术,它推广了原本的直通估计器(STE),声称能改善编码表的坍缩或利用率低等问题,本文对此进行...赞 2评论浏览 630 - [浏览需要 0 积分] 发布于2024-10-11 10:05:57
《低秩近似之路(三):CR近似》
https://kexue.fm/archives/10427 本文介绍了矩阵乘法的 CR 近似,这是一种具有特定行列结构的低秩近似,相比由 SVD 给出的最优低秩近似,CR 近似具有更直观的物理意义以及更好的可解释性。 https://mp.weixin...赞 2评论浏览 901 - [浏览需要 0 积分] 发布于2024-10-01 17:50:29
《低秩近似之路(二):SVD》
https://kexue.fm/archives/10407 本文的主角是声名显赫的 SVD(奇异值分解),想必不少读者已经对它有所了解。在这篇文章中,我们主要围绕着 SVD 与低秩近似的相关内容进行展开,对 SVD 的存在性、计算以及与低秩近似的联系等...赞 2评论浏览 937 - [浏览需要 0 积分] 发布于2024-09-19 15:18:47
《Softmax后传:寻找Top-K的光滑近似》
https://kexue.fm/archives/10373 如果说 Max 或者说 Top-1 的光滑近似是 Softmax,那么 Top-K 的光滑近似又是什么呢?本文讨论了几种构造方案。 https://mp.weixin.qq.com/s/KMU...赞 2评论浏览 1020 - [浏览需要 0 积分] 发布于2024-09-15 16:58:36
《低秩近似之路(一):伪逆》
https://kexue.fm/archives/10366 开一个新坑,介绍低秩近似的相关内容。在第一篇文章中,我们从用低秩近似的角度介绍了伪逆,这是逆矩阵概念对于非方阵或不可逆方阵的扩展,使我们可以更有效地分析和求解一般的矩阵方程。 https://...赞 2评论浏览 902 - [浏览需要 0 积分] 发布于2024-09-06 18:05:31
《“闭门造车”之多模态思路浅谈(三):位置编码》
https://kexue.fm/archives/10352 本文分享了笔者关于多模态位置编码的后续思考,提出了构建多模态位置编码的三个原则:兼容性、等价性和对称性,改进了之前提出过的 RoPE-Tie,最后讨论了“文本-视频”混合模态的位置编码设计和困...赞 2评论浏览 995 - [浏览需要 0 积分] 发布于2024-09-04 09:55:33
《Decoder-only的LLM为什么需要位置编码?》
https://kexue.fm/archives/10347 尽管已经有一些工作表明,Deocder-only 模型不加位置编码似乎也能取得不错的结果,但主流的 LLM 仍然额外加上了额外的位置编码,本文试图对这个现象给出自己的理解。 https://m...赞 2评论浏览 862 - [浏览需要 0 积分] 发布于2024-08-06 15:00:12
《迈向最优分布:概率空间的最小化》
https://kexue.fm/archives/10289 本文系统整理了概率空间中目标函数的最小化方法,包括取到极小值的必要条件、类似梯度下降的迭代法等内容,相关结果在最优化、生成模型(尤其是扩散模型)等场景中时有用到。 https://mp.wei...赞 2评论浏览 623 - [浏览需要 0 积分] 发布于2024-05-13 14:13:58
《缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA》
https://kexue.fm/archives/10091 本文简单概率了多头注意力的演变历程,特别是从 MHA 向 MQA、GQA,最终到 MLA 的变化理念,最后详细展开了对 MLA 的介绍。在本文中,MLA 被视为 GQA 的一般化,它用投影矩阵...赞 1评论浏览 1668 - [浏览需要 0 积分] 发布于2024-07-24 11:44:41
《Monarch矩阵:计算高效的稀疏型矩阵分解》
https://kexue.fm/archives/10249 本文介绍了 Monarch 矩阵,这是 Tri Dao 前两年提出的一簇能够分解为转置矩阵与稀疏矩阵乘积的矩阵,具备计算高效的特点(众所周知,Tri Dao 是高性能的代名词),可以用来为全连...赞 2评论浏览 950 - [浏览需要 0 积分] 发布于2024-07-12 11:35:49
《对齐全量微调!这是我看过最机智的LoRA改进》
https://kexue.fm/archives/10226 本文介绍了 LoRA 的一个新改进 LoRA-GA。虽然 LoRA 的各种变体并不鲜见,但 LoRA-GA 以非常直观的理论指导折服了笔者,其改进思路给人一种“确认过眼神,它就是对的论文”的感...赞 2评论浏览 733 - [浏览需要 0 积分] 发布于2024-07-09 10:59:18
《“闭门造车”之多模态思路浅谈(二):自回归》
https://kexue.fm/archives/10197 这篇文章继续“闭门造车”了一些有关多模态学习的思路,主要围绕视觉的自回归学习进行展开,讨论了多模态学习的本质难度、世界模型等内容,里边可能有不少“暴论”和“谬论”,请读者自行甄别和海涵。 ht...赞 2评论浏览 914 - [浏览需要 0 积分] 发布于2024-06-27 11:11:45
《重温SSM(四):有理生成函数的新视角》
https://kexue.fm/archives/10180 本文介绍了 SSM 模型的一个新工作 RTF,它观察到线性 RNN 的卷积核的生成函数实际上可以表示为一个有理函数(分式多项式),利用这个特点,我们可以将 SSM 的参数化全部转移到生成函数空...赞 1评论浏览 592 - [浏览需要 0 积分] 发布于2024-06-21 00:47:35
《重温SSM(三):HiPPO的高效计算(S4)》
https://kexue.fm/archives/10162 本文介绍了 HiPPO 的后续之作 S4,它的关键之处是提出了“对角矩阵 + 低秩矩阵”的分解,从而实现了 HiPPO 矩阵的高效并行计算,本文主要对其中比较困难的数学细节做了介绍和推导。 h...赞 1评论浏览 783 - [浏览需要 0 积分] 发布于2024-06-14 16:23:31
《通向概率分布之路:盘点Softmax及其替代品》
https://kexue.fm/archives/10145 本文简单回顾和整理了 Softmax 及其部分替代品,其中包含的工作有 Softmax、Margin Softmax、Taylor Softmax、Sparse Softmax、Perturb...赞 1评论浏览 710 - [浏览需要 0 积分] 发布于2024-06-05 16:12:31
《重温SSM(二):HiPPO的一些遗留问题》
https://kexue.fm/archives/10137 在这篇文章中,我们补充探讨了上一篇文章介绍的 HiPPO 的一些遗留问题,其中包括如何对 ODE 进行离散化、LegS 型 ODE 的一些优良性质,以及利用傅立叶基记忆整个历史区间的结果推导(...赞 1评论浏览 601 - [浏览需要 0 积分] 发布于2024-05-30 19:32:57
《Transformer升级之路:18、RoPE的底数设计原则》
https://kexue.fm/archives/10122 本文简单介绍了论文《Base of RoPE Bounds Context Length》,它从语义聚合的期望性质讨论了 RoPE 的底数下界,由此指出更大的训练长度应该选择更大的底数,而不单...赞 1评论浏览 560