元语音研究网
首页推荐关注语音文本图像大模型
    登录
    首页
    话题
    首页
    推荐
    关注
    语音
    文本
    图像
    大模型
    消息
    登录
    最新
    推荐
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-07-29 16:49:35

      《对齐全量微调!这是我看过最精彩的LoRA改进(二)》

      https://kexue.fm/archives/10266 本文介绍了另一个对齐全量微调的工作 LoRA-Pro,它跟上一篇的 LoRA-GA 正好是互补的两个结果,LoRA-GA 试图通过改进初始化来使得 LoRA 跟全量微调对齐,LoRA-Pro ...
      赞 2
      评论
      浏览 1088
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于3天前

      《msign的导数》

      https://kexue.fm/archives/11025 本文讨论了 msign 算子的导数计算,如果你关心“TTT + Muon”的组合,那么本文也许对你有帮助。
      赞 1
      评论
      浏览 7
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-10-31 18:51:06

      《低秩近似之路(四):ID》

      https://kexue.fm/archives/10501 本文介绍了 ID(Interpolative Decomposition,插值分解),它通过从原矩阵中选择若干列来作为“骨架”来逼近原矩阵,是一种具有特定结构的低秩分解。
      赞 2
      评论
      浏览 605
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-10-24 17:18:47

      《VQ的旋转技巧:梯度直通估计的一般推广》

      https://kexue.fm/archives/10489 旋转技巧是近日 arXiv 上面提出的训练 VQ(Vector Quantization)模型的新技术,它推广了原本的直通估计器(STE),声称能改善编码表的坍缩或利用率低等问题,本文对此进行...
      赞 2
      评论
      浏览 652
      文本
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2024-10-11 10:05:57

      《低秩近似之路(三):CR近似》

      https://kexue.fm/archives/10427 本文介绍了矩阵乘法的 CR 近似,这是一种具有特定行列结构的低秩近似,相比由 SVD 给出的最优低秩近似,CR 近似具有更直观的物理意义以及更好的可解释性。 https://mp.weixin...
      赞 2
      评论
      浏览 989
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-10-01 17:50:29

      《低秩近似之路(二):SVD》

      https://kexue.fm/archives/10407 本文的主角是声名显赫的 SVD(奇异值分解),想必不少读者已经对它有所了解。在这篇文章中,我们主要围绕着 SVD 与低秩近似的相关内容进行展开,对 SVD 的存在性、计算以及与低秩近似的联系等...
      赞 2
      评论
      浏览 1092
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-09-19 15:18:47

      《Softmax后传:寻找Top-K的光滑近似》

      https://kexue.fm/archives/10373 如果说 Max 或者说 Top-1 的光滑近似是 Softmax,那么 Top-K 的光滑近似又是什么呢?本文讨论了几种构造方案。 https://mp.weixin.qq.com/s/KMU...
      赞 2
      评论
      浏览 1161
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-09-15 16:58:36

      《低秩近似之路(一):伪逆》

      https://kexue.fm/archives/10366 开一个新坑,介绍低秩近似的相关内容。在第一篇文章中,我们从用低秩近似的角度介绍了伪逆,这是逆矩阵概念对于非方阵或不可逆方阵的扩展,使我们可以更有效地分析和求解一般的矩阵方程。 https://...
      赞 2
      评论
      浏览 1021
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-09-06 18:05:31

      《“闭门造车”之多模态思路浅谈(三):位置编码》

      https://kexue.fm/archives/10352 本文分享了笔者关于多模态位置编码的后续思考,提出了构建多模态位置编码的三个原则:兼容性、等价性和对称性,改进了之前提出过的 RoPE-Tie,最后讨论了“文本-视频”混合模态的位置编码设计和困...
      赞 2
      评论
      浏览 1032
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-09-04 09:55:33

      《Decoder-only的LLM为什么需要位置编码?》

      https://kexue.fm/archives/10347 尽管已经有一些工作表明,Deocder-only 模型不加位置编码似乎也能取得不错的结果,但主流的 LLM 仍然额外加上了额外的位置编码,本文试图对这个现象给出自己的理解。 https://m...
      赞 2
      评论
      浏览 951
      文本
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2024-08-06 15:00:12

      《迈向最优分布:概率空间的最小化》

      https://kexue.fm/archives/10289 本文系统整理了概率空间中目标函数的最小化方法,包括取到极小值的必要条件、类似梯度下降的迭代法等内容,相关结果在最优化、生成模型(尤其是扩散模型)等场景中时有用到。 https://mp.wei...
      赞 2
      评论
      浏览 642
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-05-13 14:13:58

      《缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA》

      https://kexue.fm/archives/10091 本文简单概率了多头注意力的演变历程,特别是从 MHA 向 MQA、GQA,最终到 MLA 的变化理念,最后详细展开了对 MLA 的介绍。在本文中,MLA 被视为 GQA 的一般化,它用投影矩阵...
      赞 1
      评论
      浏览 1715
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-07-24 11:44:41

      《Monarch矩阵:计算高效的稀疏型矩阵分解》

      https://kexue.fm/archives/10249 本文介绍了 Monarch 矩阵,这是 Tri Dao 前两年提出的一簇能够分解为转置矩阵与稀疏矩阵乘积的矩阵,具备计算高效的特点(众所周知,Tri Dao 是高性能的代名词),可以用来为全连...
      赞 2
      评论
      浏览 1084
      文本
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2024-07-12 11:35:49

      《对齐全量微调!这是我看过最机智的LoRA改进》

      https://kexue.fm/archives/10226 本文介绍了 LoRA 的一个新改进 LoRA-GA。虽然 LoRA 的各种变体并不鲜见,但 LoRA-GA 以非常直观的理论指导折服了笔者,其改进思路给人一种“确认过眼神,它就是对的论文”的感...
      赞 2
      评论
      浏览 766
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-07-09 10:59:18

      《“闭门造车”之多模态思路浅谈(二):自回归》

      https://kexue.fm/archives/10197 这篇文章继续“闭门造车”了一些有关多模态学习的思路,主要围绕视觉的自回归学习进行展开,讨论了多模态学习的本质难度、世界模型等内容,里边可能有不少“暴论”和“谬论”,请读者自行甄别和海涵。 ht...
      赞 2
      评论
      浏览 1019
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-06-27 11:11:45

      《重温SSM(四):有理生成函数的新视角》

      https://kexue.fm/archives/10180 本文介绍了 SSM 模型的一个新工作 RTF,它观察到线性 RNN 的卷积核的生成函数实际上可以表示为一个有理函数(分式多项式),利用这个特点,我们可以将 SSM 的参数化全部转移到生成函数空...
      赞 1
      评论
      浏览 608
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-06-21 00:47:35

      《重温SSM(三):HiPPO的高效计算(S4)》

      https://kexue.fm/archives/10162 本文介绍了 HiPPO 的后续之作 S4,它的关键之处是提出了“对角矩阵 + 低秩矩阵”的分解,从而实现了 HiPPO 矩阵的高效并行计算,本文主要对其中比较困难的数学细节做了介绍和推导。 h...
      赞 1
      评论
      浏览 799
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-06-14 16:23:31

      《通向概率分布之路:盘点Softmax及其替代品》

      https://kexue.fm/archives/10145 本文简单回顾和整理了 Softmax 及其部分替代品,其中包含的工作有 Softmax、Margin Softmax、Taylor Softmax、Sparse Softmax、Perturb...
      赞 1
      评论
      浏览 737
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-06-05 16:12:31

      《重温SSM(二):HiPPO的一些遗留问题》

      https://kexue.fm/archives/10137 在这篇文章中,我们补充探讨了上一篇文章介绍的 HiPPO 的一些遗留问题,其中包括如何对 ODE 进行离散化、LegS 型 ODE 的一些优良性质,以及利用傅立叶基记忆整个历史区间的结果推导(...
      赞 1
      评论
      浏览 620
      文本
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-05-30 19:32:57

      《Transformer升级之路:18、RoPE的底数设计原则》

      https://kexue.fm/archives/10122 本文简单介绍了论文《Base of RoPE Bounds Context Length》,它从语义聚合的期望性质讨论了 RoPE 的底数下界,由此指出更大的训练长度应该选择更大的底数,而不单...
      赞 1
      评论
      浏览 589
      文本
    签到
    0
    立即签到
    公告

    元语音研究网站板块设计:【CP】Conference Paper,【JP】Journal Paper,【TR】Technique Report,【优秀导师】,【优秀研究员】,【优秀博士生】

    积分排行
    • METASPEECH
      METASPEECH

      269 帖子 • 51 评论

      1646
    • Speech
      Speech

      166 帖子 • 24 评论

      1292
    • AI柠檬
      AI柠檬

      14 帖子 • 16 评论

      509
    • 江南一点红
      江南一点红

      1 帖子 • 1 评论

      46
    • 懵
      懵懵懂懂的新手

      1 帖子 • 17 评论

      39
    • M
      Mephisto

      0 帖子 • 4 评论

      28
    • 後藤ひとり
      後藤ひとり

      0 帖子 • 0 评论

      23
    • 心行
      心行

      2 帖子 • 0 评论

      20
    • 出东巷
      出东巷

      0 帖子 • 0 评论

      15
    • betciso
      betciso

      0 帖子 • 1 评论

      12
    关于 标签 友链
    © 2024 元语音研究网   由 AI柠檬 提供技术支持
    沪ICP备2022004527号-2