元语音研究网
首页推荐关注语音文本图像大模型
    登录
    首页
    话题
    首页
    推荐
    关注
    语音
    文本
    图像
    大模型
    消息
    登录
    最新
    推荐
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2026-01-04 10:31:07

      《MuP之上:1. 好模型的自我修养》

      https://kexue.fm/archives/11340 从这篇文章开始,笔者会分享一些自上而下的模型优化的尝试,它是笔者在之前的“高阶 MuP”基础上的延伸思考和拓展。作为第一篇文章,我们主要描述了关于模型稳定性的三个基本条件,它将是后面进行计算和...
      赞
      评论
      浏览 39
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2026-01-04 10:30:47

      《低精度Attention可能存在有偏的舍入误差》

      https://kexue.fm/archives/11371 本文分享了一篇关于低精度 Attention 计算偏差的分析论文,同时借着这个机会,给自己补习了一下低精度计算的基础内容。
      赞
      评论
      浏览 47
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2026-01-04 10:29:32

      《Muon优化器指南:快速上手与关键细节》

      https://kexue.fm/archives/11416
      赞
      评论
      浏览 57
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2026-01-04 10:28:39

      《生成扩散模型漫谈(三十一):预测数据而非噪声》

      https://kexue.fm/archives/11428 本文简单介绍了 JiT,它基于原始数据往往处于低维子流形这一事实,提出模型应优先选择预测数据而不是噪声/速度,这样能降低扩散模型的建模难度,减少模型崩溃等负面结果的可能性。
      赞
      评论
      浏览 36
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2026-01-04 10:26:45

      《为什么DeltaNet要加L2 Normalize?》

      https://kexue.fm/archives/11486 这篇文章围绕 DeltaNet 的 L2 Normalize 进行讨论,主要介绍了以微分方程为出发点对 DeltaNet 重新参数化的思路,它也可以视作 DeltaNet 中\boldsymb...
      赞
      评论
      浏览 54
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2026-01-04 10:26:14

      《让炼丹更科学一些(四):新恒等式,新学习率》

      https://kexue.fm/archives/11494 在这篇文章中,我们推广了上篇的核心恒等式,然后得到了理论最佳的终点损失收敛速度。有意思的是,取得这一成绩的学习率策略并不是常数学习率,也不是传统的逆步数、逆步数平方根学习率,而是更贴近我们日常...
      赞
      评论
      浏览 58
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-06-20 23:28:42

      《线性注意力简史:从模仿、创新到反哺》

      https://kexue.fm/archives/11033 本文简要梳理了线性 Attention 的发展脉络,并介绍了部分模型的数学原理。线性 Attention 从模仿 Softmax Attention 起步,逐渐发展出自身特色,如今已成为极具竞...
      赞 1
      评论
      浏览 322
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-06-14 09:51:34

      《msign的导数》

      https://kexue.fm/archives/11025 本文讨论了 msign 算子的导数计算,如果你关心“TTT + Muon”的组合,那么本文也许对你有帮助。
      赞 1
      评论
      浏览 458
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-06-14 09:49:48

      《msign算子的Newton-Schulz迭代(下)》

      https://kexue.fm/archives/10996 本文介绍了求解 msign 算子的 Newton-Schulz 迭代的最新进展,它通过等值振荡定理和贪心转换,直接求出理论上的最优解,整个过程相当硬核,值得学习一波。
      赞 1
      评论
      浏览 310
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-05-26 22:58:04

      《生成扩散模型漫谈(三十):从瞬时速度到平均速度》

      https://kexue.fm/archives/10958 本文以最近出来的 MeanFlow 为中心,讨论了“平均速度”视角下的扩散模型加速生成思路。
      赞 1
      评论
      浏览 328
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-05-17 10:35:08

      《msign算子的Newton-Schulz迭代》

      https://kexue.fm/archives/10922 介绍 Muon 优化器的核心运算 msign 的最新计算进展。
      赞 1
      评论
      浏览 301
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-05-17 10:28:42

      《MoE环游记:5、均匀分布的反思》

      https://kexue.fm/archives/10945 本文介绍了 MoE 的 Shared Expert 和 Fine-Grained Expert 策略,并指出它们某种程度上都体现了负载均衡的非最优性。
      赞 1
      评论
      浏览 327
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-04-26 21:52:17

      《SVD的导数》

      https://kexue.fm/archives/10878 SVD 大家应该都听说过吗?但大家有没有想到过,SVD 其实是可导的?
      赞 2
      评论
      浏览 308
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-04-18 19:50:50

      《Transformer升级之路:19、第二类旋转位置编码》

      https://kexue.fm/archives/10862 本文围绕着“RoPE 可以加在 V 上吗”进行展开,讨论了 RoPE 的第二种用法。
      赞 2
      评论
      浏览 377
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-04-18 19:50:03

      《矩阵的有效秩(Effective Rank)》

      https://kexue.fm/archives/10847 本文探讨了矩阵的有效秩(Effective Rank)概念,它是线性代数中矩阵的秩(Rank)概念在数值计算方面的延伸,能够更有效地度量矩阵的本质维度。
      赞 2
      评论
      浏览 402
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-03-28 21:43:09

      《MoE环游记:4、难处应该多投入》

      https://kexue.fm/archives/10815 本文提出了一种动态选择 Expert 数目的 MoE 设计,主要思想是对 Loss-Free 的 MoE 形式稍作修改,然后修改 Bias 项的更新规则,利用它的额外自由度来同时实现负载均衡和...
      赞 2
      评论
      浏览 368
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-03-24 11:31:24

      《高阶muP:更简明但更高明的谱条件缩放》

      https://kexue.fm/archives/10795 这篇文章介绍了 muP 的升级版——谱条件,它从谱范数相关的不等式切入来分析模型稳定训练的条件,以一种更便捷的方式得到了比 muP 更丰富的结果。
      赞 2
      评论
      浏览 400
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-03-13 18:12:04

      《初探muP:超参数的跨模型尺度迁移规律》

      https://kexue.fm/archives/10770 本文以尽可能简明清晰的方式介绍了 muP(Maximal Update Parametrization),这是旨在研究超参数跨模型尺度的迁移规律的工作。基于 muP,我们可以在小模型上以相对较...
      赞 2
      评论
      浏览 511
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-03-05 11:34:22

      《MoE环游记:3、换个思路来分配》

      https://kexue.fm/archives/10757 本文介绍了 MoE 负载均衡问题的 Loss-Free 方法,它由 DeepSeek 提出,其核心在于通过引入一个简单的偏置项来实现负载均衡。本文进一步思考了它与 Aux Loss 的联系,以...
      赞 2
      评论
      浏览 546
      文本
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2025-02-27 15:45:00

      《Muon续集:为什么我们选择尝试Muon?》

      https://kexue.fm/archives/10739 本文介绍了我们在 Muon 优化器上的一次较大规模实践(Moonlight),并分享了我们对 Muon 优化器的最新思考。
      赞 2
      评论
      浏览 517
      文本
    签到
    0
    立即签到
    公告

    元语音研究网站板块设计:【CP】Conference Paper,【JP】Journal Paper,【TR】Technique Report,【优秀导师】,【优秀研究员】,【优秀博士生】

    积分排行
    • 元语音
      元语音

      322 帖子 • 51 评论

      2211
    • Speech
      Speech

      166 帖子 • 24 评论

      1292
    • AI柠檬
      AI柠檬

      14 帖子 • 16 评论

      519
    • 江南一点红
      江南一点红

      1 帖子 • 1 评论

      46
    • 懵
      懵懵懂懂的新手

      1 帖子 • 17 评论

      39
    • M
      Mephisto

      0 帖子 • 4 评论

      28
    • 後藤ひとり
      後藤ひとり

      0 帖子 • 0 评论

      23
    • 心行
      心行

      2 帖子 • 0 评论

      20
    • 出东巷
      出东巷

      0 帖子 • 0 评论

      15
    • betciso
      betciso

      0 帖子 • 1 评论

      12
    关于 标签 友链
    © 2024 元语音研究网   由 AI柠檬 提供技术支持
    沪ICP备2022004527号-2