首页
推荐
关注
语音
文本
图像
大模型
发帖
登录
首页
话题
发帖
首页
推荐
关注
语音
文本
图像
大模型
消息
登录
最新
推荐
METASPEECH
静下心,研究、设计、应用基础理论。
关注
个人成就
积分
1576
话题
262
评论
51
注册排名
3
个人资料
编辑资料
昵称
METASPEECH
签名
静下心,研究、设计、应用基础理论。
主页
https://www.meta-speech.com/user/3
粉丝
17
更多
没有更多内容了
粉丝
关注
4
更多
没有更多内容了
关注
话题
文章
METASPEECH
[浏览需要 0 积分] 发布于5天前
《SVD的导数》
https://kexue.fm/archives/10878 SVD 大家应该都听说过吗?但大家有没有想到过,SVD 其实是可导的?
赞
2
评论
浏览
14
文本
METASPEECH
[浏览需要 0 积分] 发布于14天前
《Transformer升级之路:19、第二类旋转位置编码》
https://kexue.fm/archives/10862 本文围绕着“RoPE 可以加在 V 上吗”进行展开,讨论了 RoPE 的第二种用法。
赞
2
评论
浏览
30
文本
METASPEECH
[浏览需要 0 积分] 发布于14天前
《矩阵的有效秩(Effective Rank)》
https://kexue.fm/archives/10847 本文探讨了矩阵的有效秩(Effective Rank)概念,它是线性代数中矩阵的秩(Rank)概念在数值计算方面的延伸,能够更有效地度量矩阵的本质维度。
赞
2
评论
浏览
33
文本
METASPEECH
[浏览需要 0 积分] 发布于2025-03-28 21:43:09
《MoE环游记:4、难处应该多投入》
https://kexue.fm/archives/10815 本文提出了一种动态选择 Expert 数目的 MoE 设计,主要思想是对 Loss-Free 的 MoE 形式稍作修改,然后修改 Bias 项的更新规则,利用它的额外自由度来同时实现负载均衡和...
赞
2
评论
浏览
78
文本
METASPEECH
[浏览需要 0 积分] 发布于2025-03-24 11:31:24
《高阶muP:更简明但更高明的谱条件缩放》
https://kexue.fm/archives/10795 这篇文章介绍了 muP 的升级版——谱条件,它从谱范数相关的不等式切入来分析模型稳定训练的条件,以一种更便捷的方式得到了比 muP 更丰富的结果。
赞
2
评论
浏览
80
文本
METASPEECH
[浏览需要 0 积分] 发布于2025-03-20 14:03:55
开源儿童数据,南开大学
大家好,我们开源了一个 3-5 岁的儿童语音数据集,包括 397 名儿童的 41.25h 的语音,说话人覆盖了 22 个省市,目前已经在 huggingface 上开放下载了,论文链接:https://arxiv.org/abs/2409.18584
赞
2
评论
浏览
131
语音
METASPEECH
[浏览需要 0 积分] 发布于2025-03-13 18:12:04
《初探muP:超参数的跨模型尺度迁移规律》
https://kexue.fm/archives/10770 本文以尽可能简明清晰的方式介绍了 muP(Maximal Update Parametrization),这是旨在研究超参数跨模型尺度的迁移规律的工作。基于 muP,我们可以在小模型上以相对较...
赞
2
评论
浏览
102
文本
METASPEECH
[浏览需要 0 积分] 发布于2025-03-05 11:34:22
《MoE环游记:3、换个思路来分配》
https://kexue.fm/archives/10757 本文介绍了 MoE 负载均衡问题的 Loss-Free 方法,它由 DeepSeek 提出,其核心在于通过引入一个简单的偏置项来实现负载均衡。本文进一步思考了它与 Aux Loss 的联系,以...
赞
2
评论
浏览
159
文本
METASPEECH
[浏览需要 0 积分] 发布于2025-02-27 15:45:00
《Muon续集:为什么我们选择尝试Muon?》
https://kexue.fm/archives/10739 本文介绍了我们在 Muon 优化器上的一次较大规模实践(Moonlight),并分享了我们对 Muon 优化器的最新思考。
赞
2
评论
浏览
211
文本
METASPEECH
[浏览需要 0 积分] 发布于2025-02-21 11:25:16
《MoE环游记:2、不患寡而患不均》
https://kexue.fm/archives/10735 本文介绍了 MoE 的负载均衡问题,并给出了一种构建 Aux Loss 的一般思路。
赞
2
评论
浏览
250
文本
METASPEECH
[浏览需要 0 积分] 发布于2025-02-14 16:07:25
《生成扩散模型漫谈(二十九):用DDPM来离散编码》
https://kexue.fm/archives/10711 本文介绍了扩散模型的一个新脑洞,它将 DDPM 生成过程中的噪声限制在一个有限的集合上,并结合条件生成的思路,将 DDPM 免训练地变成一个类似 VQ-VAE 的离散自编码器。
赞
2
评论
浏览
354
文本
METASPEECH
[浏览需要 0 积分] 发布于2025-02-08 16:18:01
《MoE环游记:1、从几何意义出发》
https://kexue.fm/archives/10699 本文从 Dense 模型的最佳逼近出发来推导和理解 MoE,得到了一种特定的 MoE 形式,它比现有 MoE 多了一个 Normalize 步骤,但能让 MoE 的几何意义更加明显。当然,不管...
赞
2
评论
浏览
399
文本
METASPEECH
[浏览需要 0 积分] 发布于2025-01-27 22:38:08
我们开源了FireRedASR,包括技术报告、模型、推理代码
我们开源了 FireRedASR,包括技术报告、模型、推理代码 高准确率:在中文普通话公开测试集上,FireRedASR 字错误率(CER) 3.05%,比此前 SOTA Seed-ASR 的 3.33% 相对降低 8.4% 高实用性:在多种实际中文普通话...
赞
2
评论
浏览
724
语音
METASPEECH
[浏览需要 0 积分] 发布于2025-01-12 21:38:43
《低秩近似之路(五):CUR》
https://kexue.fm/archives/10662 本文介绍了 CUR 分解,它可以视为上一篇文章介绍的插值分解(ID)的进一步延伸,特点是同时以原始矩阵的若干行与列作为骨架来构建低秩近似。
赞
2
评论
浏览
334
语音
METASPEECH
[浏览需要 0 积分] 发布于2025-01-06 17:00:09
《为什么梯度裁剪的默认模长总是1?》
https://kexue.fm/archives/10657 对“梯度裁剪的默认模长为 1”这一现象给出了自己的一些看法和思考。
赞
2
评论
浏览
324
文本
METASPEECH
[浏览需要 0 积分] 发布于2024-12-18 17:55:00
《生成扩散模型漫谈(二十八):分步理解一致性模型》
https://kexue.fm/archives/10633 本文通过逐步解构和优化 ReFLow 训练流程的方式,提供了一个从 ReFlow 逐渐过渡到一致性模型(Consistency Models)的直观理解路径。
赞
2
评论
浏览
361
文本
METASPEECH
[浏览需要 0 积分] 发布于2024-12-15 17:45:57
《生成扩散模型漫谈(二十七):将步长作为条件输入》
https://kexue.fm/archives/10617 本文介绍了一个单阶段训练就可以实现单步生成的扩散模型新工作,它的突破思想是将步长也当成条件输入到扩散模型中,并配以一个直观的正则项,这样只通过单阶段训练就可以得到单步生成的扩散模型。
赞
2
评论
浏览
393
文本
METASPEECH
[浏览需要 0 积分] 发布于2024-11-29 23:30:38
《从Hessian近似看自适应学习率优化器》
https://kexue.fm/archives/10588 本文介绍了从 Newton 法和 Hessian 近似看待 Adam 等自适应学习率优化器的一个视角,并讨论了 Hessian 近似的相关结果。
赞
2
评论
浏览
377
文本
METASPEECH
[浏览需要 0 积分] 发布于2024-11-22 18:21:28
《生成扩散模型漫谈(二十六):基于恒等式的蒸馏(下)》
https://kexue.fm/archives/10567 本文介绍了 SiD(Score identity Distillation)的后续理论进展,主要内容是从梯度视角解释了 SiD 中的 λ 参数设置,核心部分是由 FGM(Flow Genera...
赞
2
评论
浏览
513
文本
METASPEECH
[浏览需要 0 积分] 发布于2024-11-18 18:07:51
《Adam的epsilon如何影响学习率的Scaling Law?》
https://kexue.fm/archives/10563 本文延续了上一篇文章的方法,尝试分析了 Adam 的 ϵ 对学习率与 Batch Size 之间的 Scaling Law 的影响,结果是一个介乎 SGD 与 SignSGD 之间的形式,当 ...
赞
2
评论
浏览
454
文本
查看更多