- [浏览需要 0 积分] 发布于2022-05-14 11:37:49
端到端语音识别-01-田正坤
论文优势: (1)CTC 模型介绍 (2)基础 Attention 模型 (3)Encoder 模型探讨 (4)软、硬 Attention 机制 (5)多任务学习结构 (6)Transformer 结构 (7)训练技巧与个人思考 论文下载链接:赞 3评论 11浏览 1761 - [浏览需要 0 积分] 发布于5天前赞 2评论浏览 12
- [浏览需要 0 积分] 发布于13天前
《Transformer升级之路:19、第二类旋转位置编码》
https://kexue.fm/archives/10862 本文围绕着“RoPE 可以加在 V 上吗”进行展开,讨论了 RoPE 的第二种用法。赞 2评论浏览 30 - [浏览需要 0 积分] 发布于2025-03-28 23:33:26
【前沿观察】最新研究:DeepSeek-R1 的性能、安全性和可解释性
随着 DeepSeek-R1 的推出,其在多个领域的卓越表现引起了广泛关注。然而,除了性能,安全性、计算效率和可解释性也成为研究者们关注的重点。以下是对几篇近期发表的 arXiv 论文中关于 DeepSeek-R1 的研究综述。 1. 温度设置与架构对生成...赞 2评论浏览 101 - [浏览需要 0 积分] 发布于2025-03-28 21:43:09
《MoE环游记:4、难处应该多投入》
https://kexue.fm/archives/10815 本文提出了一种动态选择 Expert 数目的 MoE 设计,主要思想是对 Loss-Free 的 MoE 形式稍作修改,然后修改 Bias 项的更新规则,利用它的额外自由度来同时实现负载均衡和...赞 2评论浏览 77 - [浏览需要 0 积分] 发布于2025-03-24 11:31:24
《高阶muP:更简明但更高明的谱条件缩放》
https://kexue.fm/archives/10795 这篇文章介绍了 muP 的升级版——谱条件,它从谱范数相关的不等式切入来分析模型稳定训练的条件,以一种更便捷的方式得到了比 muP 更丰富的结果。赞 2评论浏览 79 - [浏览需要 0 积分] 发布于2025-03-20 14:03:55
开源儿童数据,南开大学
大家好,我们开源了一个 3-5 岁的儿童语音数据集,包括 397 名儿童的 41.25h 的语音,说话人覆盖了 22 个省市,目前已经在 huggingface 上开放下载了,论文链接:https://arxiv.org/abs/2409.18584赞 2评论浏览 130 - [浏览需要 0 积分] 发布于2025-03-13 18:12:04
《初探muP:超参数的跨模型尺度迁移规律》
https://kexue.fm/archives/10770 本文以尽可能简明清晰的方式介绍了 muP(Maximal Update Parametrization),这是旨在研究超参数跨模型尺度的迁移规律的工作。基于 muP,我们可以在小模型上以相对较...赞 2评论浏览 101 - [浏览需要 0 积分] 发布于2025-03-06 14:10:10赞 2评论 1浏览 189
- [浏览需要 0 积分] 发布于2025-03-05 16:10:22赞 2评论浏览 191
- [浏览需要 0 积分] 发布于2025-03-05 11:34:22
《MoE环游记:3、换个思路来分配》
https://kexue.fm/archives/10757 本文介绍了 MoE 负载均衡问题的 Loss-Free 方法,它由 DeepSeek 提出,其核心在于通过引入一个简单的偏置项来实现负载均衡。本文进一步思考了它与 Aux Loss 的联系,以...赞 2评论浏览 158 - [浏览需要 0 积分] 发布于2025-02-27 15:45:00
《Muon续集:为什么我们选择尝试Muon?》
https://kexue.fm/archives/10739 本文介绍了我们在 Muon 优化器上的一次较大规模实践(Moonlight),并分享了我们对 Muon 优化器的最新思考。赞 2评论浏览 211 - [浏览需要 0 积分] 发布于2025-02-27 10:19:11
【JP】High fidelity zero shot speaker adaptation in text to speech synthesis with denoising diffusion GAN
论文链接赞 2评论浏览 305 - [浏览需要 0 积分] 发布于2025-02-21 17:50:45赞 2评论浏览 347
- [浏览需要 0 积分] 发布于2025-02-21 17:11:48赞 2评论浏览 279