首页
推荐
关注
语音
文本
图像
大模型
发帖
登录
首页
话题
发帖
首页
推荐
关注
语音
文本
图像
大模型
消息
登录
最新
推荐
元语音
shylockasr@qq.com
关注
个人成就
积分
2286
话题
327
评论
51
注册排名
3
个人资料
编辑资料
昵称
元语音
签名
shylockasr@qq.com
主页
https://www.meta-speech.com/user/3
粉丝
17
更多
没有更多内容了
粉丝
关注
4
更多
没有更多内容了
关注
话题
文章
元语音
[浏览需要 0 积分] 发布于7天前
FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System
论文链接 代码链接
赞
评论
浏览
32
语音
元语音
[浏览需要 0 积分] 发布于11天前
DashengTokenizer: One layer is enough for unified audio understanding and generation
论文链接
赞
评论
浏览
31
语音
元语音
[浏览需要 0 积分] 发布于21天前
PAY ATTENTION TO CTC: FAST AND ROBUST PSEUDOLABELLING FOR UNIFIED SPEECH RECOGNITION
论文链接 代码链接
赞
评论
浏览
56
语音
元语音
[浏览需要 0 积分] 发布于2026-02-11 11:20:25
MOSS-TTS 1.0
代码链接 博客链接 模型链接
赞
评论
浏览
81
语音
元语音
[浏览需要 0 积分] 发布于2026-02-09 11:22:11
REDUCING PROMPT SENSITIVITY IN LLM-BASED SPEECH RECOGNITION THROUGH LEARNABLE PROJECTION
论文链接 代码链接
赞
评论
浏览
91
语音
元语音
[浏览需要 0 积分] 发布于2026-02-05 21:04:01
《Adam优化器的最优超参数是β1=β2 ?》
https://kexue.fm/archives/11593 在这篇文章中,我们对 Adam 优化器的 β1,β2 参数做了一些分析,从稳定性角度表明 β1=β2 通常是一个较优的选择,它可以理解为信噪比感知下的最速下降。
赞
评论
浏览
99
语音
元语音
[浏览需要 0 积分] 发布于2026-02-05 11:14:20
IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
论文链接 Demo 链接
赞
评论
浏览
79
语音
元语音
[浏览需要 0 积分] 发布于2026-01-30 16:24:37
Qwen3-ASR Technical Report
论文链接 代码链接 模型链接 SFT 链接 博客链接
赞
2
评论
浏览
130
语音
元语音
[浏览需要 0 积分] 发布于2026-01-26 20:55:50
VIBEVOICE-ASR Technical Report
论文链接 代码链接
赞
评论
浏览
90
语音
元语音
[浏览需要 0 积分] 发布于2026-01-26 11:09:51
《DeltaNet的核心逆矩阵的元素总是在[-1, 1]内》
https://kexue.fm/archives/11563
赞
评论
浏览
113
语音
元语音
[浏览需要 0 积分] 发布于2026-01-26 10:42:57
SimulS2S-LLM
论文链接
赞
评论
浏览
88
语音
元语音
[浏览需要 0 积分] 发布于2026-01-23 17:00:55
Qwen3-TTS Technical Report
论文链接 代码链接 Demo 链接 模型链接
赞
评论
浏览
117
语音
元语音
[浏览需要 0 积分] 发布于2026-01-20 20:54:26
《为什么我们偏爱各向同性?基于最速下降的理解》
https://kexue.fm/archives/11549 这篇文章我们讨论了一个问题:参数层面上的最速下降,何时才刚好是特征层面上的最速下降?答案正是标题所述的“各向同性”,由此我们得出为什么偏爱各向同性的一个解释——它能同步两个层面上的最速下降,提...
赞
评论
浏览
127
语音
元语音
[浏览需要 0 积分] 发布于2026-01-20 20:53:55
《让炼丹更科学一些(六):自上而下的精妙构造》
https://kexue.fm/archives/11540 上文末我们提到终点损失的最优学习率策略的证明困难问题,而在这篇文章中,我们通过自上而下的、小心谨慎的放缩和构造,完成了这个证明,并得到了更高精度的结果,同时讨论了这个结果对学习率的“Warmu...
赞
评论
浏览
101
语音
元语音
[浏览需要 0 积分] 发布于2026-01-20 15:34:22
【IndexTTS 2】
论文链接 代码链接 Demo 链接
赞
评论
浏览
118
语音
元语音
[浏览需要 0 积分] 发布于2026-01-15 14:48:57
MOE结构讲解不错的文章
文章链接
赞
评论
浏览
91
语音
元语音
[浏览需要 0 积分] 发布于2026-01-14 17:30:47
IndexTTS 2.5 Technical Report
论文链接 Demo 链接
赞
评论
浏览
100
语音
元语音
[浏览需要 0 积分] 发布于2026-01-13 16:34:46
FLOW2GAN: HYBRID FLOW MATCHING AND GAN WITH MULTI-RESOLUTION NETWORK FOR FEW-STEP HIGH-FIDELITY AUDIO GENERATION
论文链接 代码链接
赞
评论
浏览
136
语音
元语音
[浏览需要 0 积分] 发布于2026-01-12 15:00:26
【ASR+WFST的第二春】IKFST: IOO and KOO Algorithms for Accelerated and Precise WFST-based End-to-End Automatic Speech Recognition
论文链接
赞
1
评论
浏览
272
语音
元语音
[浏览需要 0 积分] 发布于2026-01-12 11:44:34
向量量化-RVQ/FSQ实现代码
代码链接
赞
评论
浏览
118
语音
查看更多