首页
推荐
关注
语音
文本
图像
大模型
发帖
登录
首页
话题
发帖
首页
推荐
关注
语音
文本
图像
大模型
消息
登录
最新
推荐
元语音
shylockasr@qq.com
关注
个人成就
积分
2352
话题
332
评论
51
注册排名
3
个人资料
编辑资料
昵称
元语音
签名
shylockasr@qq.com
主页
https://www.meta-speech.com/user/3
粉丝
17
更多
没有更多内容了
粉丝
关注
4
更多
没有更多内容了
关注
话题
文章
元语音
[浏览需要 0 积分] 发布于1天前
【Code】WFST Decoder with Kaldi
代码链接
赞
评论
浏览
8
语音
元语音
[浏览需要 0 积分] 发布于7天前
OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models
论文链接 代码链接
赞
评论
浏览
28
语音
元语音
[浏览需要 0 积分] 发布于8天前
ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models
论文链接
赞
评论
浏览
37
语音
元语音
[浏览需要 0 积分] 发布于20天前
STEP3-VL-10B Technical Report
论文链接
赞
评论
浏览
54
语音
元语音
[浏览需要 0 积分] 发布于20天前
Empowering Lightweight MLLMs with Reasoning via Long CoT SFT
论文链接
赞
评论
浏览
101
语音
元语音
[浏览需要 0 积分] 发布于2026-03-16 19:55:15
FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System
论文链接 代码链接
赞
评论
浏览
68
语音
元语音
[浏览需要 0 积分] 发布于2026-03-12 21:43:35
DashengTokenizer: One layer is enough for unified audio understanding and generation
论文链接
赞
评论
浏览
59
语音
元语音
[浏览需要 0 积分] 发布于2026-03-02 15:51:36
PAY ATTENTION TO CTC: FAST AND ROBUST PSEUDOLABELLING FOR UNIFIED SPEECH RECOGNITION
论文链接 代码链接
赞
评论
浏览
83
语音
元语音
[浏览需要 0 积分] 发布于2026-02-11 11:20:25
MOSS-TTS 1.0
代码链接 博客链接 模型链接
赞
评论
浏览
110
语音
元语音
[浏览需要 0 积分] 发布于2026-02-09 11:22:11
REDUCING PROMPT SENSITIVITY IN LLM-BASED SPEECH RECOGNITION THROUGH LEARNABLE PROJECTION
论文链接 代码链接
赞
评论
浏览
122
语音
元语音
[浏览需要 0 积分] 发布于2026-02-05 21:04:01
《Adam优化器的最优超参数是β1=β2 ?》
https://kexue.fm/archives/11593 在这篇文章中,我们对 Adam 优化器的 β1,β2 参数做了一些分析,从稳定性角度表明 β1=β2 通常是一个较优的选择,它可以理解为信噪比感知下的最速下降。
赞
评论
浏览
127
语音
元语音
[浏览需要 0 积分] 发布于2026-02-05 11:14:20
IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
论文链接 Demo 链接
赞
评论
浏览
111
语音
元语音
[浏览需要 0 积分] 发布于2026-01-30 16:24:37
Qwen3-ASR Technical Report
论文链接 代码链接 模型链接 SFT 链接 博客链接
赞
2
评论
浏览
176
语音
元语音
[浏览需要 0 积分] 发布于2026-01-26 20:55:50
VIBEVOICE-ASR Technical Report
论文链接 代码链接
赞
评论
浏览
117
语音
元语音
[浏览需要 0 积分] 发布于2026-01-26 11:09:51
《DeltaNet的核心逆矩阵的元素总是在[-1, 1]内》
https://kexue.fm/archives/11563
赞
评论
浏览
148
语音
元语音
[浏览需要 0 积分] 发布于2026-01-26 10:42:57
SimulS2S-LLM
论文链接
赞
评论
浏览
115
语音
元语音
[浏览需要 0 积分] 发布于2026-01-23 17:00:55
Qwen3-TTS Technical Report
论文链接 代码链接 Demo 链接 模型链接
赞
评论
浏览
149
语音
元语音
[浏览需要 0 积分] 发布于2026-01-20 20:54:26
《为什么我们偏爱各向同性?基于最速下降的理解》
https://kexue.fm/archives/11549 这篇文章我们讨论了一个问题:参数层面上的最速下降,何时才刚好是特征层面上的最速下降?答案正是标题所述的“各向同性”,由此我们得出为什么偏爱各向同性的一个解释——它能同步两个层面上的最速下降,提...
赞
评论
浏览
162
语音
元语音
[浏览需要 0 积分] 发布于2026-01-20 20:53:55
《让炼丹更科学一些(六):自上而下的精妙构造》
https://kexue.fm/archives/11540 上文末我们提到终点损失的最优学习率策略的证明困难问题,而在这篇文章中,我们通过自上而下的、小心谨慎的放缩和构造,完成了这个证明,并得到了更高精度的结果,同时讨论了这个结果对学习率的“Warmu...
赞
评论
浏览
135
语音
元语音
[浏览需要 0 积分] 发布于2026-01-20 15:34:22
【IndexTTS 2】
论文链接 代码链接 Demo 链接
赞
评论
浏览
146
语音
查看更多