元语音研究网

元语音

[浏览需要 0 积分] 发布于16天前

BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
论文链接

赞

评论

浏览 35

语音
元语音

[浏览需要 0 积分] 发布于26天前

Improving Large-Scale Weakly Supervised ASR by Filtering and Selection
论文链接

赞

评论

浏览 63

语音
元语音

[浏览需要 0 积分] 发布于26天前

Phoneme-First Prediction for LLM-Based Speech Recognition
论文链接

赞

评论

浏览 84

语音
元语音

[浏览需要 0 积分] 发布于2026-06-23 16:41:43

ZipVoice: Fast and High-Quality Zero-Shot Text-to-Speech with Flow Matching
论文链接训练代码推理代码 Sherpa-onnx 部署

赞

评论

浏览 86

语音
元语音

[浏览需要 0 积分] 发布于2026-06-15 21:17:32

VOCOS: CLOSING THE GAP BETWEEN TIME-DOMAIN AND FOURIER-BASED NEURAL VOCODERS FOR HIGHQUALITY AUDIO SYNTHESIS
论文链接模型链接

赞

评论

浏览 113

语音
元语音

[浏览需要 0 积分] 发布于2026-06-11 13:46:59

Align Your Flow: Scaling Continuous-Time Flow Map Distillation
论文链接

赞

评论

浏览 86

语音
元语音

[浏览需要 0 积分] 发布于2026-06-11 13:43:38

MOSS-TTS-v1.5
论文链接模型链接代码链接

赞

评论

浏览 91

语音
元语音

[浏览需要 0 积分] 发布于2026-06-09 15:52:58

FSMN-VAD SFT微调代码
代码链接 Finetune 代码

赞

评论

浏览 108

语音
元语音

[浏览需要 0 积分] 发布于2026-06-09 11:02:13

AISHELL recipe for SenseVoice-small training
代码链接

赞

评论

浏览 104

语音
元语音

[浏览需要 0 积分] 发布于2026-06-08 16:02:26

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization
论文链接代码链接

赞

评论

浏览 105

语音
元语音

[浏览需要 0 积分] 发布于2024-03-23 10:30:14

优秀博士论文推荐—李乃寒—面向语音合成的深度学习算法研究与应用
语音合成(speech synthesis，又名 text-to-speech,TTS)是人机交互的重要方法之一，旨在合成清晰且自然的音频。语音合成的应用场景非常广泛，比如手机和个人电脑的语音助手、同声传译的语音输出环节、车载导航播报、新闻朗读等等。通过语...

赞 2

评论 2

浏览 1369

语音
元语音

[浏览需要 0 积分] 发布于2026-05-27 14:29:48

Zapformer preview
代码链接

赞 1

评论

浏览 251

语音
元语音

[浏览需要 0 积分] 发布于2026-05-26 10:16:57

KIMI2.6 Blog
HF 链接博客链接

赞

评论

浏览 118

语音
元语音

[浏览需要 0 积分] 发布于2026-05-25 20:23:31

LLMs and Speech: Integration vs. Combination
论文链接

赞

评论

浏览 108

语音
元语音

[浏览需要 0 积分] 发布于2026-05-25 10:32:21

DAPO: An Open-Source LLM Reinforcement Learning System at Scale
论文链接讲解链接

赞

评论

浏览 131

语音
元语音

[浏览需要 0 积分] 发布于2026-05-25 10:10:35

FULL-DUPLEX-BENCH V1.5: EVALUATING OVERLAP HANDLING FOR FULL-DUPLEX SPEECH MODELS
论文链接

赞

评论

浏览 214

语音
元语音

[浏览需要 0 积分] 发布于2026-05-21 14:12:55

Qwen3.5-Omni Technical Report
论文链接

赞

评论

浏览 158

语音
元语音

[浏览需要 0 积分] 发布于2026-04-28 13:47:50

KIMI K2.5: VISUAL AGENTIC INTELLIGENCE
论文链接 HF 链接

赞

评论

浏览 171

语音
元语音

[浏览需要 0 积分] 发布于2026-04-23 15:18:21

Group Sequence Policy Optimization
论文链接代码链接

赞

评论

浏览 169

语音
元语音

[浏览需要 0 积分] 发布于2026-04-20 14:34:51

【Code】WFST Decoder with Kaldi
代码链接

赞 1

评论

浏览 139

语音

元语音
351 帖子 • 51 评论

2599
Speech
166 帖子 • 24 评论

1292
AI柠檬
14 帖子 • 16 评论

527
江南一点红
1 帖子 • 1 评论

46
懵
懵懵懂懂的新手
1 帖子 • 17 评论

39
M
Mephisto
0 帖子 • 4 评论

28
後藤ひとり
0 帖子 • 0 评论

23
心行
2 帖子 • 0 评论

20
出东巷
0 帖子 • 0 评论

15
betciso
0 帖子 • 1 评论

12