[浏览需要 0 积分] 发布于 2024-11-08 10:48:20

【Technique Report】Moshi: a speech-text foundation model for real-time dialogue

论文链接

语音 #语音 #Moshi #AudioLLM

浏览 (923)

1条评论

Speech 2024-11-08 10:51:33

Moshi对于全双工的设计，目前是笔者看过比较不错的思想。 1）Mimi训练思想兼具音频生成与语义信息保留； 2）Helium自定义LLM模型的构建； 3）音频解码中RQ-Transformer的加速策略； 4）Inner Monologue是符合全双工设计的思想，针对场景需求的不同可以设计为交互式；难得的好的作品！

Speech

语音基础理论、应用

积分
1292
话题
166
评论
24
注册排名
1