1条评论
Speech
Speech
Moshi对于全双工的设计,目前是笔者看过比较不错的思想。 1)Mimi训练思想兼具音频生成与语义信息保留; 2)Helium自定义LLM模型的构建; 3)音频解码中RQ-Transformer的加速策略; 4)Inner Monologue是符合全双工设计的思想,针对场景需求的不同可以设计为交互式; 难得的好的作品!
点赞
评论