wang
[浏览需要 0 积分] 发布于

第一个开源的具有实时对话能力的多模态模型:Mini-Omni

mini-omni 是清华大学启元实验室的开源项目,具有听,说,独立思考能力,在实时语音交互上面可以媲美 gpt-4o
github
论文
功能特点
1.实时语音对话功能,无需额外的 ASR 或 TTS 模型。
2. 边思考边对话,支持同时生成文本和音频。
3.支持流式音频输出。
4.提供“音频转文本”和“音频转音频”的批量推理,进一步提升性能。

浏览 (914)
点赞 (4)
收藏
评论