wang [浏览需要 0 积分] 发布于 2024-09-05 10:34:32 第一个开源的具有实时对话能力的多模态模型:Mini-Omni mini-omni 是清华大学启元实验室的开源项目,具有听,说,独立思考能力,在实时语音交互上面可以媲美 gpt-4o github 论文 功能特点 1.实时语音对话功能,无需额外的 ASR 或 TTS 模型。 2. 边思考边对话,支持同时生成文本和音频。 3.支持流式音频输出。 4.提供“音频转文本”和“音频转音频”的批量推理,进一步提升性能。 开源分享 #语音#多模态#大模型 4 浏览 (914) 点赞 (4) 收藏