[浏览需要 0 积分] 发布于 2024-09-05 10:34:32

第一个开源的具有实时对话能力的多模态模型：Mini-Omni

mini-omni 是清华大学启元实验室的开源项目，具有听，说，独立思考能力，在实时语音交互上面可以媲美 gpt-4o
github
论文
功能特点
1.实时语音对话功能，无需额外的 ASR 或 TTS 模型。
2. 边思考边对话，支持同时生成文本和音频。
3.支持流式音频输出。
4.提供“音频转文本”和“音频转音频”的批量推理，进一步提升性能。

开源分享 #语音 #多模态 #大模型

浏览 (1406)