- [浏览需要 0 积分] 发布于2024-12-12 16:51:49
【CP】Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning
论文链接赞 2评论 1浏览 661 - [浏览需要 0 积分] 发布于2024-04-21 19:21:04赞 1评论浏览 555
- [浏览需要 0 积分] 发布于2024-07-23 20:15:14赞 2评论浏览 672
- [浏览需要 0 积分] 发布于2024-09-05 10:34:32
第一个开源的具有实时对话能力的多模态模型:Mini-Omni
mini-omni 是清华大学启元实验室的开源项目,具有听,说,独立思考能力,在实时语音交互上面可以媲美 gpt-4o github 论文 功能特点 1.实时语音对话功能,无需额外的 ASR 或 TTS 模型。 2. 边思考边对话,支持同时生成文本和音频。...赞 4评论浏览 1058 - [浏览需要 0 积分] 发布于2024-10-15 19:27:38
【Conference Paper】CoT-ST: Enhancing LLM-based Speech Translation with Multimodal Chain-of-Thought
论文链接 代码链接赞 2评论浏览 811 - [浏览需要 0 积分] 发布于2024-11-29 17:19:30赞 3评论浏览 642
- [浏览需要 0 积分] 发布于2024-12-02 19:09:01
【Technique Report】Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities
论文链接 代码链接赞 2评论浏览 571 - [浏览需要 0 积分] 发布于2024-12-03 19:25:29赞 2评论浏览 497
- [浏览需要 0 积分] 发布于2024-12-11 15:08:49赞 2评论浏览 536