多模态 - 话题 | 元语音研究网

Speech

[浏览需要 0 积分] 发布于2024-12-12 16:51:49

【CP】Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning
论文链接

赞 2

评论 1

浏览 973

语音
元语音

[浏览需要 0 积分] 发布于2024-04-21 19:21:04

优秀会议论文推荐—Scaling Speech Technology to 1,000+ Languages
论文链接

赞 1

评论

浏览 808

语音
元语音

[浏览需要 0 积分] 发布于2024-06-26 10:48:24

SpeechLLM
官网链接代码链接

赞 1

评论

浏览 1070

大模型&多模态
Speech

[浏览需要 0 积分] 发布于2024-07-23 20:15:14

【Conference Paper】MaLa-ASR: Multimedia-Assisted LLM-Based ASR
论文链接代码链接

赞 2

评论

浏览 975

语音
wang

[浏览需要 0 积分] 发布于2024-09-05 10:34:32

第一个开源的具有实时对话能力的多模态模型：Mini-Omni
mini-omni 是清华大学启元实验室的开源项目，具有听，说，独立思考能力，在实时语音交互上面可以媲美 gpt-4o github 论文功能特点 1.实时语音对话功能，无需额外的 ASR 或 TTS 模型。 2. 边思考边对话，支持同时生成文本和音频。...

赞 4

评论

浏览 1407

开源分享
Speech

[浏览需要 0 积分] 发布于2024-10-15 19:27:38

【Conference Paper】CoT-ST: Enhancing LLM-based Speech Translation with Multimodal Chain-of-Thought
论文链接代码链接

赞 2

评论

浏览 1084

语音
Speech

[浏览需要 0 积分] 发布于2024-11-29 17:19:30

【Technique Report】OCEAN-OMNI: TO UNDERSTAND THE WORLD WITH OMNI-MODALITY
论文链接代码链接

赞 3

评论

浏览 884

语音
Speech

[浏览需要 0 积分] 发布于2024-12-02 19:09:01

【Technique Report】Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities
论文链接代码链接

赞 2

评论

浏览 823

语音
Speech

[浏览需要 0 积分] 发布于2024-12-03 19:25:29

【Technique Report】Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
论文链接代码链接

赞 2

评论

浏览 765

语音
Speech

[浏览需要 0 积分] 发布于2024-12-11 15:08:49

【CP】SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
论文链接

赞 2

评论

浏览 807

语音
元语音

[浏览需要 0 积分] 发布于2026-01-05 16:48:08

SLAM-Omni
论文链接代码链接数据链接 Demo 链接

赞 1

评论

浏览 186

大模型&多模态

元语音
347 帖子 • 51 评论

2534
Speech
166 帖子 • 24 评论

1292
AI柠檬
14 帖子 • 16 评论

526
江南一点红
1 帖子 • 1 评论

46
懵
懵懵懂懂的新手
1 帖子 • 17 评论

39
M
Mephisto
0 帖子 • 4 评论

28
後藤ひとり
0 帖子 • 0 评论

23
心行
2 帖子 • 0 评论

20
出东巷
0 帖子 • 0 评论

15
betciso
0 帖子 • 1 评论

12