大模型 - 话题 | 元语音研究网

元语音

[浏览需要 0 积分] 发布于2024-03-19 11:00:43

优秀会议论文推荐—Robust Speech Recognition via Large-Scale Weak Supervision
论文链接见隐藏内容

赞 3

评论 1

浏览 981

前沿动态
元语音

[浏览需要 0 积分] 发布于2024-02-03 12:32:41

优秀会议论文推荐—Scaling Speech Technology to 1,000+ Languages
论文链接

赞 1

评论

浏览 1255

前沿动态
元语音

[浏览需要 0 积分] 发布于2024-02-03 12:35:46

优秀会议论文推荐—Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
论文链接

赞 1

评论

浏览 1382

前沿动态
元语音

[浏览需要 0 积分] 发布于2024-03-06 10:20:49

优秀会议论文推荐—OWSM v3. 1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer
论文链接见隐藏内容

赞 1

评论

浏览 940

前沿动态
元语音

[浏览需要 0 积分] 发布于2024-04-21 19:21:04

优秀会议论文推荐—Scaling Speech Technology to 1,000+ Languages
论文链接

赞 1

评论

浏览 810

语音
元语音

[浏览需要 0 积分] 发布于2024-05-26 19:36:52

平安科技—音频大模型实验室
官网

赞 1

评论

浏览 1435

前沿动态
元语音

[浏览需要 0 积分] 发布于2024-05-26 20:12:56

KIMI
https://kimi.moonshot.cn/

赞 1

评论

浏览 1124

大模型&多模态
wang

[浏览需要 0 积分] 发布于2024-09-05 10:34:32

第一个开源的具有实时对话能力的多模态模型：Mini-Omni
mini-omni 是清华大学启元实验室的开源项目，具有听，说，独立思考能力，在实时语音交互上面可以媲美 gpt-4o github 论文功能特点 1.实时语音对话功能，无需额外的 ASR 或 TTS 模型。 2. 边思考边对话，支持同时生成文本和音频。...

赞 4

评论

浏览 1408

开源分享
AI柠檬

[浏览需要 0 积分] 发布于2025-03-28 23:33:26

【前沿观察】最新研究：DeepSeek-R1 的性能、安全性和可解释性
随着 DeepSeek-R1 的推出，其在多个领域的卓越表现引起了广泛关注。然而，除了性能，安全性、计算效率和可解释性也成为研究者们关注的重点。以下是对几篇近期发表的 arXiv 论文中关于 DeepSeek-R1 的研究综述。 1. 温度设置与架构对生成...

赞 2

评论

浏览 879

前沿动态
元语音

[浏览需要 0 积分] 发布于2026-01-26 10:42:57

SimulS2S-LLM
论文链接

赞

评论

浏览 161

语音
元语音

[浏览需要 0 积分] 发布于2026-01-26 20:55:50

VIBEVOICE-ASR Technical Report
论文链接代码链接

赞

评论

浏览 169

语音

元语音
347 帖子 • 51 评论

2534
Speech
166 帖子 • 24 评论

1292
AI柠檬
14 帖子 • 16 评论

526
江南一点红
1 帖子 • 1 评论

46
懵
懵懵懂懂的新手
1 帖子 • 17 评论

39
M
Mephisto
0 帖子 • 4 评论

28
後藤ひとり
0 帖子 • 0 评论

23
心行
2 帖子 • 0 评论

20
出东巷
0 帖子 • 0 评论

15
betciso
0 帖子 • 1 评论

12