元语音研究网
首页推荐关注语音文本图像大模型
    登录
    首页
    话题
    首页
    推荐
    关注
    语音
    文本
    图像
    大模型
    消息
    登录
    最新
    推荐
    默认分类
    前沿动态
    开源分享
    技术干货
    交流讨论
    语音
    文本
    图像
    大模型&多模态
    站务公告
    • S
      S Speech
      [浏览需要 0 积分] 发布于2024-12-12 08:51:49

      【CP】Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning

      论文链接
      赞 2
      评论 1
      浏览 518
      语音
    • M
      M METASPEECH
      [浏览需要 0 积分] 发布于2024-04-21 11:21:04

      优秀会议论文推荐—Scaling Speech Technology to 1,000+ Languages

      论文链接
      赞 1
      评论
      浏览 499
      语音
    • M
      M METASPEECH
      [浏览需要 0 积分] 发布于2024-06-26 02:48:24

      SpeechLLM

      官网链接 代码链接
      赞 1
      评论
      浏览 661
      大模型&多模态
    • S
      S Speech
      [浏览需要 0 积分] 发布于2024-07-23 12:15:14

      【Conference Paper】MaLa-ASR: Multimedia-Assisted LLM-Based ASR

      论文链接 代码链接
      赞 2
      评论
      浏览 511
      语音
    • W
      W wang
      [浏览需要 0 积分] 发布于2024-09-05 02:34:32

      第一个开源的具有实时对话能力的多模态模型:Mini-Omni

      mini-omni 是清华大学启元实验室的开源项目,具有听,说,独立思考能力,在实时语音交互上面可以媲美 gpt-4o github 论文 功能特点 1.实时语音对话功能,无需额外的 ASR 或 TTS 模型。 2. 边思考边对话,支持同时生成文本和音频。...
      赞 4
      评论
      浏览 929
      开源分享
    • S
      S Speech
      [浏览需要 0 积分] 发布于2024-10-15 11:27:38

      【Conference Paper】CoT-ST: Enhancing LLM-based Speech Translation with Multimodal Chain-of-Thought

      论文链接 代码链接
      赞 2
      评论
      浏览 676
      语音
    • S
      S Speech
      [浏览需要 0 积分] 发布于2024-11-29 09:19:30

      【Technique Report】OCEAN-OMNI: TO UNDERSTAND THE WORLD WITH OMNI-MODALITY

      论文链接 代码链接
      赞 3
      评论
      浏览 504
      语音
    • S
      S Speech
      [浏览需要 0 积分] 发布于2024-12-02 11:09:01

      【Technique Report】Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

      论文链接 代码链接
      赞 2
      评论
      浏览 444
      语音
    • S
      S Speech
      [浏览需要 0 积分] 发布于2024-12-03 11:25:29

      【Technique Report】Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

      论文链接 代码链接
      赞 2
      评论
      浏览 349
      语音
    • S
      S Speech
      [浏览需要 0 积分] 发布于2024-12-11 07:08:49

      【CP】SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

      论文链接
      赞 2
      评论
      浏览 396
      语音
    签到
    0
    立即签到
    公告

    元语音研究网站板块设计:【CP】Conference Paper,【JP】Journal Paper,【TR】Technique Report,【优秀导师】,【优秀研究员】,【优秀博士生】

    积分排行
    • M
      METASPEECH

      265 帖子 • 51 评论

      1606
    • S
      Speech

      166 帖子 • 24 评论

      1292
    • A
      AI柠檬

      14 帖子 • 16 评论

      509
    • 江
      江南一点红

      1 帖子 • 1 评论

      46
    • 懵
      懵懵懂懂的新手

      1 帖子 • 17 评论

      39
    • M
      Mephisto

      0 帖子 • 4 评论

      28
    • 後
      後藤ひとり

      0 帖子 • 0 评论

      23
    • 心
      心行

      2 帖子 • 0 评论

      20
    • 出
      出东巷

      0 帖子 • 0 评论

      15
    • B
      betciso

      0 帖子 • 1 评论

      12
    关于 标签 友链
    © 2024 元语音研究网   由 AI柠檬 提供技术支持
    沪ICP备2022004527号-2