元语音研究网
首页推荐关注语音文本图像大模型
    登录
    首页
    话题
    首页
    推荐
    关注
    语音
    文本
    图像
    大模型
    消息
    登录
    最新
    推荐
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2025-05-17 10:29:35

      MMAR

      🔊💬🎵 我们正式推出 MMAR——首个面向音频-语言模型的深度推理评测基准!1000 道高难度音频-问答对,覆盖声音、音乐、语音及其混合场景,挑战模型的多层次认知能力! ✨ 核心亮点
✅ 四层推理任务:从信号(Signal)感知(Perception)到语...
      赞 2
      评论
      浏览 55
      语音
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2025-03-20 14:03:55

      开源儿童数据,南开大学

      大家好,我们开源了一个 3-5 岁的儿童语音数据集,包括 397 名儿童的 41.25h 的语音,说话人覆盖了 22 个省市,目前已经在 huggingface 上开放下载了,论文链接:https://arxiv.org/abs/2409.18584
      赞 2
      评论
      浏览 174
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-03-07 17:36:31

      【CP-力作鼎推】OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models

      论文链接 Neural scaling laws offer valuable insights for designing robust sequence processing architectures. While these laws have b...
      赞 2
      评论 1
      浏览 317
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-03-06 14:10:10

      【CP】Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets

      论文链接 代码链接
      赞 2
      评论 1
      浏览 292
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-03-05 16:10:22

      【CP】Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model

      论文链接
      赞 2
      评论
      浏览 322
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-03-04 14:34:20

      【优秀博士生】Jinchuan Tian—CMU

      学术链接 Git 链接
      赞 2
      评论
      浏览 291
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-02-27 10:19:11

      【JP】High fidelity zero shot speaker adaptation in text to speech synthesis with denoising diffusion GAN

      论文链接
      赞 2
      评论
      浏览 335
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-02-21 17:50:45

      【资源】AudioLLM / SpeechLLM方向论文、代码、数据汇总GIT

      论文链接
      赞 2
      评论
      浏览 425
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-02-21 17:11:48

      【JP】A speech recognition method with enhanced transformer decoder

      论文链接
      赞 2
      评论
      浏览 384
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-02-21 13:27:08

      【TR】OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia

      论文链接 代码链接 Large Language Models (LLMs) have made significant progress in various downstream tasks, inspiring the development of ...
      赞 3
      评论
      浏览 457
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-02-17 14:29:24

      【CP】End-to-End Speech Recognition with Pre-trained Masked Language Model

      论文链接 We present a novel approach to end-to-end automatic speech recognition (ASR) that utilizes pre-trained masked language mode...
      赞 2
      评论 1
      浏览 477
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-02-11 11:27:05

      【CP】RFWAVE: MULTI-BAND RECTIFIED FLOW FOR AUDIO WAVEFORM RECONSTRUCTION

      论文链接 代码链接
      赞 2
      评论
      浏览 399
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-02-07 19:17:38

      【Code】k2 官方提供AudioLLM配方,复现Qwen-Audio

      代码链接
      赞 3
      评论
      浏览 468
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-02-07 17:23:54

      【CP】ADVANCING MULTI-TALKER ASR PERFORMANCE WITH LARGE LANGUAGE MODELS

      论文链接 模型结构 训练策略
      赞 2
      评论
      浏览 451
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-02-07 11:27:40

      【CP】Speech Data Selection for Efficient ASR Fine-Tuning using Domain Classifier and Pseudo-Label Filtering

      论文链接
      赞 2
      评论
      浏览 521
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-02-06 19:15:14

      【CP】Optimized Self-supervised Training with BEST-RQ for Speech Recognition

      论文链接
      赞 2
      评论
      浏览 466
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-02-05 11:33:08

      【TR】FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration

      论文链接
      赞 2
      评论
      浏览 461
      语音
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2025-01-27 22:38:08

      我们开源了FireRedASR,包括技术报告、模型、推理代码

      我们开源了 FireRedASR,包括技术报告、模型、推理代码 高准确率:在中文普通话公开测试集上,FireRedASR 字错误率(CER) 3.05%,比此前 SOTA Seed-ASR 的 3.33% 相对降低 8.4% 高实用性:在多种实际中文普通话...
      赞 2
      评论
      浏览 909
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-01-23 11:35:37

      【CP】TTS-Transducer: End-to-End Speech Synthesis with Neural Transducer

      论文链接 官网链接
      赞 2
      评论
      浏览 592
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-01-22 14:53:18

      【CP】E2 TTS: EMBARRASSINGLY EASY FULLY NON-AUTOREGRESSIVE ZERO-SHOT TTS

      论文链接 LJ Speech 数据链接 am 代码链接 1 am 代码链接 2 vocoder 代码链接 网站链接
      赞 2
      评论
      浏览 736
      语音
    签到
    0
    立即签到
    公告

    元语音研究网站板块设计:【CP】Conference Paper,【JP】Journal Paper,【TR】Technique Report,【优秀导师】,【优秀研究员】,【优秀博士生】

    积分排行
    • METASPEECH
      METASPEECH

      269 帖子 • 51 评论

      1646
    • Speech
      Speech

      166 帖子 • 24 评论

      1292
    • AI柠檬
      AI柠檬

      14 帖子 • 16 评论

      509
    • 江南一点红
      江南一点红

      1 帖子 • 1 评论

      46
    • 懵
      懵懵懂懂的新手

      1 帖子 • 17 评论

      39
    • M
      Mephisto

      0 帖子 • 4 评论

      28
    • 後藤ひとり
      後藤ひとり

      0 帖子 • 0 评论

      23
    • 心行
      心行

      2 帖子 • 0 评论

      20
    • 出东巷
      出东巷

      0 帖子 • 0 评论

      15
    • betciso
      betciso

      0 帖子 • 1 评论

      12
    关于 标签 友链
    © 2024 元语音研究网   由 AI柠檬 提供技术支持
    沪ICP备2022004527号-2