元语音研究网
首页推荐关注语音文本图像大模型
    登录
    首页
    话题
    首页
    推荐
    关注
    语音
    文本
    图像
    大模型
    消息
    登录
    最新
    推荐
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于7天前

      Qwen3-ASR Technical Report

      论文链接 代码链接 模型链接 SFT 链接 博客链接
      赞 1
      评论
      浏览 32
      语音
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于25天前

      【ASR+WFST的第二春】IKFST: IOO and KOO Algorithms for Accelerated and Precise WFST-based End-to-End Automatic Speech Recognition

      论文链接
      赞 1
      评论
      浏览 205
      语音
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2026-01-05 16:48:08

      SLAM-Omni

      论文链接 代码链接 数据链接 Demo 链接
      赞 1
      评论
      浏览 66
      大模型&多模态
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2026-01-04 10:16:37

      ORPO

      论文链接 这篇论文的分析非常好,唯一的缺点是:为什么一定要增大 chosen / rejected 之间的比值,这里未必正确。 整体而言,KAIST 出的论文一如既往的好,论文分析的非常好,比值比,概率比。分析 nice。
      赞 1
      评论
      浏览 59
      语音
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2022-03-06 21:41:54

      清华大学 - 语音识别基本法

      下载链接
      赞 6
      评论 45
      浏览 2918
      开源分享
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-03-07 17:36:31

      【CP-力作鼎推】OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models

      论文链接 Neural scaling laws offer valuable insights for designing robust sequence processing architectures. While these laws have b...
      赞 2
      评论 1
      浏览 745
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-02-21 13:27:08

      【TR】OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia

      论文链接 代码链接 Large Language Models (LLMs) have made significant progress in various downstream tasks, inspiring the development of ...
      赞 3
      评论
      浏览 746
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-01-22 11:34:56

      【访谈】小米语音首席科学家 Daniel Povey:语音识别卷完了,下一个机会在哪里?| 智者访谈

      Povey 观点链接
      赞 2
      评论
      浏览 884
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-01-08 13:31:47

      【CP】Breaking Through the Spike: Spike Window Decoding for Accelerated and Precise Automatic Speech Recognition

      论文链接
      赞 3
      评论 1
      浏览 1036
      语音
    • J
      J JJ
      [浏览需要 0 积分] 发布于2024-10-18 18:13:45

      speech2speech

      引言 在当今科技飞速发展的时代,语音机器人正逐渐成为人们生活和工作中的得力助手。语音机器人是一种利用人工智能技术,通过语音识别和语音合成等功能与人类进行交互的智能设备。 它具有诸多显著优势。首先,高度的便捷性是其一大特点。无论你是在忙碌的工作中双手被占用,...
      赞 3
      评论
      浏览 2736
      前沿动态
    • AI柠檬
      AI柠檬 AI柠檬
      [浏览需要 0 积分] 发布于2024-10-15 00:21:49

      【持续更新】AI柠檬博客智能语音技术系列文章集整理

      1. 智能语音技术教学干货 Python 复现谷歌 SpecAugment 数据增强算法 还是不会 VAD?带你看懂语音激活检测方法原理 语音声学特征提取:MFCC 和 LogFBank 算法的原理 语音声学特征提取:用于 ASRT 的语谱图特征的算法原...
      赞 5
      评论
      浏览 1310
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2024-09-24 17:15:06

      【Conference Paper】Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models

      论文链接
      赞 2
      评论
      浏览 1497
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2024-09-13 17:10:45

      【Conference Paper】EFFUSE: Efficient Self-Supervised Feature Fusion for E2E ASR in Low Resource and Multilingual Scenarios

      Interspeech 2024 Best Paper Award 论文链接
      赞 2
      评论
      浏览 1309
      语音
    • J
      J JJ
      [浏览需要 0 积分] 发布于2024-09-05 17:10:32

      最强MoE完全开源

      OLMoE 论文:OLMoE: Open Mixture-of-Experts Language Models 地址:https://arxiv.org/pdf/2409.02060 权重:https://hf.co/allenai/OLMoE-1B-7B...
      赞 2
      评论
      浏览 1329
      语音
    • wang
      wang wang
      [浏览需要 0 积分] 发布于2024-09-05 10:34:32

      第一个开源的具有实时对话能力的多模态模型:Mini-Omni

      mini-omni 是清华大学启元实验室的开源项目,具有听,说,独立思考能力,在实时语音交互上面可以媲美 gpt-4o github 论文 功能特点 1.实时语音对话功能,无需额外的 ASR 或 TTS 模型。 2. 边思考边对话,支持同时生成文本和音频。...
      赞 4
      评论
      浏览 1259
      开源分享
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2024-03-02 19:55:43

      语音实验室推荐—西工大—谢磊老师

      实验室链接见隐藏内容
      赞 3
      评论 2
      浏览 1243
      前沿动态
    • L
      L Lil2J
      [浏览需要 0 积分] 发布于2024-03-02 21:45:37

      从0开始预训练1.4b中文大模型实践

      简介 这篇文章主要记录了我个人对 1.4b 中文大模型的实践复现过程。我选择了 QWEN 作为基座模型,并训练了一个参数量达到 1.4b 的预训练模型,其中涉及的训练 token 数量约为 8b。在此过程中,我使用了两张 a100 80g 显卡,并耗费了大...
      赞 3
      评论
      浏览 2084
      默认分类
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2024-01-27 11:50:37

      语音优秀博士论文推荐—基于自注意力机制的流式端到端语音识别方法研究—田正坤

      本文面向流式语音识别这一核心需求,以代表性的流式端到端转写器模型(Transducer-Based Models)为基础,围绕“下文声学信息丢失与序列建模能力不足导致模型识别效果差”,“逐帧解码策略效率低下严重影响了模型的推理速度”,“流式与非流式语音识别...
      赞 2
      评论 3
      浏览 1556
      语音
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2024-02-03 12:35:46

      优秀会议论文推荐—Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages

      论文链接
      赞 1
      评论
      浏览 1274
      前沿动态
    • 元语音
      元语音 元语音
      [浏览需要 0 积分] 发布于2024-02-03 12:32:41

      优秀会议论文推荐—Scaling Speech Technology to 1,000+ Languages

      论文链接
      赞 1
      评论
      浏览 1154
      前沿动态
    签到
    0
    立即签到
    公告

    元语音研究网站板块设计:【CP】Conference Paper,【JP】Journal Paper,【TR】Technique Report,【优秀导师】,【优秀研究员】,【优秀博士生】

    积分排行
    • 元语音
      元语音

      322 帖子 • 51 评论

      2211
    • Speech
      Speech

      166 帖子 • 24 评论

      1292
    • AI柠檬
      AI柠檬

      14 帖子 • 16 评论

      519
    • 江南一点红
      江南一点红

      1 帖子 • 1 评论

      46
    • 懵
      懵懵懂懂的新手

      1 帖子 • 17 评论

      39
    • M
      Mephisto

      0 帖子 • 4 评论

      28
    • 後藤ひとり
      後藤ひとり

      0 帖子 • 0 评论

      23
    • 心行
      心行

      2 帖子 • 0 评论

      20
    • 出东巷
      出东巷

      0 帖子 • 0 评论

      15
    • betciso
      betciso

      0 帖子 • 1 评论

      12
    关于 标签 友链
    © 2024 元语音研究网   由 AI柠檬 提供技术支持
    沪ICP备2022004527号-2