元语音研究网
首页推荐关注语音文本图像大模型
    登录
    首页
    话题
    首页
    推荐
    关注
    语音
    文本
    图像
    大模型
    消息
    登录
    最新
    推荐
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2022-03-06 21:41:54

      清华大学 - 语音识别基本法

      下载链接
      赞 6
      评论 37
      浏览 2568
      开源分享
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-03-07 17:36:31

      【CP-力作鼎推】OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models

      论文链接 Neural scaling laws offer valuable insights for designing robust sequence processing architectures. While these laws have b...
      赞 2
      评论 1
      浏览 317
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-02-21 13:27:08

      【TR】OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia

      论文链接 代码链接 Large Language Models (LLMs) have made significant progress in various downstream tasks, inspiring the development of ...
      赞 3
      评论
      浏览 457
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-01-22 11:34:56

      【访谈】小米语音首席科学家 Daniel Povey:语音识别卷完了,下一个机会在哪里?| 智者访谈

      Povey 观点链接
      赞 2
      评论
      浏览 606
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2025-01-08 13:31:47

      【CP】Breaking Through the Spike: Spike Window Decoding for Accelerated and Precise Automatic Speech Recognition

      论文链接
      赞 3
      评论 1
      浏览 817
      语音
    • J
      J JJ
      [浏览需要 0 积分] 发布于2024-10-18 18:13:45

      speech2speech

      引言 在当今科技飞速发展的时代,语音机器人正逐渐成为人们生活和工作中的得力助手。语音机器人是一种利用人工智能技术,通过语音识别和语音合成等功能与人类进行交互的智能设备。 它具有诸多显著优势。首先,高度的便捷性是其一大特点。无论你是在忙碌的工作中双手被占用,...
      赞 3
      评论
      浏览 2125
      前沿动态
    • AI柠檬
      AI柠檬 AI柠檬
      [浏览需要 0 积分] 发布于2024-10-15 00:21:49

      【持续更新】AI柠檬博客智能语音技术系列文章集整理

      1. 智能语音技术教学干货 Python 复现谷歌 SpecAugment 数据增强算法 还是不会 VAD?带你看懂语音激活检测方法原理 语音声学特征提取:MFCC 和 LogFBank 算法的原理 语音声学特征提取:用于 ASRT 的语谱图特征的算法原...
      赞 5
      评论
      浏览 1011
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2024-09-24 17:15:06

      【Conference Paper】Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models

      论文链接
      赞 2
      评论
      浏览 1282
      语音
    • Speech
      Speech Speech
      [浏览需要 0 积分] 发布于2024-09-13 17:10:45

      【Conference Paper】EFFUSE: Efficient Self-Supervised Feature Fusion for E2E ASR in Low Resource and Multilingual Scenarios

      Interspeech 2024 Best Paper Award 论文链接
      赞 2
      评论
      浏览 1123
      语音
    • J
      J JJ
      [浏览需要 0 积分] 发布于2024-09-05 17:10:32

      最强MoE完全开源

      OLMoE 论文:OLMoE: Open Mixture-of-Experts Language Models 地址:https://arxiv.org/pdf/2409.02060 权重:https://hf.co/allenai/OLMoE-1B-7B...
      赞 2
      评论
      浏览 969
      语音
    • wang
      wang wang
      [浏览需要 0 积分] 发布于2024-09-05 10:34:32

      第一个开源的具有实时对话能力的多模态模型:Mini-Omni

      mini-omni 是清华大学启元实验室的开源项目,具有听,说,独立思考能力,在实时语音交互上面可以媲美 gpt-4o github 论文 功能特点 1.实时语音对话功能,无需额外的 ASR 或 TTS 模型。 2. 边思考边对话,支持同时生成文本和音频。...
      赞 4
      评论
      浏览 1007
      开源分享
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-03-02 19:55:43

      语音实验室推荐—西工大—谢磊老师

      实验室链接见隐藏内容
      赞 3
      评论 2
      浏览 993
      前沿动态
    • L
      L Lil2J
      [浏览需要 0 积分] 发布于2024-03-02 21:45:37

      从0开始预训练1.4b中文大模型实践

      简介 这篇文章主要记录了我个人对 1.4b 中文大模型的实践复现过程。我选择了 QWEN 作为基座模型,并训练了一个参数量达到 1.4b 的预训练模型,其中涉及的训练 token 数量约为 8b。在此过程中,我使用了两张 a100 80g 显卡,并耗费了大...
      赞 3
      评论
      浏览 1717
      默认分类
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-01-27 11:50:37

      语音优秀博士论文推荐—基于自注意力机制的流式端到端语音识别方法研究—田正坤

      本文面向流式语音识别这一核心需求,以代表性的流式端到端转写器模型(Transducer-Based Models)为基础,围绕“下文声学信息丢失与序列建模能力不足导致模型识别效果差”,“逐帧解码策略效率低下严重影响了模型的推理速度”,“流式与非流式语音识别...
      赞 2
      评论 3
      浏览 1230
      语音
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-02-03 12:35:46

      优秀会议论文推荐—Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages

      论文链接
      赞 1
      评论
      浏览 1033
      前沿动态
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-02-03 12:32:41

      优秀会议论文推荐—Scaling Speech Technology to 1,000+ Languages

      论文链接
      赞 1
      评论
      浏览 905
      前沿动态
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2024-02-03 12:27:49

      优秀会议论文推荐—Robust Speech Recognition via Large-Scale Weak Supervision

      论文链接
      赞 1
      评论
      浏览 1078
      前沿动态
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2023-05-27 14:35:52

      CTC尖峰前移方法—BRCTC—Tencent AI Lab

      Vanilla CTC 对齐存在尖峰漂移现象,这使得无法比较准确获取 CTC 对齐结果,上采样后漂移误差更大,如何缓解该问题。 最近,Tencent AI Lab 在 ICLR 2023 提出了 Bayes Risk CTC 通过对候选路径 risk fa...
      赞 3
      评论 8
      浏览 1467
      前沿动态
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2022-05-14 12:19:57

      WFST算法分享-06-厦门大学洪老师

      论文优势: (1)WFST 基础理论介绍 (2)基于 WFST 的 Token Passing 算法流程介绍 (3)解码与剪枝 (4)其他介绍 PPT 下载链接:
      赞 1
      评论 2
      浏览 1825
      技术干货
    • METASPEECH
      METASPEECH METASPEECH
      [浏览需要 0 积分] 发布于2022-05-13 21:35:58

      WFST算法分享-03-周世玉

      本篇优势: (1)WFST 基本理论介绍与阐述; (2)WFST 基本算子理论阐述、伪代码及推导; (3)WFST 基本应用 (4)其他 PPT 下载链接:
      赞 1
      评论 4
      浏览 1332
      前沿动态
    签到
    0
    立即签到
    公告

    元语音研究网站板块设计:【CP】Conference Paper,【JP】Journal Paper,【TR】Technique Report,【优秀导师】,【优秀研究员】,【优秀博士生】

    积分排行
    • METASPEECH
      METASPEECH

      269 帖子 • 51 评论

      1646
    • Speech
      Speech

      166 帖子 • 24 评论

      1292
    • AI柠檬
      AI柠檬

      14 帖子 • 16 评论

      509
    • 江南一点红
      江南一点红

      1 帖子 • 1 评论

      46
    • 懵
      懵懵懂懂的新手

      1 帖子 • 17 评论

      39
    • M
      Mephisto

      0 帖子 • 4 评论

      28
    • 後藤ひとり
      後藤ひとり

      0 帖子 • 0 评论

      23
    • 心行
      心行

      2 帖子 • 0 评论

      20
    • 出东巷
      出东巷

      0 帖子 • 0 评论

      15
    • betciso
      betciso

      0 帖子 • 1 评论

      12
    关于 标签 友链
    © 2024 元语音研究网   由 AI柠檬 提供技术支持
    沪ICP备2022004527号-2