热门话题 | 元语音研究网

元语音

[浏览需要 0 积分] 发布于27天前

Zapformer preview
代码链接

赞 1

评论

浏览 175

语音
元语音

[浏览需要 0 积分] 发布于2026-01-30 16:24:37

Qwen3-ASR Technical Report
论文链接代码链接模型链接 SFT 链接博客链接

赞 2

评论

浏览 237

语音
元语音

[浏览需要 0 积分] 发布于2026-01-12 15:00:26

【ASR+WFST的第二春】IKFST: IOO and KOO Algorithms for Accelerated and Precise WFST-based End-to-End Automatic Speech Recognition
论文链接

赞 1

评论

浏览 342

语音
元语音

[浏览需要 0 积分] 发布于2026-01-05 16:48:08

SLAM-Omni
论文链接代码链接数据链接 Demo 链接

赞 1

评论

浏览 189

大模型&多模态
元语音

[浏览需要 0 积分] 发布于2026-01-04 10:16:37

ORPO
论文链接这篇论文的分析非常好，唯一的缺点是：为什么一定要增大 chosen / rejected 之间的比值，这里未必正确。整体而言，KAIST 出的论文一如既往的好，论文分析的非常好，比值比，概率比。分析 nice。

赞 1

评论

浏览 129

语音
元语音

[浏览需要 0 积分] 发布于2022-03-06 21:41:54

清华大学 - 语音识别基本法
下载链接

赞 6

评论 45

浏览 3032

开源分享
Speech

[浏览需要 0 积分] 发布于2025-03-07 17:36:31

【CP-力作鼎推】OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models
论文链接 Neural scaling laws offer valuable insights for designing robust sequence processing architectures. While these laws have b...

赞 2

评论 1

浏览 900

语音
Speech

[浏览需要 0 积分] 发布于2025-02-21 13:27:08

【TR】OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia
论文链接代码链接 Large Language Models (LLMs) have made significant progress in various downstream tasks, inspiring the development of ...

赞 3

评论

浏览 898

语音
Speech

[浏览需要 0 积分] 发布于2025-01-22 11:34:56

【访谈】小米语音首席科学家 Daniel Povey：语音识别卷完了，下一个机会在哪里？| 智者访谈
Povey 观点链接

赞 2

评论

浏览 991

语音
Speech

[浏览需要 0 积分] 发布于2025-01-08 13:31:47

【CP】Breaking Through the Spike: Spike Window Decoding for Accelerated and Precise Automatic Speech Recognition
论文链接

赞 3

评论 1

浏览 1151

语音
J

J JJ

[浏览需要 0 积分] 发布于2024-10-18 18:13:45

speech2speech
引言在当今科技飞速发展的时代，语音机器人正逐渐成为人们生活和工作中的得力助手。语音机器人是一种利用人工智能技术，通过语音识别和语音合成等功能与人类进行交互的智能设备。它具有诸多显著优势。首先，高度的便捷性是其一大特点。无论你是在忙碌的工作中双手被占用，...

赞 3

评论

浏览 3079

前沿动态
AI柠檬

[浏览需要 0 积分] 发布于2024-10-15 00:21:49

【持续更新】AI柠檬博客智能语音技术系列文章集整理
1. 智能语音技术教学干货 Python 复现谷歌 SpecAugment 数据增强算法还是不会 VAD？带你看懂语音激活检测方法原理语音声学特征提取：MFCC 和 LogFBank 算法的原理语音声学特征提取：用于 ASRT 的语谱图特征的算法原...

赞 5

评论

浏览 1429

语音
Speech

[浏览需要 0 积分] 发布于2024-09-24 17:15:06

【Conference Paper】Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models
论文链接

赞 2

评论

浏览 1607

语音
Speech

[浏览需要 0 积分] 发布于2024-09-13 17:10:45

【Conference Paper】EFFUSE: Efficient Self-Supervised Feature Fusion for E2E ASR in Low Resource and Multilingual Scenarios
Interspeech 2024 Best Paper Award 论文链接

赞 2

评论

浏览 1410

语音
J

J JJ

[浏览需要 0 积分] 发布于2024-09-05 17:10:32

最强MoE完全开源
OLMoE 论文：OLMoE: Open Mixture-of-Experts Language Models 地址：https://arxiv.org/pdf/2409.02060 权重：https://hf.co/allenai/OLMoE-1B-7B...

赞 2

评论

浏览 1588

语音
wang

[浏览需要 0 积分] 发布于2024-09-05 10:34:32

第一个开源的具有实时对话能力的多模态模型：Mini-Omni
mini-omni 是清华大学启元实验室的开源项目，具有听，说，独立思考能力，在实时语音交互上面可以媲美 gpt-4o github 论文功能特点 1.实时语音对话功能，无需额外的 ASR 或 TTS 模型。 2. 边思考边对话，支持同时生成文本和音频。...

赞 4

评论

浏览 1408

开源分享
元语音

[浏览需要 0 积分] 发布于2024-03-02 19:55:43

语音实验室推荐—西工大—谢磊老师
实验室链接见隐藏内容

赞 3

评论 2

浏览 1378

前沿动态
L

L Lil2J

[浏览需要 0 积分] 发布于2024-03-02 21:45:37

从0开始预训练1.4b中文大模型实践
简介这篇文章主要记录了我个人对 1.4b 中文大模型的实践复现过程。我选择了 QWEN 作为基座模型，并训练了一个参数量达到 1.4b 的预训练模型，其中涉及的训练 token 数量约为 8b。在此过程中，我使用了两张 a100 80g 显卡，并耗费了大...

赞 3

评论

浏览 2334

默认分类
元语音

[浏览需要 0 积分] 发布于2024-01-27 11:50:37

语音优秀博士论文推荐—基于自注意力机制的流式端到端语音识别方法研究—田正坤
本文面向流式语音识别这一核心需求，以代表性的流式端到端转写器模型(Transducer-Based Models)为基础，围绕“下文声学信息丢失与序列建模能力不足导致模型识别效果差”，“逐帧解码策略效率低下严重影响了模型的推理速度”，“流式与非流式语音识别...

赞 2

评论 3

浏览 1770

语音
元语音

[浏览需要 0 积分] 发布于2024-02-03 12:35:46

优秀会议论文推荐—Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
论文链接

赞 1

评论

浏览 1384

前沿动态

元语音
348 帖子 • 51 评论

2545
Speech
166 帖子 • 24 评论

1292
AI柠檬
14 帖子 • 16 评论

526
江南一点红
1 帖子 • 1 评论

46
懵
懵懵懂懂的新手
1 帖子 • 17 评论

39
M
Mephisto
0 帖子 • 4 评论

28
後藤ひとり
0 帖子 • 0 评论

23
心行
2 帖子 • 0 评论

20
出东巷
0 帖子 • 0 评论

15
betciso
0 帖子 • 1 评论

12