- [浏览需要 0 积分] 发布于2025-01-22 11:34:56赞 2评论浏览 405
- [浏览需要 0 积分] 发布于2025-01-08 13:31:47
【CP】Breaking Through the Spike: Spike Window Decoding for Accelerated and Precise Automatic Speech Recognition
论文链接赞 3评论 1浏览 554 - [浏览需要 0 积分] 发布于2024-10-15 00:21:49
【持续更新】AI柠檬博客智能语音技术系列文章集整理
1. 智能语音技术教学干货 Python 复现谷歌 SpecAugment 数据增强算法 还是不会 VAD?带你看懂语音激活检测方法原理 语音声学特征提取:MFCC 和 LogFBank 算法的原理 语音声学特征提取:用于 ASRT 的语谱图特征的算法原...赞 5评论浏览 843 - [浏览需要 0 积分] 发布于2024-09-24 17:15:06
【Conference Paper】Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models
论文链接赞 2评论浏览 1182 - [浏览需要 0 积分] 发布于2024-09-13 17:10:45
【Conference Paper】EFFUSE: Efficient Self-Supervised Feature Fusion for E2E ASR in Low Resource and Multilingual Scenarios
Interspeech 2024 Best Paper Award 论文链接赞 2评论浏览 1107 - [浏览需要 0 积分] 发布于2024-09-05 10:34:32
第一个开源的具有实时对话能力的多模态模型:Mini-Omni
mini-omni 是清华大学启元实验室的开源项目,具有听,说,独立思考能力,在实时语音交互上面可以媲美 gpt-4o github 论文 功能特点 1.实时语音对话功能,无需额外的 ASR 或 TTS 模型。 2. 边思考边对话,支持同时生成文本和音频。...赞 4评论浏览 914 - [浏览需要 0 积分] 发布于2024-01-27 11:50:37
语音优秀博士论文推荐—基于自注意力机制的流式端到端语音识别方法研究—田正坤
本文面向流式语音识别这一核心需求,以代表性的流式端到端转写器模型(Transducer-Based Models)为基础,围绕“下文声学信息丢失与序列建模能力不足导致模型识别效果差”,“逐帧解码策略效率低下严重影响了模型的推理速度”,“流式与非流式语音识别...赞 2评论 3浏览 1128 - [浏览需要 0 积分] 发布于2024-02-03 12:35:46赞 1评论浏览 929
- [浏览需要 0 积分] 发布于2024-02-03 12:32:41赞 1评论浏览 816
- [浏览需要 0 积分] 发布于2024-02-03 12:27:49赞 1评论浏览 966
- [浏览需要 0 积分] 发布于2023-05-27 14:35:52
CTC尖峰前移方法—BRCTC—Tencent AI Lab
Vanilla CTC 对齐存在尖峰漂移现象,这使得无法比较准确获取 CTC 对齐结果,上采样后漂移误差更大,如何缓解该问题。 最近,Tencent AI Lab 在 ICLR 2023 提出了 Bayes Risk CTC 通过对候选路径 risk fa...赞 3评论 8浏览 1420 - [浏览需要 0 积分] 发布于2022-05-14 12:19:57
WFST算法分享-06-厦门大学洪老师
论文优势: (1)WFST 基础理论介绍 (2)基于 WFST 的 Token Passing 算法流程介绍 (3)解码与剪枝 (4)其他介绍 PPT 下载链接:赞 1评论 2浏览 1807 - [浏览需要 0 积分] 发布于2022-05-13 21:35:58赞 1评论 4浏览 1304