- [浏览需要 0 积分] 发布于25天前
【ASR+WFST的第二春】IKFST: IOO and KOO Algorithms for Accelerated and Precise WFST-based End-to-End Automatic Speech Recognition
论文链接赞 1评论浏览 205 - [浏览需要 0 积分] 发布于2026-01-04 10:16:37
ORPO
论文链接 这篇论文的分析非常好,唯一的缺点是:为什么一定要增大 chosen / rejected 之间的比值,这里未必正确。 整体而言,KAIST 出的论文一如既往的好,论文分析的非常好,比值比,概率比。分析 nice。赞 1评论浏览 59 - [浏览需要 0 积分] 发布于2025-01-22 11:34:56赞 2评论浏览 884
- [浏览需要 0 积分] 发布于2025-01-08 13:31:47
【CP】Breaking Through the Spike: Spike Window Decoding for Accelerated and Precise Automatic Speech Recognition
论文链接赞 3评论 1浏览 1036 - [浏览需要 0 积分] 发布于2024-10-15 00:21:49
【持续更新】AI柠檬博客智能语音技术系列文章集整理
1. 智能语音技术教学干货 Python 复现谷歌 SpecAugment 数据增强算法 还是不会 VAD?带你看懂语音激活检测方法原理 语音声学特征提取:MFCC 和 LogFBank 算法的原理 语音声学特征提取:用于 ASRT 的语谱图特征的算法原...赞 5评论浏览 1310 - [浏览需要 0 积分] 发布于2024-09-24 17:15:06
【Conference Paper】Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models
论文链接赞 2评论浏览 1497 - [浏览需要 0 积分] 发布于2024-09-13 17:10:45
【Conference Paper】EFFUSE: Efficient Self-Supervised Feature Fusion for E2E ASR in Low Resource and Multilingual Scenarios
Interspeech 2024 Best Paper Award 论文链接赞 2评论浏览 1309 - [浏览需要 0 积分] 发布于2024-09-05 10:34:32
第一个开源的具有实时对话能力的多模态模型:Mini-Omni
mini-omni 是清华大学启元实验室的开源项目,具有听,说,独立思考能力,在实时语音交互上面可以媲美 gpt-4o github 论文 功能特点 1.实时语音对话功能,无需额外的 ASR 或 TTS 模型。 2. 边思考边对话,支持同时生成文本和音频。...赞 4评论浏览 1259 - [浏览需要 0 积分] 发布于2024-01-27 11:50:37
语音优秀博士论文推荐—基于自注意力机制的流式端到端语音识别方法研究—田正坤
本文面向流式语音识别这一核心需求,以代表性的流式端到端转写器模型(Transducer-Based Models)为基础,围绕“下文声学信息丢失与序列建模能力不足导致模型识别效果差”,“逐帧解码策略效率低下严重影响了模型的推理速度”,“流式与非流式语音识别...赞 2评论 3浏览 1556 - [浏览需要 0 积分] 发布于2024-02-03 12:35:46赞 1评论浏览 1274
- [浏览需要 0 积分] 发布于2024-02-03 12:32:41赞 1评论浏览 1154