开源分享 - 话题 | 元语音研究网

METASPEECH

[浏览需要 0 积分] 发布于2022-05-14 11:37:49

端到端语音识别-01-田正坤
论文优势：（1）CTC 模型介绍（2）基础 Attention 模型（3）Encoder 模型探讨（4）软、硬 Attention 机制（5）多任务学习结构（6）Transformer 结构（7）训练技巧与个人思考论文下载链接：

赞 3

评论 18

浏览 1996

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2022-03-06 21:41:54

清华大学 - 语音识别基本法
下载链接

赞 6

评论 37

浏览 2609

开源分享
wang

[浏览需要 0 积分] 发布于2024-09-05 10:34:32

第一个开源的具有实时对话能力的多模态模型：Mini-Omni
mini-omni 是清华大学启元实验室的开源项目，具有听，说，独立思考能力，在实时语音交互上面可以媲美 gpt-4o github 论文功能特点 1.实时语音对话功能，无需额外的 ASR 或 TTS 模型。 2. 边思考边对话，支持同时生成文本和音频。...

赞 4

评论

浏览 1058

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2024-07-02 10:54:10

多语言数据—MSR-86K: An Evolving, Multilingual Corpus with 86,300 Hours of Transcribed Audio for Speech Recognition Research
论文链接数据 HF 链接

赞 1

评论

浏览 1170

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2023-05-24 10:22:26

ASR学习方法
ASR 开源学习方法，CTC RNNT AED 均有介绍隐藏内容有 PR 链接

赞 5

评论 14

浏览 1471

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2022-03-06 21:57:37

kaldi资源
下载链接

赞 1

评论 2

浏览 1322

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2024-01-21 15:41:13

语音大模型—Whisper全参数微调
1、Whisper 基础理论论文链接 2、Finetune 策略 Wenet 代码实现链接 Espnet 代码实现链接注：Espnet 中支持 LoRA 与全参数微调两种策略

赞 2

评论

浏览 1415

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2023-05-21 20:02:26

热词方案—58同城
58 同城在 wenet 开源了热词增强方案隐藏内容有 PR 链接

赞 2

评论 3

浏览 1241

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2023-05-27 15:02:02

语音识别-Branchformer
aishell-1 测试 branchformer，在该数据集上测试该方案，精度一直没有超过 conformer，确定有提升吗，大家训练该网络模型有什么 tricks 或者好的思想吗？隐藏内容有 PR 链接

赞 1

评论

浏览 1004

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2023-05-07 13:07:12

2019年Magicspeech 比赛语音识别第一名方案—Kaldi 算法
基础方案特点： 1、标准 kaldi GMM-HMM DNN-HMM LFMMI 训练模式 2、使用 DNN-HMM(CE)对齐方案 reference1：https://www.bilibili.com/read/cv5090561/ reference...

赞 2

评论

浏览 1242

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2022-05-14 11:25:33

WFST算法分享-05-Mohri
论文优势：（1）WFST 基础理论介绍（2）作者原文论文下载链接：

赞

评论

浏览 1273

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2022-05-14 11:20:42

WFST算法分享-04-Hori & Nakamura
本书优势：（1）WFST 基础理论与算法推导（2）WFST 构图、搜素与优化（3）静态解码器与动态解码器（4）注解重点及其他书籍下载链接：

赞

评论

浏览 1358

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2022-05-03 08:57:55

kaldi-工程化
本次开源来源连接：https://github.com/datemoon/ASR-decoder 开源涉及内容：（1）kaldi 工程化代码，解码及优化（2）基于能量断点活性检测-vad （3）kaldi 工程化服务（4）kaldi 对齐到字优化（...

赞 3

评论

浏览 2111

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2022-03-25 22:02:20

TTS书籍
TTS 最近在 GitHub 分享一本书籍 Reference：https://github.com/cnlinxi/book-text-to-speech 下载链接

赞 4

评论

浏览 1426

开源分享
AI柠檬

[浏览需要 0 积分] 发布于2022-03-23 17:07:54

ASRT语音识别项目最近动态： 1. ASRT发布了Release v1.1.2，具有比v1.1.1更低的识别错误率。 https://github.com/nl8590687/ASRT_SpeechRecognition/releases/tag/v1.1.2 2. ASRT添加了Speech251BN模型，比SpeechModel251模型更好 https://github.com/nl8590687/ASRT_SpeechRecognition/blob/master/speech_model_zoo.py 3. ASRT已全面推进使用新版RESTful风格http+json的网络API接口，SDK中C#、Python和Golang语言项目已实现支持新版接口 https://wiki.ailemon.net/docs/asrt-doc/asrt-doc-1deogvbpjf3jv 4. ASRT服务端Docker的v1.1.1版已经发布，接口已经改为新版接口 ailemondocker/asrt_service:1.1.1 5. ASRT的SDK项目新增了Golang语言的SDK接入调用，详见： https://github.com/nl8590687/asrt-sdk-go

赞 2

评论

浏览 1408

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2022-03-06 22:09:14

kaldi实战
HMM - code -Kaldi kaldi：https://github.com/kaldi-asr/kaldi kaldi 文档：http://www.kaldi-asr.org/ kaldi-help 下载链接

赞 1

评论

浏览 1270

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2022-03-06 22:04:56

Attention 实战
Attention - code Attention：https://github.com/kaituoxu/Speech-Transformer 下载链接

赞 1

评论

浏览 1166

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2022-03-06 22:02:04

RNN-T实战
RNN-T - code RNNT：https://github.com/ZhengkunTian/rnn-transducer 下载链接

赞 1

评论

浏览 1707

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2022-03-06 22:00:45

CTC实战
CTC - code - ASRT ASRT：https://github.com/nl8590687/ASRT_SpeechRecognition 下载链接

赞 2

评论

浏览 1332

开源分享
METASPEECH

[浏览需要 0 积分] 发布于2022-03-06 21:59:19

WFST论文
下载链接

赞 1

评论

浏览 1052

开源分享

METASPEECH
270 帖子 • 51 评论

1656
Speech
166 帖子 • 24 评论

1292
AI柠檬
14 帖子 • 16 评论

512
江南一点红
1 帖子 • 1 评论

46
懵
懵懵懂懂的新手
1 帖子 • 17 评论

39
M
Mephisto
0 帖子 • 4 评论

28
後藤ひとり
0 帖子 • 0 评论

23
心行
2 帖子 • 0 评论

20
出东巷
0 帖子 • 0 评论

15
betciso
0 帖子 • 1 评论

12