发布于
请教大家一个问题:关于用wenet 的TLG方案时,我在端到端模型上用的是拼音建模,然后通过词典对应到相应的汉字上去,现在TLG解码时,发现很多的删除错误,就是有很多地方没有识别结果。而我看用拼音的模型解码时其实是有识别结果的,不知道有哪位老师遇到过
浏览 (1668)
点赞 (1)
收藏
3条评论
ferb
同样遇到了这个问题,请问楼主解决了吗?
点赞 1
评论
已解决,训练G文本多点匹配的数据就好了
点赞
评论
METASPEECH
METASPEECH
而且在TLG训练阶段有很多tricks(穿插blank建模等),进而来提升 声学与TLG的融合。
点赞
评论
TLG除了语言模型部分需要训练,其他没有训练的地方了吧
点赞
评论
METASPEECH
声乐训练可能有一些tricks,比如说穿插建模
TLG除了语言模型部分需要训练,其他没有训练的地方了吧
点赞
评论
声学建模采用的是ctc的loss,建模单元采用和汉字对应的拼音,这个跟正常的端到端ASR一致
声乐训练可能有一些tricks,比如说穿插建模
点赞
评论
METASPEECH
METASPEECH
请问您有分析过shallow fusion lm(假设是二次接入) 与 TLG之间的准确率吗? 以及分析过TLG与纯声学模型预测之间的准确率吗?
点赞
评论
TLG和纯声学模型建模分析过,准确率TLG 准确率比纯声学模型差接近一倍
点赞
评论
METASPEECH
TLG训练比较吃经验,但是从学术角度分析,TLG可能与传统解码方法差不太多的。 工业应用上TLG可能会更好,但是速度上可能会有些影响
TLG和纯声学模型建模分析过,准确率TLG 准确率比纯声学模型差接近一倍
点赞
评论