E-Paraformer: A Faster and Better Parallel Transformer for Non-autoregressive End-to-End Mandarin Speech Recognition
【非自回归 ASR 模型】
基于 paraformer 的并行化改进,在不降低字准率的情况下,实现全并行计算,提升推理速度。
在之前的验证中,英文上也可以实现较好的结果,LibSpeech 的实验结果(仅供参考)为 dev_clean/dev_other :2.91/6.67; test_clean/test_other:3.12/6.83。
可惜的是 interpseech 篇幅有限,加上当时在英文 libripseech 的结果没有达到非自回归的 sota 的,所以没有放。
-
论文链接
INTERSPEECH 2024
https://www.isca-archive.org/interspeech_2024/zou24_interspeech.pdf -
开源代码
https://github.com/modelscope/FunASR/tree/main/examples/aishell/e_paraformer -
模型架构
-
实验结果