METASPEECH
发布于

优秀博士论文推荐—基于编解码框架的端到端语音识别技术研究—董林昊

1、首次将转换器(transformer)模型引入到语音识别领域,并设计了有效的卷积下采样、前端模块以及相关训练策略,使 transformer 模型以极小的训练代价获得了与基于注意力机制的编解码模型(注意力模型)相当的识别性能,从而侧面缓解了注意力模型由于计算并行性差导致的“训练瓶颈”问题。另外,对 transformer 模型在语音识别任务上的超参数组合进行了对比探究,实验中所验证的最佳超参数组合及相关模型结构被多篇论文所引用,从而在一定程度上推动了 transformer 这种高并行计算的编解码模型在语音识别中的发展。
2、将一种支持在线识别的编解码模型——循环神经对齐器(recurrent neural aligner, RNA)应用到了汉语普通话的语音识别任务,并根据汉语普通话的特点对 RNA 模型的编码器和解码器进行了相应的结构设计。具体地,根据汉语普通话的时域熵密度低且带调的“发音特点”,探究了最佳下采样率及结构组合,并引入了一种门控卷积层来捕捉声学细节(如声调)。根据汉字中大量的同音异形字易引发错别字的“语言特点”,引入了一种置信度惩罚算法来鼓励更充分的备选搜索,并提出了一种使 RNA 模型与语言模型进行联合训练的方法。结合了以上扩展设计后的 RNA 模型在汉语基准数据集上获得了突出的在线识别表现,从而验证了编解码模型在汉语在线语音识别任务上的有效性。
3、提出了一种编解码模型:自注意力对齐器(self-attention aligner, SAA),其使用自注意力网络(self-attention network, SAN)对 RNA 模型中的长短时记忆单元(long short-term memory, LSTM)进行了完全替代。并根据 SAN 的建模特点,对 SAA 模型的编码器和解码器进行了相应的设计与优化,使其不仅在汉语基准数据集上获得了当时最好的端到端识别性能,而且可以支持在线识别。同时,对 SAN 与 LSTM 在编解码模型中的性能表现、训练速度、推理速度进行了对比,证实了 SAN 在语音识别任务上的建模优势。
4、提出了一种低计算复杂度并且具有单调一致性的序列对齐机制:连续整合发放(continuous integrate-and-fire, CIF),来应对主流的注意力模型无法支持在线语音识别、无法进行声学边界定位以及计算复杂度高的问题。同时,还提出了若干支撑策略来进一步精炼基于 CIF 的编解码模型的识别性能,使其在覆盖不同语种、不同语音类型的多个数据集上获得了突出的识别结果。而基于 CIF 的编解码模型可对语音认知中最重要的声学边界进行定位的特点,为语音识别融合各种知识模型提供了新的手段和路径,有效地拓宽了编解码模型潜在的应用场景。

浏览 (290)
点赞 (1)
收藏
4条评论
star
观摩大佬的作品
点赞
评论
learner
learner
观摩大佬的作品
点赞
评论
METASPEECH
METASPEECH
林昊师兄论文主要工作涉及到:Transformer-based ASR 声学模型设计、CIF模块提出者,对于ASR研究人员将有莫大助益。
点赞
评论
MADAO
观摩大佬的作品
点赞
评论
METASPEECH
期待您的阅读感想
点赞
评论
哈喽,在GitHub上看到你的项目,感觉非常专业,也看了您的微博,感觉您是一个非常有趣的人,我不是从事相关领域,但一直想尝试把一些在时代前沿的专业研究与更多人的兴趣结合起来,有机会的话希望能与您交流认识一下。: )
期待您的阅读感想
点赞
评论
METASPEECH
可以的话,可以在微信解码群认识下。
哈喽,在GitHub上看到你的项目,感觉非常专业,也看了您的微博,感觉您是一个非常有趣的人,我不是从事相关领域,但一直想尝试把一些在时代前沿的专业研究与更多人的兴趣结合起来,有机会的话希望能与您交流认识一下。: )
点赞
评论