语音优秀博士论文推荐—基于自注意力机制的流式端到端语音识别方法研究—田正坤
本文面向流式语音识别这一核心需求,以代表性的流式端到端转写器模型(Transducer-Based Models)为基础,围绕“下文声学信息丢失与序列建模能力不足导致模型识别效果差”,“逐帧解码策略效率低下严重影响了模型的推理速度”,“流式与非流式语音识别模型不兼容”三个具体问题进行递进式地研究,共计完成了四项创新性的工作。
提出了基于自注意力机制的转写器模型和先验路径正则化优化方法。由于“不能利用下文声学信息辅助识别”和“长距离序列建模能力不足”的问题,流式单向循环神经网络转写器模型(RNN-T)语音识别准确率往往比较差。本文提出了自注意力转写器模型(SA-T),使用序列建模能力更好且效率更高的自注意力机制完全取代循环神经网络进行序列建模。此外为了降低模型的训练难度,加快收敛速度,本文同时提出了一种基于先验路径正则化的模型优化方法。实验表明 SA-T 模型相比原始 RNN-T 在流式与非流式场景下均能获得更好的识别表现;先验路径正则化的引入,极大地加速了模型收敛过程,且进一步提升了模型识别表现。
提出了基于定长滑窗机制的转写器模型加速解码方法。转写器模型在推理过程中采用逐帧解码的策略,其计算效率低下,严重影响了模型的推理速度。针对这一问题,本文将自注意力转写器模型(SA-T)与语音变换器(Speech-Transformer)模型进行了深入地融合,提出了基于定长滑窗机制的转写器模型加速解码方法。定长滑窗机制将声学编码器生成的声学编码表示序列切分生成多个等长且连续的声学编码块,自注意力解码器对其逐块解码。为了使得模型能够学习到文本标记序列与声学编码块的对齐关系,本文引入了前后向算法来对所有可行对齐路径同时进行优化。实验表明定长滑窗机制能够有效地提升转写器模型的解码效率,同时对于模型识别准确率的提升也有一定的促进作用。
提出了基于快速跳帧机制的转写器模型加速解码方法。针对转写器模型逐帧解码策略效率低下,严重影响模型推理速度的问题,本文提出了一种基于快速跳帧机制的转写器模型加速解码方法,从另一个角度达成“提升模型解码效率”的目标。快速跳跃正则化方法使得 SA-T 模型能够学习到 CTC 模型预测标记的位置信息,并进行对齐。在解码过程中,模型先基于 CTC 解码器来预测空格标记的位置,SA-T 解码器将预测出的非关键帧(空格标记)跳过,仅在关键帧(非空格标记)位置进行解码。实验结果表明,所提出的快速跳帧机制使得模型能够在识别表现损失极小的情况下获得近 3.5 倍的解码速度提升,极大地提升了模型解码效率。
提出了基于一体双模的流式与非流式兼容语音识别方法。虽然流式语音识别已经获得了识别准确率和解码效率的提升,然而和非流式的语音识别模型相比仍有些差距,在非流式场景下并不能取代现有方法。以基于注意力机制的编码解码模型(AED)为代表的非流式语音识别方法由于对全局声学信息的依赖也不能直接适配于流式语音识别任务。流式与非流式模型的不兼容问题浪费了极大的人力成本与算力成本。为了解决模型的兼容性问题,本文提出了混合流式与非流式模型,其将流式 CTC 模型与非流式 AED 模型进行深入地融合,通过联合训练与解码模式重构的方法,实现了一个模型具有流式与非流式两种解码模式。实验表明,所提出的模型能够兼容两种识别任务,并获得了识别准确率与解码效率的双重提升。