[浏览需要 0 积分] 发布于 2024-01-21 15:58:24

优秀博士论文推荐—基于编解码框架的端到端语音识别技术研究—董林昊

1、首次将转换器（transformer）模型引入到语音识别领域，并设计了有效的卷积下采样、前端模块以及相关训练策略，使 transformer 模型以极小的训练代价获得了与基于注意力机制的编解码模型（注意力模型）相当的识别性能，从而侧面缓解了注意力模型由于计算并行性差导致的“训练瓶颈”问题。另外，对 transformer 模型在语音识别任务上的超参数组合进行了对比探究，实验中所验证的最佳超参数组合及相关模型结构被多篇论文所引用，从而在一定程度上推动了 transformer 这种高并行计算的编解码模型在语音识别中的发展。
2、将一种支持在线识别的编解码模型——循环神经对齐器（recurrent neural aligner, RNA）应用到了汉语普通话的语音识别任务，并根据汉语普通话的特点对 RNA 模型的编码器和解码器进行了相应的结构设计。具体地，根据汉语普通话的时域熵密度低且带调的“发音特点”，探究了最佳下采样率及结构组合，并引入了一种门控卷积层来捕捉声学细节（如声调）。根据汉字中大量的同音异形字易引发错别字的“语言特点”，引入了一种置信度惩罚算法来鼓励更充分的备选搜索，并提出了一种使 RNA 模型与语言模型进行联合训练的方法。结合了以上扩展设计后的 RNA 模型在汉语基准数据集上获得了突出的在线识别表现，从而验证了编解码模型在汉语在线语音识别任务上的有效性。
3、提出了一种编解码模型：自注意力对齐器（self-attention aligner, SAA），其使用自注意力网络（self-attention network, SAN）对 RNA 模型中的长短时记忆单元（long short-term memory, LSTM）进行了完全替代。并根据 SAN 的建模特点，对 SAA 模型的编码器和解码器进行了相应的设计与优化，使其不仅在汉语基准数据集上获得了当时最好的端到端识别性能，而且可以支持在线识别。同时，对 SAN 与 LSTM 在编解码模型中的性能表现、训练速度、推理速度进行了对比，证实了 SAN 在语音识别任务上的建模优势。
4、提出了一种低计算复杂度并且具有单调一致性的序列对齐机制：连续整合发放（continuous integrate-and-fire, CIF），来应对主流的注意力模型无法支持在线语音识别、无法进行声学边界定位以及计算复杂度高的问题。同时，还提出了若干支撑策略来进一步精炼基于 CIF 的编解码模型的识别性能，使其在覆盖不同语种、不同语音类型的多个数据集上获得了突出的识别结果。而基于 CIF 的编解码模型可对语音认知中最重要的声学边界进行定位的特点，为语音识别融合各种知识模型提供了新的手段和路径，有效地拓宽了编解码模型潜在的应用场景。