[浏览需要 0 积分] 发布于 2024-04-04 11:11:49

优秀博士论文推荐—中科院北自所—张帅—端到端中英混合语音识别方法研究

中英混合是指在交流过程中产生的中英文语言切换的现象。随着全球化的进行，中英混合表达已经成为了一种常见的交流方式。某些场景下的中英混合表达尤为多见，比如英文教学课堂、学术会议、跨国企业会议等。这种特殊的语言现象有效地降低了沟通成本，促进了不同文化之间的交流。随着中英双语者的数量不断增加，中英混合表达越发普遍，成为语音识别无法忽略的问题。尽管中英单语语音识别系统已进入实用阶段，然而仍然无法有效处理中英混合场景的语音。鉴于迫切的实际需求与语音识别性能不佳的问题，本文在端到端语音识别框架下，研究中英文混合语音识别问题。本文围绕“提升中英混合语音识别方法的性能”这一目标，从多个角度分析影响识别性能的因素。在详细考察了现有研究工作的基础上，我们从语种信息，语言上下文，语义信息等几个方面展开研究。本研究的创新性算法并不局限于中英混合场景，均可扩展到其他语言的多语混合语音识别系统，具有良好的推广性；同时该研究拥有广阔的应用前景，可以推动诸多现实场景下的多语混合语音识别系统的发展，具有巨大的社会经济效益。具体来说，本文主要完成了三项创新性工作。
1.提出一种语种语音统一建模的语音识别方法。目前，利用语种信息辅助多语混合语音识别的方法存在诸多问题，比如模型结构复杂，计算代价大，语种信息提升语音识别性能不明显等。本文提出一种新的语种语音联合建模方法，通过在训练数据的目标文本里添加语种标签，利用神经网络转换器模型同步学习语音识别与语种识别任务。该方法不会增加额外的语种识别模块，也不会增加训练与推理过程的计算代价。另外，语种识别与语音识别任务高度耦合，语种信息可以有效提升中英混合语音识别任务的性能。在识别过程中，语种信息用来指导下一步的解码方向，进一步降低识别的错误率。
2.提出一种高效的中英混合语言上下文建模方法。针对中英混合语音识别存在的多语上下文建模复杂与训练数据缺乏的问题，提出一种语音语言解耦的端到端方法，提升了端到端模型的语言上下文建模能力。该方法将语音至文本的识别过程解耦为两部分，语音-音素过程和音素-文本过程。语音-音素过程使用连接时序分类(connectionist temporal classification，CTC)损失训练声学编码器，以音素作为建模单元。CTC 具有输出单元之间独立的性质，该性质降低了中英混合与单语语音的不匹配性，有效利用单语语音数据。同时音素根据发音规则设计，可以更好地建模声学分布。音素-文本过程使用纯文本语料训练，学习音素序列至文本的映射关系，同时建模发音词典信息与语言上下文信息。两个过程独立训练，前者利用单语数据，后者利用纯文本数据，有效缓解中英混合语言上下文建模困难的问题，极大提升了中英混合语音识别性能。
3.提出一种有效的中英混合语义建模方法。根据中英混合表达的语义特点，提出了一种有效的语义信息建模方法，显著提升了中英混合语音识别的性能。具体来说，由于中英切换的随机性，同一句话可能对应多种不同的中英混合表达方式，但是这些不同的表达方式之间的语义具有一致性。基于这种特性，利用文本构造多种中英混合表达的同义句，据此设计语义一致性损失参与模型训练。这种语义损失既可以用于训练端到端语音识别模型，又可以用于训练神经网络语言模型。这两种方式可以共同提升中英混合语音识别系统的性能。

语音 #语音识别 #端到端 #中英文混合语音识别

浏览 (1033)