METASPEECH
[浏览需要 0 积分] 发布于

语音优秀博士论文推荐—语音识别的序列建模及解码—陈哲怀

第一部分,本论文创新地针对关键词检测和多说话人重叠语音信号识别任务提出了序列鉴别性准则和训练方案,大幅提升了非传统语音识别任务的精度。序列建模方法通常只在训练标准的大词汇连续语音识别(LVCSR)模型时进行使用,但针对其它非传统识别任务的序列建模研究并不充分,这包括:关键词检测任务和多说话人重叠语音信号识别任务等。这类任务仍然是序列预测问题,但是却没有合适的训练准则和相应的设计,来充分优化分类器的序列建模能力。为了将序列鉴别性训练引入关键词检测任务,核心难题是设计相应的竞争可能性建模方法。本论文提出采用无词图鉴别性训练框架来解决这一问题:隐性使用音素语言模型来建模。另一方面,单通道多说话人混叠语音识别也属于序列级问题,我们提出了一种传统鉴别性训练技术变种,它在进行鉴别性训练的同时,也抑制输出通道上说话人跟踪错误。通过联合优化,迁移学习,序列鉴别性训练等方式,我们显著改善了原来语音分离、信号增强和语音识别的联合训练系统。
第二部分,在解码搜索过程当中,本论文从每帧的搜索速度和整段语音所需搜索的次数两个不同层面提出了新型加速框架,累计对 LVCSR 任务产生了百倍的速度提升:·针对每帧的搜索速度,本论文提出面向大规模图搜索的并行维特比搜索算法,并在 GPU 上实现开源该套算法。基于 GPU 的并行计算已广泛应用于神经网络训练和推理加速,但是大规模解码网络(百亿边级别)的并行搜索算法研究仍然是空白。语音识别解码搜索网络中多数边之间并不直接相关,具有并行处理的可能性,但其可重复和独立的计算模式并不显而易见。本论文提出了如下解决方案:将维特比算法中的令牌合并操作实现为一个 GPU 并行计算中的原子操作以减少同步消耗;提出了动态负载均衡的方式以提高其多线程之间的利用率;重新设计了基于 GPU 并行计算的精确的词图生成和剪枝算法。在 Switchboard 上实验表明,本论文所提出的方法在取得完全一致的 1-best 和词图质量情况下,可以得到 3-15 倍的加速。除此之外,如果再进行多句子的并行处理,最终的加速比将达到 46 倍。·针对整段语音所需搜索的次数,本论文采用具有混淆区段建模(blank 单元建模)能力的模型,系统地提出了标签同步算法,其通过一系列方法使得搜索解码过程从逐帧同步变为标签同步。当前主流的推理搜索方法是帧层面的维特比束搜索算法,在每一帧都要进行大规模的解码网络搜索,其算法复杂度很高,限制了语音识别的广泛应用。本论文提出对 blank 区段完全不进行搜索,将特征层面的搜索过程改变为标签层面,使得解码速率小于特征速率,即不必在每帧上都进行大规模搜索。与传统方法相比,该方法的优势是搜索空间更小,且搜索过程被大大加速。本论文提出的一系列通用方法在隐马尔科夫模型和连接时序分类模型上得到了验证,取得了 3-5 倍的大幅加速。
第三部分,本论文进一步探讨标签同步解码算法的一些扩展应用,改善了它们的精度和速度。上述标签同步算法所带来的搜索误差显著减小,由此产生高质量的音素词图,具有准确和紧致的特点,称为 LSD 音素词图。我们将这种高精度词图应用于关键词检测,多识别任务统一置信度框架,以及端到端语音识别。在关键词检测中,我们提出了一套基于编辑距离的 LSD 音素词图后处理算法以引入混淆性建模,改善了系统精度。在高质量的 LSD 音素词图基础上,本论文进一步提出了两种置信度生成算法。基于大幅加速的标签同步解码算法,本论文还提出了辅助归一化搜索空间的概念,并尝试使用这样的搜索空间来建模所有语音识别应用领域的置信度。同时本论文还研究了将标签同步算法应用于直接建模输出序列形态学组合的端到端模型的方案。本论文使用模块化训练的思想来改善端到端模型建模,使其更易于使用外在知识源来训练每一个端到端模型的子模块,最终带来更好的精度和速度。

浏览 (369)
点赞 (2)
收藏
1条评论
METASPEECH
METASPEECH
哲怀哥论文主要工作涉及到:标签同步解码算法在HMM与ETE系统的提出与应用、大规模GPU解码器理论提出与整体工程设计,对于ASR研究人员将有莫大助益。
点赞
评论