METASPEECH
发布于

优秀博士论文推荐—李乃寒—面向语音合成的深度学习算法研究与应用

语音合成(speech synthesis,又名 text-to-speech,TTS)是人机交互的重要方法之一,旨在合成清晰且自然的音频。语音合成的应用场景非常广泛,比如手机和个人电脑的语音助手、同声传译的语音输出环节、车载导航播报、新闻朗读等等。通过语音合成,可以解放用户的眼睛,使人能在“眼观”的同时还可以“耳听”,增加信息接收的带宽。最近,随着神经网络的快速发展,端到端的语音合成模型逐渐进入人们的视野。这表现在两个方面:一方面,由于自然语言处理(natural language process,NLP)领域的飞速发展,尤其是机器翻译领域的推进,用于序列到序列转换的模型(如 Seq2seq,Transformer)日趋成熟,且表现出了优异的性能,为语音合成打下了坚实的模型基础;另一方面,端到端的神经语音合成模型表现出了强大的性能,表现在省去了复杂的前端,转而借用神经网络模型以端到端的方式直接将文本转换为可以高效描述声学特征的表示方法,例如频谱或者梅尔谱。本文主要针对语音合成的三大基础问题,即自然度、鲁棒性以及“文本-音频”对齐进行了探索研究。在自然度方面,本文提出了 Transformer TTS,首次将 Transformer 通过与 Tacotron2 结合的方式应用到语音合成领域,进一步提高了生成语音的自然度;同时,Transformer TTS 缩短了训练时间,并且能够在任意两个时间步之间建立起直接的依赖关系。在鲁棒性方面,本文首先对于之前的神经语音合成模型鲁棒差的问题进行了分析,得出其鲁棒性受限的几个关键因素;并且基于这些分析提出了 Robu Trans,该模型既能保持 Tacotron2 和 Transformer TTS 的自然度,又可以极大地提高鲁棒性,避免生成异常音频的情况。另外,“文本-音频”对齐是语音领域一个重要的基础研究问题。在这个方面,本文提出了基于神经网络的对齐模型 Mobo Aligner,其利用一种全新的注意力机制,能够在梅尔谱中单调地搜索文本单元的边界,从而得到二者对齐。相比 Transformer TTS,Mobo Aligner 可以得到更准确的对齐,并且减少了 45% 的参数量和 30% 的训练时间。

浏览 (164)
点赞 (1)
收藏
1条评论
lxx
1111111111
点赞
评论