METASPEECH
发布于

语音优秀博士论文推荐—汉语广播电视新闻语音识别—贾磊

目前,以汉语广播电视新闻语音为对象的语音识别技术的研究,对于语音识 别的实用化发展具有非常重要的意义。本文针对汉语广播电视新闻语音识别的 技术难点,主要进行了以下几个方面广泛而深入的研究。
首先:在广播电视新闻语音的连续语音分割方面,本文提出基于检测熵变换 趋势的音频特征跳变点检测方法,用来检测连续音频信号中的声学特征发生改 变的地方。这种方法是根据一段数据窗内的每一个可能的声学特征跳变点所分 割的两段语音信号的熵的变化趋势来确定声学特征跳变点。相比于国际上通用 的基于 BIC 准则的声学特征跳变点检测方法,本文提出的音频特征跳变点检测 方法具有较高的灵敏度和较鲁棒的检测门限,可以较好的适应各种场合的声学 特征跳变点的检测。
其次:在广播电视新闻语音识别的自适应方面,本文详细分析了国际上通用 的各种广播电视新闻识别系统的自适应算法的优点和缺点。特别针对基于自适 应回归树的 MLLR 算法需要依靠先验知识来决定自适应变换类的这一缺点和不 足,提出一种基于目标驱动的多层自适应算法。这种自适应算法能够根据自适 应数据的似然概率的增加来动态的决定自适应变换类的种类和数目,可以更加 充分的利用有限的自适应数据进行自适应,提高系统的识别率。
最后:在广播电视新闻的连续语音识别方面,本文基于现有的广播电视新闻 的连续语音识别系统在处理相关性特征建模这个问题上的缺点和不足,结合特 征层的线性旋转变换和模型层的方差建模技术,提出一种用方差建模技术来实 现的共享状态空间旋转变换矩阵的相关特征建模方法。这种方法利用基于状态 的旋转变换方法的解相关作用,在变换后的不相关的特征空间上建立高精度的 具有对角方差结构的混合高斯模型。同时又利用方差建模技术来进行状态空间 变换矩阵的参数共享和参数优化,克服了基于状态的特征旋转变换方法所导致 的模型参数数目过多、解码时计算量较大的缺点。在汉语普通话连续语音测试 和广播语音的连续语音测试中,本文提出的相关性特征建模方法在增加较少的 内存占用量和解码计算量的情况下,能够比采用传统的具有对角方差结构的高 斯混合模型的建模方法获得 20% 的相对误识率的降低。

浏览 (112)
点赞 (1)
收藏
评论