您好,欢迎来到意榕旅游网。
搜索
您的当前位置:首页基于特征参数归一化的鲁棒语音识别方法综述

基于特征参数归一化的鲁棒语音识别方法综述

来源:意榕旅游网
第24卷第5期 2010年9月 中文信息学报 JOURNAL OF CHINESE INFORMATION PROCESSIN『G Vo1.24,No.5 Sep.,2010 文章编号:1003—0077(2010)05—0106—11 基于特征参数归一化的鲁棒语音识别方法综述 肖云鹏,叶卫平 (北京师范大学信息科学与技术学院,北京100875) 摘 要:目前,自动语音识别系统往往会因为环境中复杂因素的影响,造成训练环境和测试环境存在不匹配现象, 使得识别系统性能大幅度下降,极大地限制了语音识别技术的应用范围。近年来,很多鲁棒语音识别技术成功地 被提出,这些技术的目标都是相同的,主要是提高系统的鲁棒性,进而提高识别率。其中,基于特征的归一化技术 简单而有效,常常被作为鲁棒语音识别的首选方法,它主要是通过对特征向量的统计属性、累积密度函数或功率谱 的归一化来补偿环境不匹配产生的影响。该文主要对目前主流的归一化方法进行介绍,其中包括倒谱矩归一化方 法、直方图均衡化方法以及调频谱归一化方法等。 关键词:鲁棒语音识别;倒谱均值归一化;高阶倒谱矩归一化;直方图均衡化;倒谱形状归一化 中图分类号:TP391 文献标识码:A Survey of Feature Normalization Techniques for Robust Speech Recognition XIAO Yunpeng,YE Weiping (College of Information Science and Technology,Beijing Normal University,Beijing 100875,China) Abstract:The performance of current automatic speech recognition(ASR)systems often deteriorates radically when the input speech is corrupted by various kinds of noise sources.Such performance degradation is mainly caused by mismatch between the training and recognition environments.Quite a few techniques have been proposed to reduce this mismatch over the past several years.Some of the techniques,like feature—based normalization,are generally simple yet powerful to provide robustness against several forms of signal degradation.So normalization strategies are often chosen as the preferred method for speech robustness.They are employed by normalizing the statistical prop— erties(moment)。cumulative density function or power spectra1 density(PSD)of feature vector to compensate for the effects of environmental mismatch.In this paper,most commonly used feature normalization methods are re— viewed,such as cepstral moment normalization,histogram equalization technique(HEQ)and Modulation Spectrum Normalization etc. Key words:robust speech recognition;cepstral mean normalization;high order cepstral moment normalization;his— togram equalization;cepstral shape normalization 别技术的应用范围。正因如此,鲁棒语音识别技术 引言 目前,语音识别技术已经取得了很大的成就,然 而绝大多数识别系统仍然局限于在安静的环境下使 用。在实际环境中,往往会因为环境中复杂因素的 影响,造成训练环境和测试环境存在不匹配现象,使 得识别系统性能大幅度下降,极大地限制了语音识 收稿日期:2009 09 08定稿日期:2O1O—O卜O4 长久以来一直被视为重要的研究领域,并取得了初 步性地进展。其主要是对语音信号本身、语音特征 参数或模型参数做适当的处理与调整,以减少噪声 干扰的影响,降低训练环境与测试环境不匹配的情 形或提升语音信号特征参数本身的鲁棒性,进而提 高系统的性能。 根据噪声对语音频谱的干扰方式不同可以把噪 作者简介:肖云鹏(1986 )女,硕十生,主要研究方向为鲁棒语音识别和普通话发音自动评估和检错;叶卫平(1957一) 女,硕士,副教授,主要研究方向为语音处理和图像处理等。 5期 肖云鹏等:基于特征参数归一化的鲁棒语音识别方法综述 1O7 声分为加性噪声和乘性噪声两类: (一)加性噪声(Additive Noise) 加性噪声为录制语音时,原始语音与背景噪声 音等等。 (二)卷积性噪声(Convolution Noise) 卷极性噪声通常是指语音信号在由不同通道传 输时所产生的通道效应(Channel Effect),例如电话 以线性相加的方式同时被收录进去,即所采集到的 语音信号为纯净的语音信号和噪声的和。这种噪声 在日常生活中很容易接触到,例如实际环境中的风 声雨声、办公室里的打印机的工作声、计算机中的磁 盘驱动器和风扇等设备的声音以及周围说话人的声 线路效应、麦克风通道效应等等。其与语音在频谱 是相乘的关系,在时域上是卷积关系,故称卷积性噪 声。加性噪声和卷极性噪声对语音信号的干扰过程 示意图如图1所示。 一 一干 『7f,1 ,7(,) 带 号 )× 。 ) 近年来,越来越多的学者致力于鲁棒语音识别 的研究,许多鲁棒语音识别技术成功地被提出,这些 技术的目标都是相同的,主要是提高语音的鲁棒性, 进而提高识别率,使语音识别技术能够更广泛地应 用到日常生活中的各个方面。依据方法本质的不同 大体可分为三类解决方法_l : HEQ)Is-9]等等。 (三)声学模型自适应技术(Acoustic Model A— daption Techniques) 由少量的自适应语料调整由干净语音或不同环 境下语料训练而成的声学模型中的概率分布参数, 如均值向量和混合高斯模型的协方差矩阵,希望调 整后的模型可以适用于测试语料的环境,以降低环 境不匹配的影响。在实际应用中,由于它直接调整 (一)语音增强技术(Speech Enhancement Techniques) 置于识别器前端,消除测试语音中噪声的影响, 语音模型参数来降低环境噪声产生的不确定度,常 常产生较好的效果。常见的技术有最大后验概率法 (Maximum a Posterior,MAP)_1 ,最大相似度线性 回归法(Maximum likelihood Liner Regression, 提高语音信号本身的质量。所有操作基本都是针对 原始语音波形而进行的,与后续的特征提取及模型 匹配没有直接关系。通常假设语音信号与噪声信号 二者在统计上是不相关的,力求能由带噪语音信号 中重建出干净语音信号。常见的技术有谱减法 (Spectral Substraction) 、卡尔曼滤波器(Kalman Filter)Ea]、信号子空间方法(Signal Subspace Ap proach) 等。 MLLR)[ 等。 上述三类方法中,第一类和第二类方法属于语 音识别系统前端处理环节。其中,大多数语音增强 算法是以提高输入信号的信噪比为目的,使受到噪 声干扰的语音听起来会比较接近无噪环境下的语 (二)鲁棒性语音特征(Robust Speech Fea— ture) 音,往往在提高语音识别系统的识别率上效果并不 显著。第三类方法属于后端处理环节,目的是让识 别器中的隐马尔科夫模型(Hidden Markov Model, 寻找稳健的耐噪声的语音特征参数和对从含噪 语音中提取的特征进行处理。其处理的基本思想就 是去除由噪声引起的带噪语音特征与纯净语音特征 HMM)更适用于实际环境。这类方法的优点是需 要少量的自适应语料就能对声学模型进行调试;缺 之间的偏差,主要通过对语音特征的一些统计特性 (如均值、方差)或分布归一化来实现。常见的技术 有倒频谱均值消去法(Cepstral Mean Subtraction, CMS)l6]、倒频谱归一化法(Cepstral Normalization, CN)_7]以及直方图均衡化(Histogram Equalization, 点就是在进行自适应调试时,计算量很大。本文将 讨论的基于特征参数归一化的鲁棒语音识别方法属 于第二类鲁棒性语音特征,其简单和实用性,是声学 模型自适应技术和大部分语音增强技术无法比拟 的,所以常常被作为鲁棒语音识别的首选方法口 。 1O8 中文信息学报 性在一定程度上也能反映噪声对倒频谱分布的影响 2语音归一化的依据 2.1噪声对语音统计特性的影响 趋势。 图2为在几种不同信噪比的背景噪声污染下的 第一维倒频谱分布。统计语料内容来自16名男女 录制的1 232句话。可以看上,倒频谱特征的全局 的均值和方差均有所偏移。其中,均值随着信噪比 的降低而提高,而方差随着分布的坡度(Slope)的增 加而降低。此外,偏度也有所移动,在高信噪比表现 出来的双峰(Bimoda1)特性随着信噪比的降低逐渐 显示出单峰特性。 T 一语音的统计特性(如均值,方差)能提供许多由 噪声引起的语音倒频谱偏差的相关信息。理论上 讲,在数学研究中,只有前四阶矩(Moment)具有明 确的物理含义,分别为均值、方差、偏度(Skewness) 和陡峭度(Kurtosis)。 均值 定义如下: F,EX]=== 1∑xEk3 k=1 (1) 其中,X( )是倒频谱系数序列,T是特征序列 的长度。 方差是二阶中心矩: 一EE(X—EEX])。]一EEx。]一E[X] (2) 高阶矩可通过分布的均值来得到。N阶中心 距(Central Moments)定义如下: MN—EE(z一 ) ] (3) 图2加入不同信噪比的噪声后第一维倒频谱的分布 偏度和陡峭度分别为三阶中心矩M。和四阶中 心矩M4,它们分别描述了倒频谱分布的对称性和相 对平坦度。 图3为纯净语音、噪声和带噪语音(信噪比为 加性噪声对语音统计特性的影响并非是纯净语 音和噪声语音统计量的简单相加或变换,但统计特 CLEAN SPEECH CEF8TRA 10dB)的倒频谱的前四个统计特性。第一行描述了 除了0阶倒频谱以外的12阶倒频谱系数的均值;下 MEAN 图3 纯净语音、噪声和带噪语音的MFCC一0的统计属性 5期 肖云鹏等:基于特征参数归一化的鲁棒语音识别方法综述 1O9 面三行描述了全部13阶倒频谱系数的方差、偏度及 陡峭度。可以看出,在加性噪声的影响下,语音信号 倒频谱的方差和其他统计属性均有所降低,这就导 致了识别过程中的环境不匹配,从而造成识别率低 下。可以假设,如果对倒频谱的这些特性进行归一 化,那么环境不匹配程度就可以被降低或补偿。 2.2标准的用于鲁棒语音识别的语料库AURORA 为了评价在噪声环境下各种鲁棒语音识别算法 的性能,需要建立一个标准的带噪语音数据库。一 是可以比较各种鲁棒语音识别算法的相对有效性; 二是可以验证算法的合理性以及允许他人有条件评 估你的算法。AURORA语料库就是为此目的而发 行的语料库,其中最常用语料库的是AURORA 2.0 和3.0。AURORA 2.0是在TI—DIGIT语料库基础 上,内容为美国成年男女录制的一系列连续的英文 数字串,人工加上不同加性噪声和通道噪声的干扰。 AURORA 3.0是欧洲语言车载语音数据库 (SpeechDataCar)的一个子集,是在实际车载环境下 录制的数字串语音数据文件,包含四种欧洲语言。 此外,AURORA-T作组成员还为噪声环境下语音 识别系统的评估的实验框架提供了标准设置,包括 前端预处理、特征提取、训练和识别过程涉及到的主 要参数都提供了参考数据,并在此基础上给出了未 使用任何鲁棒技术的参考性的识别结果,这为各种 鲁棒语音识别算法的评估和比较提供了必要条 件 。本文所提到的算法都在AURORA数据库 上验证了有效性。 3归一化方法介绍 语音特征的统计特性受噪声环境的影响,归一 化方法应用于语音识别系统当中来补偿环境噪声不 匹配的影响,进而来提高系统的识别率。大多数归 一化方法都应用在倒频谱域,作为语音特征的后加 工。其中,梅尔倒谱系数(Mel—Frequency Cepstral Coefficients)为大家接受并认同的一种特征,各种各 样的鲁棒语音技术都是基于这种特征发展而来的。 它的优点是不需要任何噪声环境的先验知识和自适 应方法,实现方法简单,而且效果比较理想。本节对 各种归一化算法进行介绍。 3.1倒频谱矩归一化(Cepstral Moment Normali— zation) 倒谱均值归一化法(Cepstral Mean Normaliza— tion,CMN)[¨],倒谱方差归一化(Cepstral Variance Normalization,CVN)[ 以及高阶倒谱矩归一化 (Higher Order Cepstral Moment Normalization, HOCMN)[13,17]都属于对倒谱矩的归正方法,目的 是使带噪语音特征参数的概率密度函数(Probabili— ty Density Function,PDF)更接近纯净语音的概率 密度函数,以减少测试语料和训练语料环境的不匹 配度。其中,CMN是对一阶矩做归一化,CVN是对 CMN的补充,在CMN的基础上再对二阶矩进行归 一化。这两种方法都是常用的方法,CMN在倒谱 域去中除了直流分量,这些直流分量包含了大部分 信道失真,而CVN对方差的进一步归一化进一步 减少了带噪语音信号和纯净语音信号的概率密度函 数的差异。而HOCMN是对高阶矩(大于3)进行 归一化,取得了更好的效果。下面采取统一的公式 对上述方法进行描述口 ”j。 倒谱序列X(n)的N阶矩定义如下: E[x (n)] 1∑X (是) (4) 其中,X( )是倒频谱系数序列,丁是特征序列 的长度,该序列的N阶距就是对X ( )取期望值。 语音信号的倒谱系数的概率密度函数通常被看 作准高斯分布(Quasi—Gaussian Distribution)。在 这个前提下,其倒谱特征的奇次阶距(Odd Order Moments)应为0,偶次阶距(Even Order Moments) 应为某一特定的常数l1川。N阶距归一化的目的是: EIx 一{ ㈣ 其中,X㈨( )是X( )的N阶距归一化后对应 的序列;MN是标准正态高斯分布N(0,1)的N阶 矩。 有了上述的表示式,可以将上文提到的CMN 和C N的定义如下: X s( )一X[1]( )一X( )一EEX(n)](6) x ( )一X 一 兰 √E[Xl ](n)];  一X(n)-—-E—[X(n)] (7) 其中, L,M是X( )的L和Jiv阶距同时被归一 化后对应的序列。所以,CVN总是和CMN结合一 起使用,所以也称为均值方差归一化(Mean and Varianee Normalization,MVN)。 偶次N的HOCMN总是和一阶矩归一化同时 存在的,并满足如下关系式: 11O 中文信息学报 XEl~]( )A bX E1]( )一 X( (靠) ,(8) HOCMNII,其中,b为比例因子。 £./v] E[x 州( )] bNzEx ̄j(7z)]一MN (9) Il HOC(MN[ 】 L:odd) J l(N:even)l HUcM NflN]L 可得,6一[ ] 1,不同的N对应不同 图5 奇次阶和偶次阶HOCMN的级联系统 的比例因子b。 如果N的值比较大,b可以通过下式来近似 6一 而 可以看出,只要给定不同的N就可以对序列 X( )的第N阶矩进行归一化,换句话说,对于不同 的N,我们就能得到不同的比例因子b。 奇次的HOCMN是由三阶矩倒谱矩归一化 胡 扩展而来的,它也是在一阶矩归一化的基础上进行 高阶归正的。其满足下式: X[1,~] aX[N1-1 ,N1]( )+x[1,N 1]( )-t-C(11) 上式中, C—nE[X[N1-,NI一1]( )] 一aM 1 (12) E[X ,N3( )] 一E{[n(X[N1 1 1]( ) MN 1)+X[1 1]]N} (13) 上式展开后,当a很小时,我们可以把高次项去 掉,仅保留最后两项,这样a就可以近似表示成为: 。…≈  2 (N 1 E[x ,)——~i.1 ](n)] X蕊N 1 (14) 由于公式仅是一个近似计算,存在一定误差,递 归算法如图4所示能得到更精确的结果。 M月、 1『  HOCMN[t.N-I】 1. ~I 1】( ) 一l~ Iate“l J HOCMN[N_q l+Ⅳ_l n 一11( r {71 N I )一a^ 一i J l …lf月、 图4奇次阶HOCMN的流程 可以看出,在对高阶矩进行归一化前均会先进 行CMN,也就是说,经过HOCMN作用后的特征参 数各维的均为都为0。对于奇次阶距和偶次阶距都 进行归一化的HOMVN可以通过一个串联系统来 实现,先对特征系数进行奇次阶距的归正,再进行偶 次阶距的归正,如图5所示。 c.W.Hsu and I .s.Lee提出使用HOCMN能 消除测试语料和训练语料之间残余的不匹配,效果 优于CMN和CVN,并指出最优的倒谱矩组合模式 为HOCMN[1')Il。。] ” 。但也可以看出,随着L和N 的增长,算法复杂度越高,收敛速度越来越慢。 3.2 直方图均衡化法(Histogram Equalization, HEQ) CMN和CVN在一定程度上补偿了信道失真 和加性噪声产生的负面影响,但是他们线性的本质 使其不能很好地解决各种环境噪声产生的非线性失 真。解决办法除了上面所述的对高阶矩进行进一步 归一化以外,直方图均衡化_8 9]也是一种有效的方 法。 直方图均衡化作为一种特征补偿技术起初是在 数字图像处理中被提出的[8],是一种采用压缩原始 图像中像素数较少的部分,拉伸像素数较多的部 分,从而使整个图像的对比度增强、图像变清晰的 方法,在图像处理领域得以广泛的应用。近几年来 不少学者将其成功地应用到语音处理上¨2 。比 如,Torre L胡等将其应用到语音识别上以提高系统 鲁棒性。实际上,直方图均衡化就是一个样本的非 线性变换,目的是使得变换后的样本服从我们所需 要的参考分布。直方图均衡化方法是一种非线性的 补偿变换,其不仅仅对特征分布的一阶和二阶矩进 行归一化,而是试图匹配训练和测试语料特征参数 的分布,即对概率分布的所有阶矩都进行所有归一 化,使得训练和测试的语音特征之间的不匹配程度 降低,从而提高系统的识别性能。 3.2.1直方图均衡化的基本原理 HEQ的假设前提是训练语料的语音特征参数 的统计分布和训练语料特征参数的统计分布(也可 称为参考分布)是一致的。由于语音特征矢量是多 维的,为了简化模型,通常假定特征矢量各维分量 相互独立,由此我们可以在特征的每一维分量上独 立进行直方图的非线性变换。假设 为测试语句 语音特征向量的某一维特征参数,其概率密度函数 (Probability Density Function)为P ( ),参考概 率密度函数为P 。 ( ),变换后的矢量为Y,其服从 5期 肖云鹏等:基于特征参数归一化的鲁棒语音识别方法综述 参考概率密度函数P (.z),变换记为F( )。直方 图变换可以看成将原变量的直方图变换到参考的直 方图,以达到将原变量变换到目标变量的过程。 HEQ原理图见图6。 f …“ 。…  II.0 C7 ) 、\ i\ 3DF Cm, ) 一一一一 {CI 1.0 一 \ 图6 HEQ的基本原理 根据直方图的定义,经变换后的小面积元对应 相等,即 P ( )dy—P (z)dx (15) 设F ( )为F( )的反函数,若上述关系式以累 积概率密度函数(Cumulative Probability Function) 表示出来,可得到测试语句累积密度函数C (z)和 训练语料密度函数C ( )之间的关系为: Cl ( )一I Pn ( )dx J一 一l一  P (F_l(Y,))( ( )) , 一 u) 一 IP , ( )  I一 ) (16) 一CTra ( ) 从上式可得到将原样本空间变换到参考分布空 间的变换函数为: F( )一( (C1 (z)) (17) 其中,C 为C 的反函数。 值得注意的是,在实际应用中语音特征参数为 一有限集合,所以无法非常准确估算实际的累积分 布函数,通常使用累积直方图(Cumulative Histo— gram)去近似累积分布函数。 3.2.2查表式直方图均衡化法(Table—Based His— togram Equalization,THEQ) THEQ口 是一种直方图均衡化的一种具体实 现方法。其对于所有训练语料而言,将语音特征向 量的每一维分量统计出一个累积直方图。然后以表 格方式将累积直方图所有信息进行存储,用来当做 转换的参考分布。对于测试语料语音特征向量的每 一维也采用同样的方法统计m累积直方图,在进行 均衡化的过程中,进行查表(Table—Lookup)转换, 每个区间内特征值用先前建立好参考分布的特征值 逐一取代。 不难看出,THEQ需要将庞大的表格信息加载 到内存中才能进行转换匹配动作,而且若要有良好 的补偿效果,表格所记录的点数不能太少,但当表格 记录点数增加时,需耗费更大量的内存空间与进行 查表转换的处理器运算时间。 3.2.3 分位数直方图均衡化法(Quantile—based Histogram Equalization,QHEQ) QHEQ是一种参数型的直方图均衡化方 法[2 5-26],其对于语音特征向量的每一维利用转换函 数H( )进行均衡化,欲使转换后的语音特征参数 的统计分布能够和参考分布相似。数学关系式表示 如下: H 一Q {a((麦) +c 一 (麦))} (18) 其中, 为待转换的特征参数;Q 为整个语句 中该维特征参数中的最大值;a和),为转换因子,可 通过下式求得: /K1 、 ——{口,y}一arg { ,yar in(\  :l (H(Q )一Q ) )(19)/  其中K为分位数的个数通常设置为4,就是取 四分位数¨2 ; 为待转换语句中第忌个分位数对 应的特征值;Q tra 为训练语料参考分布中的第 个 分位数。 就是说在对于每一句话进行均衡化前,需要进 行分位数校正,以求得最佳的参数a和),,此校正是 以最小均方误差为准则进行的。 QHEQ虽然转换过程不像THEQ需通过大量 的查表动作,只需使用少量的参数即可进行等化动 作,但是对每一句待转换的语句在进行转换动作 前,必须利用格式搜寻以在线实时运算求取参数, 因此所需的处理器运算时间也是相当可观的。 传统的两种直方图均衡化方法虽然能有效补偿 噪声产生的非线性失真,但无论是传统的查表直方 图均衡化法还是分位数直方图均衡化法,在实现的 过程中,需要耗费大量的存储空间或是处理器运算 时间。为了解决这个问题,Shih—Hsiang Lin等 。 提 出了用数据拟合的概念求累积分布函数的反函数, 只需使用少量的多项式系数与多项式函数,便能迅 速地将测试语料语音特征向量每~维德统计分布转 换至先前已从训练语句中定义好的参考分布,不能 112 中文信息学报 拥有和直方图均衡化相同的效果。 . 定义如下: 3.3倒频谱形状归一化法(Cesptral Shape Norma1. ization) m,一EE『x I ]一l I I P (z I Vo)dx (25) 前面介绍的归一化方法使识别系统在各种噪声 其中,E[・]表示取均值操作。将公式(2O)带 入公式(25)可得到: 一环境下性能有所提升,但都存在各自的缺陷。比如 直方图均衡化HEQ需要大量的训练语料才能估计 出比较精确的特征分布,而高阶倒频谱矩归一化 HOCMN的奇次阶距很难准确地估算出来。中国 EE l X【 ]一A ( 。)£ 舌 。>0 (26) 科技大学王仁华等提出了倒频谱形状归一化法 (Cesptral Shape Normalization,CSN) ],其在一定 程度上解决了这两种方法存在的问题,同时能达到 很好的鲁棒效果。它仅需要估算出一个适当的形状 因子(Shape Factor),而形状因子能简单而准确地 估算出来。此外,与传统的归一化方法相比,CSN 有更明确的物理意义和更强的正对性。 CSN使用广义高斯密度函数(Generalized Gaussian Density,GGD)_2 。。 来描述噪声环境下每 一维语音特征分布,GGD的概率密度函数PDF定 义如下: === exp(一[A( ) (2O) 其中 )一√ (21) 这里,r(・)为Gamma函数。 r( )::=f。。 z ̄l e xd ,z>0 (22) J 0 其中,参数 描述了指数衰减率。 CSN算法描述如下: 步骤1:首先 是)一 (23) 这里,x(n,是)为第 帧的第是维特征; (k)和 (愚)为当前语料第k维特征序列的均值和方差。 步骤2:利用指数因子来实现倒频谱形状归一 化: z(n,忌)一[ ( ,忌)] ” (24) 其中,a(k)表示第k维特征对应的形状因子 (Shape Factor)。上述公式的目的就是使处理过的 特征满足参考分布(Reference Distribution)。CSN 采用了矩匹配估计(Moment Matching Estimator) 方法[2 。 广义高斯分布的r阶中心距(Central Moment) 广义高斯比例函数(the Generalized Gaussian ratio Function)如下: o,r 一 一 m: 1 ‘【r十1)/ ) (27) 基于上述公式,定义如下方程: F(a(是))一 (口(愚)'r)一U(( 2r+ 1) /v0) F(1/Vo) —一0 (28) 这里M(a(志),r)可以用如下公式估计: ( ),r)一 争 1∑l z(n,是)f: 。r (29) ( ,i r)‘ 其中,N为帧数。 显然,a(忌)是方程(25)的根。尽管方程没有闭 合解,但F(a(愚))是a(最)的递增函数,可通过割线法 求得。这里,有两个参数需要设置:形状参数 。和 矩的阶数r。实验表明: 。=2和r一2就能得到比 较好的实验结果。 此外,文献[28]给出了以上三种方法在Auro— ra2.0和3.0的识别率比较。其中,CSN的平均识 别高于HEQ,HEQ高于HCOMN和CMVN。下 面给出在纯净语料训练模型的各种归一化方法的在 语料库Aurora2.0识别率比较,具体参数设置和其 他识别结果参照文献E28]。 表1 CSN和其他归一化方法在不同测试集下的识别率比较 Word Error Rate/ Reiative Method of Clean Condition Training Error Rate Set A Set B Set C Avg Reduction MVN 29.82 29.23 33.63 3O.35 HEQ 20.14 19.19 19.57 19.65 35.3 H0CMN 19.75 18.76 2O.87 19.58 35.5 CSN 19.13 18.35 19.16 18.82 38.0 5期 肖云鹏等:基于特征参数归一化的鲁棒语音识别方法综述 113 对特征参数概率分布的实验表明,在有噪声影 响的情况下,特征参数通常呈现双峰分布,鉴于此, 中国科技大学王仁华等提出了一种新的基于双高斯 混合模型(Gaussian Mixture Model,GMM)的特征 参数归一化方法口 ,以提高语音识别系统的鲁棒 调频谱(Modulation Spectrum)的概念首先是 由Houtgast和Steeneken提出的[3引,语音信号的 调频的含义和通信系统中的幅度调制类似。由于语 音信号是宽带信号,往往对其频谱划分为若干个频 带再进行后续处理。每个频带内信号的能量包络称 性。该方法采用更为细致的双高斯模型来表达特征 参数的累积分布函数(CDF),并依据估计得到的 CDF进行参数变换将训练和识别时的特征参数的 为该带宽的调制信号,这个调制信号的功率频谱密 度函数(PSD)就是调频谱。需要强调的是,调频谱 不仅适用于原始语音信号,同样适用于倒频谱系 数。 分布都归正为标准高斯分布,从而提高识别率。在 Aurora 2和Aurora 3数据库上的实验结果表明,基 于双高斯的归一化方法的性能明显好于传统的倒谱 均值归一化(CMN)和倒谱均值方差归一化方法 (CMVN),而与非参数化方法一直方图均衡化的性 能相当。 3.4调频谱归一化法(Modulation Spectrum Nor— malization) 3.5 时间序列结构归一化法(Temporal Structure Normalization,TSN) 新加坡大学李海洲等,提出了一套时间序列滤 波器设计的新方法,称为时间序列结构归一化 法l3 ,是调频谱正规化法的一种典型的实现方法。 其此目的在于将语音特征序列的功率谱密度归~ 化,使其轮廓逼近于一参考功率频谱密度。基于 AURORA一2数据库,实验结果表明:当此方法所得 的时间序列滤波器作用于CMVN与MVA处理后 的梅尔倒谱特征参数时,在各种噪声环境下所得的 语音识别率都有大幅度改进。 上述介绍的方法是对语音特征的概率分布及统 计特性进行归一化,除此以外,还可以修正语音特征 的功率频谱密度(Power Spectral Density,PSD)函 数 。。。 ,将其归一化至一参考的PSD,以得到新的 语音特征参数,来降低噪声对语音的影响。 N个特tie序列J l TSN具体实现方法如下,可参见图7: l 对 洹料L取平均r-J —r—] 参考 。函数 N卜_.个特征序列I 预处理  特征提取墨陶 }.J Ⅳ组滤波器系数lI I 厂——] 特征序列 Jv个滤波后个 时域滤波 图7 TSN原理图 (1)估计每一句训练语料和测试语料的第 维 特征序列的功率频谱密度(PSD),分别记作P (尼, )和P (七, )。然后,将训练语料所有句子同一 维的PDS作平均,所得即为参考PDS。 P (是,J)一E{P (是,)} . 叶变换(IDFT): h(r,J)一IDFT(1 H(k,J)1) Window)以较少截断效应: (32) (4)对上述滤波器系数乘以汉宁窗(Hanning (3O) h(r, )一h(r,J)・叫(r) (33) (2)TNS使用滤波器的幅度响应定义如下: 其中: J H(k, )』一、//P ,(走,J)/P (是, ) (31) (3)进一步求取该滤波器的脉冲响应(Impulse (r)一0.5(1一c。s(2丌 { )),(34) 0≤ ≤M一1 Response),即对上式的l H(是,j)I进行逆离散傅立 114 中文信息学报 2O1O年 (5)将滤波器系数总和归一化为1,以达到直流 增益归一化的目的: h(r,J)一 旦 ~ (35) ∑h(r ,J) r 一0 其中,M为滤波器长度,式h(r,J)即为第. 维 特征序列对应的时间序列滤波器的脉冲响应。 TSN法对语音特征具有较好的鲁棒化效果,且 执行复杂度极低,但仍有待改进之处,首先TSN所 得的初始滤波器系数是参考频率响应的逆函数求 得,然后将这些系数乘上一个汉宁窗以减缓不当高 频成分产生,此求取滤波器的方法未必是最佳化的, 所得滤波器系数的频率响应与参考频率响应之间误 差较大;其次,在TSN法中,滤波器系数和被归一化 为1,代表直流增益为一定值,此步骤使归一化的特 征参数的功率频谱密度并不一定接近参考功率频谱 密度,只是轮廓上大致相同;最后,TSN是在MVA 处理后的基础上再对梅尔倒谱系数进行处理,进而 得到良好的效果,但单独使用改进效果并不明显。 鉴于TSN存在的一些问题,国立暨南国际大学 电机工程学系王致程等进而探讨发展出了更精确更 有效的调频谱归一化技术,提出了三种新方法分别 为等波纹时问序列滤波器设计法(Equi—Ripple Temporal Filtering,ERTF)、最小平方频谱拟合法 (Least—Squares Spectrum Fitting,LSSF)以及幅度 频谱内插法(Magnitude Spectrum Interpolation, MSI)[353,实验结果表明ERTF、LSSF以及MSI法 与传统的TSN相比在各种不同的噪声环境下识别 率均有明显提升,且并不需要与MVN或MVA法 结合,也能有效处理梅尔倒谱特征因噪声干扰所造 成的失真。然而当它们与MVN或MVA法结合 时,也可以得到更加的识别准确度。 4 总结 本文介绍了目前基于语音特征归一化来实现鲁 棒语音识别的主要技术,主要是倒频谱矩归一化法、 直方图均衡化方法、调频谱归一化方法以及它们的 改进算法。这些算法都有各自的优势和待改进的地 方,但总体来讲,它们都能在一定程度上消除或补偿 了噪声带来的环境不匹配,较大幅度地提高识别器 的性能。在实际应用中要根据具体需要,选用不同 的归一化方法。此外,特征归一化技术还可以和一 些后端处理技术相结合,如声学模型自适应技术 (Model Adaptation) 。 和不确定译码(Uncertain— ty Decoding) 。 等,达到更好的补偿效果,进而更 有效地提高识别系统的性能。 参考文献 Eli Y.F.Gong.Speech recognition in noisy environ— ments:A survey[J].Speech Communication,1995, 16:261—291. [2]S.Bol1.Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Transactions on Acous— tics,Speech and Signal Processing,1979,27(2): 113—120.In:Proceedings of IEEE International Con— ference on Acoustics,Acoustics and Signal Processing [3] K.Paliwa1 and A.Basu.A speech enhancement meth— od based on Kalman filtering[C]//Proceedings of 1 987 IEEE Internationa1 Conference on Acoustics.A— coustics and Signal Processing.Dallas,Texas,USA, 1987:177 18O. [4] Y.Ephraim and H.I .Van Trees.A signal subspace approach for speech enhancement[C]//Proceedings of 1993 IEEE Internati0nal Conference on Acoustics。A— coustics and Signal Processing.Minneapolis,MN, USA,】993:355—358. E5]H.Lev—Ari,Y.Ephraim.Extension of the signal subspace speech enhancement approach tO colored noise EJJ.IEEE Signal Processing Letters,2003,10 (4):1O4—1O6. E6] S.Furui.Cepstral analysis technique for automatic speaker verification EJ].IEEE Transactions on Acous— tics,Speech and Signal Processing,1981,29(2):254— 272. E7] o.Viikki and K.Laurila.Cepstral Domain Segmental Feature Vector Normalization for Noise Robust Speech Recognition[J].Speech Communication,1998,25: 133—147. E82 A.de la Torre,A.M.Peinado,J.C.Segura et a1. Histogram equalization of speech representation for ro bust speech recognition fiJ].IEEE Transactions on A coustics,Speech and Signal Processing,2005,13(3): 355—366. E9]S.H.I in,Y.M.Yeh,and B.Chen.A Comparative Study of HEQ for Robust speech recognition EJ].In— ternational Journal of Computational Linguistics and Chinese Language Processing,2007,12(2):217—238. [1o]J.I .Gauvain and C.H.Lee.Maximum a posteriori estimation for multivariate Gaussian mixtureobserva— tions of Markov chains EJ].IEEE Transactions on Speech and Audio Processing,1994,2(2):291-298. [11]C.J.Leggetter and P.C.Woodland.Maximum 5期 肖云鹏等:基于特征参数归一化的鲁棒语音识别方法综述 115 Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models[J]. Computer Speech and Language,1995,9(4):806— 814. [12] J.Droppo.Noise Robust Automatic Speech Recogni— tion[DB/OL].http://www.e eurasip.org/Proceed— ings//Eusipc0/Eusipco2OO8/tutoria1s/tutoria13 — droppo.pdf,2008—08—15. [13] R.Togneri,A.M.Toh and S.Nordholm.Evalua— tion and Modification of Cepstral Moment Normaliza— tion for Speech Recognition in Additibe Babble En— semble[C]//Proceedings of the 1lth Australian In— ternationa1 Conference on Speech Science&Technol— ogy.New Zealand,2006:94—99. E14] H.G.Hirsch and D.Pearce.The Aurora Experi— mental Framework for the Performance Evaluation of Speech recognition[C]//Proceedings of ISCA ITRw ASR2000.Paris,France,2000:181—188. [15] A.Acero and X.Huang.Augmented Cepstral Nor— malization for Robust Speech Recognition[C]//Proc. of IEEE Automatic Speech Recognition Workshop. Snowbird,Utab,USA:1995. [16] P.Jain and H.Hermansky.Improved mean and va— riance normalization for robust speech recognition [c]//Proceedings of 2001 IEEE International Confer— ence on Acoustics。Acoustics and Signa1 Processing. Salt Lake City,Utah,USA:2001. [17] C.W.Hsu and L.S.I ee.Higher order cepstral moment normalization(HOCMN)for robust speech recognition[c]//Proceedings of 2004 IEEE Interna— tional Conference on Acoustics,Acoustics and Signal Processing.Montreal,Canada:2004:197—200. [18] Y.H.Suk,S.H.Choi and H.S.Lee.Cepstrum third—order normalisation method for noisy speech recognition EJ].IEEE Electronics Letters,35(7): 527 528. [19] S.Dharanipragada and M.Padmanabhan.A nonlin— ear unsupervised adaptation technique for speech ree— ognition[c]//Proceedings of The 6th International Conference on Spoken Language Processing.Beijing, China,2000:556-559. [2o] A.de la Torre,J.C.Segura,C.Benitez et a1.Non— linear transformations of the feature space for robust speech recognition[c]//Pr。ceedings of 2002 IEEE Internationa1 Conference on Acoustics。Acoustics and Signa1 Processing.Orlando,FI ,USA,2002:401— 404. [21] S.Molau,D.Keysers and H.Ney.Matching train— ing and test data distributions for robust speech rec— ognition[J].Speech Communication,2003,41(4): 579—6O】. [22] C.Y.Wan and I .S.Lee.Joint Uncertainty Deco— ding(JUD)with Histogram—Based Quantization (HQ)for Robust and/or Distributed Speech Recogni— tion[c]//Proceedings of 2006 IEEE International Conference on Acoustics,Acoustics and Signal Pro— cessing.Toulouse,France,2006:125—128. [23] C.Y.Wan and L.S.Lee.Histogram—based quanti— zation(HQ)for robust and scalable distributed speech recognition[c]//Proceeding of 9th European Conference on Speech Communication and Technolo— gY.Lisbon,Portugal,2005:957 960. [24] M.Skosan and D.Mashao.Matching feature distri— butions for robust speaker verification Eel//Proceed— ings of Annual Symposium of Pattern Recognition Association of South Africa.Grabouw,South Africa, 2004:93-97. E25] F.Hilger and H.Ney.Quantile Based Histogram E qualization for Noise Robust Speech Recognition [c]//Proceedings of the 7th European Conference on Speech Communication and Technology. Aalborg, Denmark,2001:l135—1138. [26] F.Hilger,S.Molau and H.Ney.Quantile Based Histogram Equalization For Online Applications [c]//Proceedings of the 7th International Conference on Spoken Language Processing.Denver,Colorado, USA,2002:237-240. [27] F.Hilger and H.Ney.Quantile based histogram e— qualization for noise robust large vocabulary speech recognition[J].IEEE Transactions on Acoustics, Speech and Signal Processing,2006,14(3):845—854. [28] J.Du and R.H.Wang.Cepstral shape normaliza— tion(CSN)for robust speech recognition[c]//Pro— ceedings of 2008 IEEE International Conference on A— coustics.Acoustics and Signal Processing.I as Ve gas,NV,USA,2008:4389—4392. [29] S.Gazor and W.Zhang.Speech probability distribu— tion[J].IEEE Signal Processing Letters,2003,10 (7):204—207. [3o] K.Kokkinakis and A.K.Nandi.Speech Modelling Based On Generalized Gaussian Probability Density Functions[c]//Proceedings of 2005 IEEE Interna— tional Conference on Acoustics,Acoustics and Signal Processing.Philadelphia,USA,2005:381—384. [31] B.Liu,L.R.Dai et a1.Double Gaussian based fea ture normalization for robust speech recognition [c]//Pr0ceedings of 4th International Symposium on Chinese Spoken Language Processing.Hong Kong, China,2004:253-256. [323 T.Houtgast and H.J.M.Steeneken.A review of the MTF concept in room acoustics and its use for estimating speech intelligibility in auditoria[J].The 116 中文信息学报 2O1O年 Journal of the Acoustical Society of America,1985, E37] M.G.Rahimand and B.H.Juang.Signal bias re— 77(3):1069—1077. moval by maximum likelihood estimation for robust [33] X.Xiao,E.S.Chng and H.Li.Temporal Structure telephone speech recognition[J].IEEE Transactions Normalization of Speech Feature for Robust Speech on Speech and Audio Processing,1996,4(1):19—3O. Recognition[J].IEEE Signal Processing Letters, [38] J.Droppo,A.Acero and L.Deng.Uncertainty de— 2007,14(7):500—503. coding with SPLICE for noise robust speech recogni— E34] X.Xiao,E.S.Chng and H.Li.Normalizing the tion[C]//Proceedings of 2002 IEEE International speech modulation spectrum for robust speech recog— Conference on Acoustics,Acoustics and Signal Pro— nition[c]//Proceedings of 2007 IEEE International cessing.Orlando,Florida,2002:57—6O. Conference on Acoustics,Acoustics and Signal Pro [39] H.Liao and M.J.F.Gales.Joint uncertainty deco— cessing.Honolulu。HI,USA,2007:1520—6149. ding for noise robust speech recognition[C]//Pro [35] C.A.Pan,C.C.Wang and J.W.Hung.Improved ceedings of The 9th European Conference on Speech modulation spectrum normalization techniques for ro— Communciation and Technology.Lisbon,Portugal, bust speech recognition[C]//Proceedings of 2008 2005:3129—3132. IEEE International Conferenee on Acoustics,Aeous E4o] H.1 iao and M.J.F.Gales.Issues with uncertainty tics and Signal Processing.Las Vegas,NV,USA, decoding for noise robust automatic speech recogni— 2008:4089—4092. tion[J].Speech Communication,2008,50(4):265— [36] M.Matassoni,M.Omologoand and D.Giuliani. 277. Hands—free speech recognition using a filtered clean [41] V.Stouten,H.Van hammeand and P.Wambacq. corpus and incremental HMM adaptation[C ̄//Pro Model based feature enhancement with uncertainty ceedings of 2000 IEEE Internationa1 Conference on A— decoding for noise robust ASR[J].Speech Commu— coustics.Acoustics and Signa1 Processing.Istanbul, nication,2006。48(11):502 1514. Turkey,2000:1407 141O. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrf.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务