计算机测量与控制.201 6.24(4) Computer Measurement&Control · 155 · 文章编号:1671—4598(2016】04—0155—04 DOI:10.16526/j.cnki.1l一4762/tp.2016.04.046 中图分类号:TN912.34 文献标识码:A 基于改进噪声估计的谱减法应用于说话人识别 李哲军 ,周 萍 ,景新幸 (1.桂林电子科技大学电子工程与自动化学院,广西桂林541004; 2.桂林电子科技大学信息与通信学院,广西桂林 541004) 摘要:针对语音信号中存在加性噪声使MFCC的鲁棒性和识别系统的性能下降的问题,基本谱减法的引入在增强MFCC抗噪性上取 得的效果有限,为了使MFCC具有更好的抗噪性,提出了一种改进算法,在谱减法的基础上引入谱熵的思想,利用谱熵值的分布逐帧进 行噪声估计,可更精确地谱减去噪;实验结果表明,当语音中含有加性噪声时,与基本谱减法相比,改进谱减法的说话人识别系统抗噪 性与鲁棒性更好。 关键词:说话人识别;谱减法;谱熵;噪声估计;梅尔频率倒谱系数 Speaker Recognition Using Spectral Subtraction Method Based on Improved Noise Estimation Li Zhej un ,Zhou Ping ,Jing Xinxing (1.School of Electronic Engineering and Automation,Guilin University of Electronic Technology,Guilin 541004,China; 2.School of Information and Communication,Guilin University of Electronic Technology,Guilin 541004,China) Abstract:Aiming at the problem that additive noise in speech signal makes the performance of speaker recognition system degradate when using MFCC.The introduction of traditional spectral subtraction achieved some effect on enhancing noise immunity of MFCC,but the improvement is limited.To get a better result,a novel algorithm of spectral subtract is proposed in this paper.The concept of spectral entro— PY is introduced based on the spectral subtraction,the noise of each flame is estimated more accurately according tO its spectral entropy and subtracted tO get better denoising effect.Experimental results show that when there is additive noise in the test speech,compared with tradi— tional spectral subtraction,the speaker recognition system of novel algorithm has better noise immunity and robustness. Keywords:speaker recognition;spectral subtraction;spectral entropy;noise estimation;MFCC 0 引言 、‘ traction,SS),相比传统MFCC,加入谱减法的系统处理含有 加性噪声的语音时性能有提高但程度有限,于是提出了改进算 声纹识别Ⅲ是通过语音识别说话人的身份,与指纹识别、 文字密码等认证技术相比,其具有不会遗失、无须记忆、实现 简单等特点,是一种非接触识别方式。有效特征参数_2 的提取 法以进一步提高MFCC的抗噪性。在基本谱减法基础上引入 谱熵_6 的概念,根据谱熵的定义和性质分析噪声与语音信号的 谱熵分布规律,用以动态更新噪声谱值,使谱减更精确、所提 取的MFCC抗噪性更好。此外,实验采用GMM-UBM模型_7 代替GMM模型以弥补样本的不足。实验结果表明改进谱减法 的说话人识别系统抗噪性改善明显。 是其关键问题,常见的特征参数有线谱对参数(LSP)、线性 预测倒谱参数(LPCC)、Mel频率倒谱系数(MFCC)等,其 中MFCC因能充分描述人耳的感知特性而应用广泛[3]。 语音纯净不含噪时MFCC的鲁棒性及系统识别效果都比较 好,但系统在语音含噪时的识别性能下降明显。针对语音中存 在的加性噪声降低识别性能的问题,已经有许多改进算法l4], 有倒谱均值与方差规整(CepstralMean and Variance Normaliza— tion,CMVN)、特征弯折、RASTA滤波等,都曾被用来提高 MFCC的鲁棒性,但它们都存在需要延迟处理的缺点。 首先,本文研究了语音增强中的谱减法¨£](Spectral Sub一 1 MFCC特征参数 常用特征参数可分为时域和频域两类,时域中有幅度、平 均过零率等参数;频域中有线谱对参数(LSP)、线性预测倒 谱系数(LPCC)、共振峰频率、Mel频率倒谱系数(MFCC) 等,其中MFCC因反映了人耳听觉特性而具有较好的鲁棒性。 MFCC采用的是梅尔频率,代表着人耳对不同频率声音 的感受程度 8]:在1 000 Hz以下人耳感知较为敏锐,与频率 近似成线性关系;在1 000 Hz以上人耳感知与频率成对数关 收稿日期:2015—10—10;修回日期:2015一l1—08。 基金项目:广西研究生教育创新计划资助项目(YCSZ2015152);国 家自然科学基金(61363005)。 系。梅尔频率与赫兹频率的转换公式为: 一. 25951g(1+ /700) (1) 作者简介:李哲军(1990一),男,湖北天门人,硕士研究生,主要从事 语音识别方向的研究。 周萍(1961一),女,河北唐山人,教授,硕士研究生导师,主要从事 其提取过程如图1所示。 1)预加重:滤除低频干扰,补偿受发音系统所抑制的高 频部分,其传递函数为: H( )一1一kz_1 (2) 智能控制及语音信号处理的研究。 景新幸(1960一),男,湖北武汉人,教授,硕士研究生导师,主要从事 其中: 介于0.9和1.0之间,本文实验中取0.95。 2)分帧:将N个采样点集合成一个观测单位,称作帧, 语音识别及其混合集成电路的研究。 · l56 · 计算机测量与控制 第24卷 j S J一[1 离 散 傅 里 叶 变 换 lie1 滤 波 器 组 对 数 能 量 离 散 余 弦 变 换 l。一E l { 1]“ 一[1 I 一E l (l )]“。 (12) 基本谱减法的核心是以无语音帧中噪声的统计均值替代整 段语音的噪声估计,但以不变的统计均值替代随机变化的噪声 进行谱减就会产生很大误差,出现残留噪声即音乐噪声。为了 改善音乐噪声问题而出现了许多改进的谱减法:有人将听觉掩 图1 MFCC提取流程 敝模型用于谱减法_1 o—l,但要人为设定参数,会增加系统复杂 度和引入新的失真;有人提出在谱减法计算谱值时引入修正系 数_ ,但人为确定的系数并没有改变以偏概全的本质;还有 1人提出添加语音活性检测[ 步骤,但在低信噪比时效果较差。 为避免相邻两帧间变化过大,相邻帧间有一段重叠区域,称作 帧移,常为N的1/2或1/3。 3)汉明窗:增加窗边界处信号的连续性,减小吉伯斯效应: 本文在基本谱减法的基础上引入谱熵的概念,用以更为精确地 )一0.54~0.46c。sf_ ],0≤ ≤N 1(3) 4)离散傅里叶变换:将信号的时域分布变换为频域上的 能量分布: x( )一∑ ( )8 ,0≤ ≤N (4) 5)Mel滤波:消除谐波,降低数据维数,将离散谱X ( )通过M个Mel滤波器组,得到M个h(m)参数: ^(m)一 fm+ W ( )x( ),,m一1,2,…,M (5) …Jm一1 6)离散余弦变换:将经过对数运算的滤波输出变换到倒 谱域,得到MFCC参数: r—●M 血( )一√ c。s『(m—o.5) ]In[^(m)], 一1,2,…,M (6) 由以上步骤得到的静态MFCC,经差分运算可得到一阶差 分倒谱系数2xMFCC,AMFCC作为动态特征参数,能更加完 整地表征说话者的动态语音特征ls],描述语音信号帧间变化即 说话者的动态特征。本文实验中采用MFCC与△MFcC的组 合参数。 2基于谱减法的语音增强 语音增强是从带噪语音中消去或减小其中的噪声以获得较 纯净的语音,使提取的特征参数接近于无噪声的情况。语音增 强主要有谱减法、Wiener滤波法、最小均方误差估计法等,其 中谱减法具有计算量小、引入约束条件少等优点而应用广泛。 2.1基本谱减法 基本谱减法中,假定且噪声和语音不相关且噪声为加性噪 声,记为 ( ),纯净语音信号为平稳信号,记为S(,2),则 带噪信号为: ( )一5( )+ (n) (7) 设y( )、S( )、z( )的傅里叶变换分别为 、s 、 Z ,则对(7)两边进行傅里叶变换有: y( )一S(k)+Z( ) (8) 于是可得: Il 一}S { +l f +S Z +S (9) 由于S( )与22( )相互独立,则S 和z 独立,且 满足高斯分布且均值为零,则有: E l l ll—E Il S l l+E I lf I (10) 记为无语音时的统计平均值,则对于分帧内的短时平稳过 程有: I Y 『。I—l S I。+ ( ) (11) 于是,增强后的语音信号为: 进行噪声估计以获得更好的去噪效果。 2.2谱熵与频谱的关系 针对短时平稳的语音信号,将其分成若干短时帧,然后经 傅里叶变换得到的短时频谱并进行归一化处理,其概率密度函 数如下: 1—1 Pi—s( )/ … ( ),i一1,2,…,N (13) 其中:S( )是频率分量_, 的频谱值,对应的概率密度 值为P ,N为FFT的频率点数,每帧谱熵定义为: ——、^, H一一 pklog z( ) (14) 谱熵是熵的一种形式,具有熵的基本性质_l :熵值不因 各分量的次序改变而变化;熵值在集合中的事件等概率发生时 达到最大值,例如在式(14)中有H≤log (N)。由谱熵的 定义和性质可知,每帧谱熵值仅与频谱的分布有关,与频谱值 不直接相关,且语音谱熵值随频谱分布的变化有如下规律: 纯静语音的频率分布的范围较小,频谱S( )及其概率 分布P 较为集中,可表示为P 一(P ,Pz,…,P ,0,0, …,O), 一1,2,…,N,s《N;噪声的频谱较为丰富,频 谱S( )及其概率分布P 也较为分散,可表示为P 。一(P , P2,…,P ,0,0,…,0),i一1,2,…,N,”≈N;对于 H( )和H(P z),由于s《 ,根据谱熵的性质可以知H ( n)<H(户 z),即噪声的谱熵值总是大于纯净语音的。 综上可知,谱熵值受频谱分布影响且与频谱幅度不直接相 关,于是可根据谱熵值更准确地区分噪声帧和语音帧使提取的 特征参数具有更好的鲁棒性。 2.3基于谱熵的谱减法改进 噪声值的估计不准会使谱减去噪时产生音乐噪声,且噪声 值随机变化,但其谱熵值变化不大,本文根据各帧的谱熵变化 来确定并动态的更新噪声值,每一帧都减去更新后的噪声值, 由信号的短时平稳性可知,这样进行谱减更为准确l 】。 基于谱熵噪声估计改进的谱减法(Improved Spectra[Sub— traction,ISS)分为3个部分: 1)初始噪声估计,将谱熵值最大的一帧作为噪声帧并将 该帧频谱值更新为初始噪声值; 2)噪声更新,根据判断新一帧与前一噪声帧谱熵值的比 值是否大于设定阈值r(根据实验,取为0.95):是则判定此 帧为新噪声帧并更新其频谱值为噪声谱值,否则当前帧的噪声 值等于前一帧的噪声值; 3)谱减,每一帧减去更新后的噪声值完成消噪。 加入改进谱减法后的MFCC提取算法过程如下: 1)输入含噪语音; 第4期 李哲军,等:基于改进噪声估计的谱减法应用于说话人识别 · 157 · 2)对每一语音帧进行FFT变换,得到语音频谱s ,其 中, 一1,2,…,N; 3)计算每一帧的谱熵值h(S ),将谱熵值最大的一帧 作为初始噪声帧,即Noise=S ; 4)若新的一帧的谱熵值与前一纯噪声帧的比值大于阈值 y(取为0.95),即h(S )/h(S )>),, 一1,2,…,N, 此时便更新噪声估计Noise=S ; 5)利用前面已得到的语音谱s 以及更新后的噪声帧估计 Noise进行谱减; 6)输出消噪后的增强语音频谱。 3 GMM-UBM模型 3.1 GMM模型 GMMl1 模型原理是若干高斯函数的线性组合可逼近任意 曲线,其作为一种概率统计模型能精确地描绘说话人特征参数 的概率分布。对于混合度为M、模型参数为 的GMM,特征 矢量为x,则X在该GMM模型下的似然度为: p(X l ):∑ M COiN (x) (15) 式中,咄为混合权值,满足∑ M CO 一1;N (x)表示第i个 混合高斯分量的高斯密度函数: ( 2 7r) / l>:I / ‘ 式中, 表示均值向量,∑ 表示协方差矩阵,本文∑ 采用 对角阵的形式以方便计算。翠 f~I(X一/1i) ∑ (x一 )l (16) GMM模型参数包含混合权值、均值矢量及协方差矩阵, 即 ={ , ,∑ },i=1,2,…,M, 可通过EM算 法_j 估计得出。 3.2 GMM-UBM模型 GMM模型在训练和测试语音都足够长且语音较纯净的情 况下,其识别效果比较理想。当训练语音只有数十秒、测试语 音只有几秒时,GMM模型就不能很好地刻画说话人特征。 GMM—UBM模型的原理是先利用所有的语音训练得到一个 UBM,然后基于MAP(Maximum A Posteriori)自适应UBM 得到目标说话人的GMM模型,可用来弥补数据的不足。 UBM是一个大型的高斯混合模型,可反映所有说话人语音特 征以及环境通道的共性,通过大量说话人在各种环境下的数据 训练获得。 黑 在GMM—UBM模型中,对于测试语音的特征矢量序列x 一{x }, 一1,2,…,M,每个说话人的对数概率得分计算 公式如下: S(x)一 1厶M [幻g p(X l A )一log p(X I ∞M)] :1(17) 式中, 为目标说话人的GMM模型参数, 为UBM模型 参数。 训练阶段利用大量的语音进行训练得到UBM,在UBM 的基础上通过MAP自适应得到目标说话人的GMM模型。测 试阶段根据已经训练好的UBM模型和GMM模型,利用公式 (17)计算出对数概率得分,找到最大的得分者即目标说话人。 基于GMM—UBM模型的说话人识别原理框图如下: 图2 GMM—UBM识别模型框图 采用似然比打分的方式是一种归一化处理,可对不同的目 标话人设置统一的判决阈值。识别时分别计算似然度得分,选 取最大者对应的目标说话人即为识别结果 。 4实验结果与分析 4.1实验设置 硬件环境:PC个人计算机(Intel(R)Core(TM)i5— 32l0M CPU@2.5 GHz)。 软件环境:Windows 7操作系统、MATI AB R2010a和 CoolEditpro—v2.0录音软件。 实验采用的语音库为自建小型普通话语音数据库。语音文 件在普通研究室环境下录制,采样频率为8 kHz,量化精度为 16 bit。60名录音者(34名男性、26名女性)随机朗读5分钟 (文本无关)。从每人语音中截取UBM训练语音(1 min)、 GMM训练语音(10 s)和测试语音(5 s)。为提高本文后续 实验的有效性,进行截取时避免所截取的语音段重复。 实验采用13维MFCC与13维AMFCC组成的组合参数, 按帧长256个采样点、帧移128个采样点逐帧提取语音特征参 数。训练阶段依次训练UBM模型(高斯混合度为128)和 GMM模型,之后通过MAP自适应得到目标说话人的GMM 模型。测试阶段从语料库中选取5O个说话人构成测试集,每 个人有5段测试语音。 4.2实验结果与分析 实验一:不同信号的幅值及谱熵值的对比: 图3纯净语音信号S 图4 S的谱熵值 从图4和图5可以看出,纯净语音信号中语音帧的谱熵值 · 158 · 计算机测量与控制 第24卷 由表可见,在基于GMM模型中,混合度为32时的识别 性能最好,而GMM—UBM模型识别性能远高于GMM模型。 实验三:不同参数在不同噪声环境中识别率对比: 分别在SNR一10dB、5dB、0dB、一5dB环境下,对未进 行语音增强的MFCC、采用基本谱减法(SS)得到的MFcC 和采用改进谱减法(ISS)得到的MFCC进行说话人识别实 图5纯高斯白噪声N j四 壤 图6 N的谱熵值 趔 j馨 样点数 图7加噪语音S1 图8 Sl的谱熵值 都比较小,在5.8上下波动,静音帧的谱熵值较大,在7.0之 上波动;从图6和图7可以看出,纯高斯白噪声的谱熵值较 大,在7.5之上波动;从图8和图9可以看出,在含噪语音 中,语音帧和噪声帧的谱熵值分别在6.0和7.2左右。因此可 据此将谱熵值最大的一帧作为噪声帧,并根据各帧的谱熵变化 来确定并动态的更新噪声值。 实验二:低噪环境中GMM与GMM-UBM模型对比: 在未加噪情况下,采用未加入谱减法的MFCC作为特征 参数,对比GMM与GMM—UBM模型识别效果,分别取 GMM混合度为8,16,32,64进行实验,得出识别率如下表 表1不同混合度的GMM模型与GMM—UBM模型对比 识别模型 识别率/% 8 75.45 不同混合度的 16 82.87 GMM模型 32 88.32 64 82.43 GMM—UBM模型 97.48 验,得到识别结果如下: 表2不同信噪比下3种参数识别率 SNR/dB 1O 5 O 一5 特征参数 MFCC 95.24 83.47 65.39 38.93 MFCC+SS 96.35 86.33 73.29 56.32 MFCC+ISS 96.83 91.58 84.71 75.43 由表可见,在相同信噪比环境下,基本谱减法所提取的 MFCC性能好于未进行语音增强的MFCC,而本文提出的改进 谱减法提取的MFCC性能优于基本谱减法所提取的MFCC。 随着信噪比的降低,各方法提取的特征参数识别率均有所下 降,本文提出的改进谱减法所提取的MFCC对识别性能的改 善更为明显,在SNR一一5dB的环境中也能达到75 以上的 识别率,较基本谱减法所提取的MFCC在识别率方面有3O 以上的提高。 5 结束语 本文提出了改进谱减法用以改善加性噪声降低说话人识别 系统性能的问题,首先介绍了传统的MFCC提取算法,随后 对语音增强中的基本谱减法进行改进,并仿真实现了改进谱减 法的MFCC提取。基于GMM—UBM系统经加噪测试实验,结 果表明改进谱减法提取得到的MFCC较基本谱减法具有更强 的鲁棒性,在低信噪比环境中有更好的表现。此外,采用 GMM—UBM计算量较大,耗时较长,如何减少识别系统的计 算量,提高识别效率将是接下来的研究工作。 参考文献: [1]徐子豪,张腾飞.基于语音识别和无线传感网络的智能家居系统设 计[J].计算机测量与控制,2O12,01:180—182. [2]张雪英.数字语音处理及MATI AB仿真[M].北京:电子工业出 版社,2011. [3]Yu G H,Zhao Y I ,Wei z X.A descent nonlinear conjugate gra dient method for large—scale unconstrained optimization[J].Ap— plied Mathematics and Computation,2007,187(2):636—642. [4]曾 祺。甘涛,曾红斌.改进的多窗谱MFCC在说话人确认中 的应用[J].计算机系统应用,2014,23(11):l92—195. [5]王路露,夏旭,冯 璐,等.基于频谱方差和谱减法的语音端 点检测新算法[J].计算机工程与应用,2014,50(8):194 —197. [6]李哗,张仁智,崔慧娟,等.低信噪比下基于谱熵的语音端点 检测算法[J].清华大学学报(自然科学版),2005,45(10): 1397—1400. [7]周国鑫,高勇.基于GMM—UBM模型的说话人辨识研究[J]. 无线电系统,2014,44(12):14—17. [8]杨海燕,景新幸,曾招华.基于DSP开发板的语音识别系统的研 究[J].计算机测量与控制,2013(01):210—212,220. (下转第162页) · 162 · 计算机测量与控制 据发送出来。 第24卷 安装并配置JDK1.8、Apache1.9、Android SDK、Android NDK这4个软件,配置完成后即可编译生成后缀为Apk的 Android程序,然后在手机上进行调试[5 ]。 项目采用的软件开发工具QT是一种跨平台的开发工具, 因此只需对客户端软件进行部分修改,绘制APP软件界面, 模拟实际情况进行应急模式测试,在系统平稳运行采集数 据时,给通道一个超过阈值的信号,观察客户端软件发现系统 立刻进入了应急模式,完成了数据发送,事后通过回看系统日 志也证实在该时刻系统进入了应急模式。在不同采样时间段分 在配置好的环境下重新编译,即可生成APP软件。项目开发 的APP软件具有与客户端软件完全相同的功能,由于手机屏 别进行应急模式测试,从触发阈值到进入应急模式均在1秒 内,大量测试表明应急模式满足实际应用需求。 4.3系统稳定性测试 幕较小无法同时显示所有功能,分别绘制了参数设置界面、参 数和状态查询界面、实时通信界面,这3个界面可实时切换, 便于用户使用。 稳定性是系统最重要的指标,设置好各项参数后,启动系 统并进行了72小时不间断测试,在每天固定时间启动AD子 程序进行数据采集,每天固定时间进行数据发送,每1小时进 行一次系统校时确保与卫星时间同步。 通过分析操作日志以及观察客户端的实时数据,发现系统 运行稳定,功能完善,在72小时内未出现错误,达到了预期 的效果。 4系统测试 本文设计与实现的系统需要在恶劣环境下长期工作,为了 验证系统的可靠性和实用性,进行了大量的数据采集测试、应 急模式测试和稳定性测试。 4.1数据采集测试 利用标准信号源提供信号,接到ADC的16个通道上,通 5 结论 本文提出了一种基于ARM和Linux的通用数据采集系统 方案,设计了主控板卡硬件电路,搭建了嵌入式Linux系统采 集平台,实现了16路精确定时模拟量采样、16路数字量采 样,具备RS232/485接口、以太网通信功能,开发的系统软 过主控板的AD子程序读取采样数据,转发到客户端软件进行 显示,结果如表2所示。 表2 ADC数据采集测试结果 真实值 V 误差 0.O06 0.002 0.003 0.OO2 0.002 O 测量值 —4.994 —3.998 —2.997 —1.998 一O.998 O 5 4 3 2 1 O 件运行稳定,客户端软件具备良好人机交互界面,扩展的手机 APP软件功能完善,组建完成的系统功能完善、运行稳定, 在工农业生产监控、地质水文环境监测、森林灾害预防等领域 有着广阔的应用前景。 参考文献: 1 2 3 4 5 O.998 1.998 2.997 3.997 4.993 0.002 O.O02 0.003 0.003 0.007 [11柯新宇.基于ARM的数据采集卡研制[D].武汉:华中科技大 学,2008. [2]韩雪川.基于ARM嵌入式Linux的数据采集监控终端设计[DI. 哈尔滨:哈尔滨工程大学,2O1O. [3]闫广续,袁纵横,等.基于ARM嵌入式Linux的数据采集系统 设计[J].计算机测量与控制,2015,23(5):1724—1727. 由表2可以看出,获得的采样值与标准信号源的值误差在 0.01V以内,采样率误差较小,系统可以准确地采集数据,且 数据转换精度高、误差小,符合使用要求。 4.2应急模式测试 [4]陆文周.Qt5开发及实例[M1.北京:电子工业出版社,2014. [51王森.一种基于Android的远程控制工具的设计与实现[D]. 西安:西安电子科技大学,2012. [6]王 峰,宣伯凯,等.基于Android的家庭移动医疗监护系统的 设计[J].计算机测量与控制,201 5,23(5):l586—1588. 应急模式是系统监测到某个采样值超过设定的阈值时紧急 启动的一种机制,触发后立刻进入发射模式,将当天的采样数 (上接第158页) [9]吴迪,曹洁,王进花.基于自适应高斯混合模型与静动态听觉 Japan,200 7:60 7—6l2. [13]李振静,王国胤,杨 勇,等.基于谱熵噪声估计的改进谱减法 特征融合的说话人识别[J].光学精密工程,2013,21(6):I598 —[J].计算机工程,2009,35(18):164—166. [14]杜志然,周[151蒋萍,景新幸,等.基于谱熵的耳语音增强研究[J]. 传感器与微系统,2012,3l(6):69—72. 1604. [1O]马义德,邱秀清,陈昱莅,等.改进的基于听觉掩蔽特性的语音 增强[J].电子科技大学学报,2008,37(2):255—25. [11]茅正冲,王正创,龚熙.一种低信噪比下的说话人识别算法研 晔,唐振民.GMM文本无关的说话人识别系统研究[J].计 竹,霍春宝,等.基于GMM—SVM的说话人识别系 算机工程与应用,2010,46(11):179—182. 究[J].计算机应用与软件,2014,31(12):218—220,251. r12]Kitaoka N,Yamamoto K,KusamizuT,et a1..Development of VAD evaluation framework CENSREC-1—-C and investigation of re—· [16]赵立辉,毛[17]侯统研究[J].工矿自动化,2O14,40(5):49—53. 珏,刘 轶,郑 方,等.基于VP树结构的多层匹配算法 在哼唱识别中的应用[J].清华大学学报(自然科学版),2009, 49(S1):1419—1424. lationship between VAD and speech recognition performance LAJ. Automatic Speech Recognition&Understanding[C],Kyoto,