第29卷第6期 声学技术 VO1.29,NO.6 Dec..2010 2010年12月 Technical Acoustics 信号相位匹配算法的语音降噪及性能评估 王科攀,高勇 (!N Jii大学电子信息学院,成都610065) 摘要:针对信号相位匹配算法能够在信号估计中准确提取信号频率成分的优点,将三子阵信号相位匹配算法应用于 提取强背景噪声中的语音信号,同时提出了基于平均段内功率谱密度距离的语音质量客观评价方法,将主观平均意 见分(MOS)、信噪比和平均分段功率谱密度距离作为指标,分别对三子阵信号相位匹配法、谱减法和最小均方误差估 计法这三种算法的处理结果进行客观评价并对算法的降噪性能做了对比。仿真结果表明,三子阵相位匹配算法能够 达到强背景噪声环境下语音降噪的目的;同时基于平均段内功率谱密度距离的语音质量客观评价结果与主观评价结 果相符合,该评价方法具有一定的可行性。 关键词:信号相位匹配;三子阵;平均功率谱密度距离;语音质量客观评价 中图分类号:H017 文献标识码:A 文章编号:1000—3630(2010)一06.0615—05 DOI编码:10.3969 ̄.issnl000.3630.2010.06.013 Application Of phase matching principle in speech noise reduc— tion and Obj ective quality assessment WANG Ke—pan,GAO Yong (ColIegeofElectronics andInformationEngineering,SichuanUniversity,Chengdu610065,China) Abstract:Based on the property that signal phase matching principle can extract signal frequency exactly,three sub—array sinalg phase matching principle is applied tO extract the speech signal from strong background noise,and a speech qualiy tevaluation method is proposed based on average power densiy tspectrum distance.The subjective mean opinion scores (MOS),the signal—noise ratio(SNR)and the average power densiy tspectrum distance as indexes are used tO assess the speech qualities which processed by three sub—array signal phase matching principle,spectral subtraction and least mean square error estimation,and the noise reduction performance of these algorithms are compared.The simulation results demonstrate the validiy of tthree sub—array signal phase matching principle in speech noise reduction. Key words:signal phase matching principle;tree sub—arhray;average power density spectrum distance; objective speech qualiy tmeasure 用快速傅里叶变换(FFT)方法就可以确定某一时刻 1 引言 信号处理的主要目的就是从含有噪声及干扰 信号频域的实部和虚部解 ,从而恢复出期望语音 信号。 的数据中提取有用信息,而干扰的存在将严重影响 信号处理的性能。现在较为常用的含噪语音处理方 2三子阵的信号相位匹配原理 将M元的均匀线阵分为l~ 2,2~ l,3~ 三个子阵,每个子阵由 2个阵元组成,将 2 法是谱减法、最小均方误差估计法(MMSE)等。这 些方法处理中需要语音和噪声的统计假设和先验 模型,对信噪比要求较高,且处理后容易产生音乐 个线阵的输出通过波束形成,得到三子阵的输出分 别为: 噪声,使语音的清晰度和可懂度降低 。本文提出 了基于信号相位匹配原理的降噪算法,无需信号和 噪声的统计假设以及信号与噪声不相关的假设,也 无需对信号建立统计模型,只需要对三子阵的输出 f pl(t)=s(t)+rG(t) {p2(t)=s(t—r)+n2(t) 【p3(t)=s(t一2r)+n3(t) 其中 (,)=( 一2)Sl(t),si(t)为阵元1接收到的 期望信号, (f)( 1,2,3)分别为: 一收稿日期:2009 12—06;修回日期:2010 03.14 作者简介:王科攀(1984.),女,河南禹』,i'1人,硕士研究生,研究方向为 语音质量的客观评价、语音降噪。 通讯作者:高勇,E—mail:gaoyong@SCU.edu.ci1 2 ,zI( )=∑ns (f) m=l (2) 616 声 学 技 术 2010笠 n2(0=Hs (f) (3) 化了的期望信号的实部与虚部形式: Re( ):丽 EA -F B Im( )=丽 FC -E D i (9) (10) 卫 ndt)= /7s ( ) 式(2)~(4)中的” (f)是 (4) 2个阵元接收到的随 机噪声,相加后获得三子阵的接收噪声 利用三子阵信号相位匹配原理求解信号不仅 提高了输出信噪比,且噪声功率谱差l 1 一IN,I 和 ,2 )( 1,2,3),则三子阵相邻子阵中只有两个阵元 的输出是不同的。经相加后,不仅减少了噪声功率 谱起伏,且三子阵的波束输出pi(t)、P2(t)和P3(t)的 信噪比也得到了提高 。 参照三子阵相位匹配原理,将其应用于语音降 噪,得到三个子阵的输出如式(1)所示,其中 (f)为 I I 一I I 更趋近于零 。由此可知三子阵信号相 位匹配算法的降噪性能优于其它语音信号增强处 理方法。 三子阵接收到的期望语音信号,延时 =0.0625ms, ni(t)(i=l,2,3)为三子阵接收到的随机噪声。对式(1) 两边做傅里叶变换,得到各子阵输出的频域表达 式,写成模与相位的形式为: 3 语音信号三子阵信号相位匹配法 降噪仿真 为了表明三子阵相位匹配的降噪性能,做了以 下仿真。设三子阵期望输出信号 (f)为“我去无锡 iIP ̄(jco)le嘲 (jco)le +1 (j le {IP ̄(jco)le 4S(jco)le +I 0co)le l l (j le  ̄S(jco)le 砷+I』v3(j@le 5(a) 5(b) 5(c) 市”的一段语音数据,采样频率为16kHz,噪声 (f) 为高斯随机噪声,则三子阵三路输出中包含的期望 信号分别为 (f)、s(t一 、s(t一2r),设定 = 0.0625ms,噪声,2l=H2= = (f)。仿真分析 (f)中 125~155ms这30ms内信号经过三子阵的相位匹配 法降噪前后的时域和频域波形,如图1所示。 !誊i l式(5)中,iP(j l、l (j l和IN0co)I为幅度; 为相位角,它们都是 的函数。将式5(b) 和5(c)分别移相eJrot和e2jOn-后,使其与式5(a)中 , , (i 同相,如式(6)所示: l ¨Pl0co)le确=IS0co)le +lN10co)le {IP ̄(jco)le ㈣=lSfjco)[ej' ̄+lN2OoDle“ 0 (6) 三一1 l 5 IIg(jco)le“ =lSfjoDId' ̄+l Oco)le“ 这样便满足了信号相位匹配“信号同相,噪声 不同相”的条件。然后利用文献[2]的推导方法,对 式(6)两边分别取模的平方展开,解得该期望语音信 时问/ins (a)原始纯净语音信号时域波形 频率/Hz (b)原始纯净语音信号频潜 O 号 (i 的实部与虚部分别为: Re(s)= Im(s)= 式(7)、式(8)中: 篆 (7) (8) 时问/ms (c)含嵘语爵信引忖域波肜 频率/Hz (d)岔噪语音信号频谱 孥 0 f _ A=Re(P3)sin2o9r+Im(P3)cos2cot—Im(P1); B=Re )sintor+Im )coscor—Im ): 州 f ̄i]/ins (e)经处理后语音信 域波J 频率/Hz (f)经处理后语音信号频谱 C=Re(P2)cosogr-lm )sincor-Re(P1); D=Re(P2)cos2cor-Im )sin20)r-Re(PL); 图1 30ms内语音信号降噪前后时域频域波形比较 Fig.1 Comparison between waveforms and spectrums of Speech signal before and after noise reduction of 30ms E 1 一l l。, l 一I I ,CA—BD ̄O:其中 = l/7,0 le , N,0 le (i=1,2,3)。 当背景噪声谱可估计时,由式(7)、(8)可以求出 期望信号。但实际噪声谱不可估计或是不能准确估 计,因此由式(2)~(4)可知,当三子阵的阵元个数 一图1(a)、l(b)分别为原始纯净语音信号的时域 波形及相应频谱,图1(c)、l(d)为原始纯净语音信 号DHZ.高斯随机噪声后(SNR ̄--23dB)的时域波形及 相应频谱,图1(e)、1(f)为经三子阵的信号相位匹配 法处理后的信号波形及相应频谱。从图1可知本文 提出的算法明显抑制了噪声,提高了信噪LL(SNR), 2>>2时,IⅣl I=1 l,则得到式(7)和式(8)简 第6期 王科攀等:信号相位匹配算法的语音降噪及性能评估 617 且处理后语音信号的频谱和原始纯净语音信号的频 谱十分接近。 由以上实验可知,在低信噪比的条件下,三子 阵的相位匹配法可以检测出语音信号的准确频谱, 从而起到降噪作用。下面对整段含噪语音数据“The iffth tracking contains big juice pitted”进行三子阵信 号相位匹配处理,其中语音信号的采样率为16kHz, 噪声为高斯随机噪声,SNR ̄0dB,这里给出纯净语 音、含噪语音和三子阵的信号相位匹配法降噪后语 图3基于输入一输出语音质量客观评价原理框图 Fig.3 Principle diagram of speech quality evaluation based on“in— 音的时域波形,由图2可以看到处理后的语音信号 波形和原始纯净语音的波形几乎相同,且在主观听 觉上语音自然度未受损失。 馨1 0 一1 0 0.5 l 1.5 2 2.5 3 3.5 4 4.5 5 时I'itJ/ms ×104 (a)原始纯净语音信号时域波形 (b)含嵘语青信号时域波形 时IiiJ/ms ×l o| (c)经羔子阵的信写相位匹配处理后的语音信号时域波形 图2降噪前后语音信号的时域波形比较 Fig.2 Comparison bvetween the speech signal waveforms before and after noise reduction 为了进一步评价三子阵信号相位匹配算法的 降噪性能,下面对降噪前后的语音信号进行了评 价。语音评价以主观方式较多,且评价结果的差异 性较大,下面主要介绍语音的客观质量评价,并用 提出的方法对三子阵相位匹配算法的降噪结果进 行客观评价,并与主观评价做了相应比较。 4性能评估 语音质量客观评价从评价结构上可分为基于 “输入.输出”的评价和基于输出的评价。基于“输 入一输出”的评价是以语音系统的输入信号和输出信 号之间的误差大小来判别语音质量的好坏,是一种 误差度量;基于输出的评价是仅根据语音系统的输 出信号来进行语音质量评价。 典型的基于“输入一输出”的语音质量客观评价 主要由语音信号预处理、特征参数计算、失真计算 put—output”method 及判断模型三部分组成,如图3所示。核心部分为 特征参数计算、失真计算及判断模型,不同的失真 测度主要区别在于这个两个部分 。 以信噪kL(SNR)、分段信噪LL(segSNR)、板仓 距离(IS)、LPCC倒谱失真测度、Mel倒谱失真测度 等为特征参数的评价方法,其评价性能各有不同。 例如:SNR方法因语音的非平稳性而存在偏差, LPCC与Mel倒谱系数失真测度会因为其系数个数 的选择和滤波器个数的选择而存在差异。 这里采用基于“输入一输出”的评价方法,采用 的特征参数有功率谱密度、功率谱密度相关系数、 平均分段功率谱密度距离。 语音信号为非平稳随机信号,但在10~30ms 内,语音信号具有短时平稳性 ,为此我们以每 30ms时长为一帧将语音信号分帧,则每帧的功率 谱密度分别为 : ( =∑Rx(n)e一 (11) 其中 ( )为输入信号序列的自相关函数。为 得到语音信号的功率谱密度统计特征,用式(8) 计算每帧信号的短时功率谱密度,然后对每帧信号 的短时功率谱密度求和平均,得到整段语音信号的 平均段内功率谱密度。定义平均分段功率谱密度的 计算公式为: egG(co) 0l ogl。 “ (12) 式(12)中, 为一段语音信号的帧数,Ⅳ为一 帧语音信号内的采样点数,这里帧长取256个采样 点。i、J分别代表帧索引和帧内索引,G ,1( 由 式f111得到。 对纯净语音和经三子阵相位匹配降噪后的语 音信号进行处理,得到每帧的平均功率谱密度如图 4所示。 图4中实线代表原始纯净语音每帧的平均功率 谱密度分布,虚线代表经三子阵相位匹配降噪后语 6l8 声 学 技 术 2010正 利用主观MOS打分(这里的MOS分由同组3位成 员对实际实验数据的主观评价打分平均得到)、信 CD 噪L ̄(SNR)和平均分段功率谱距离Seg 三种指_∞ 薅 标对三子阵的降噪性能进行评价,并与MMSE算 司 法和谱减算法语音降噪后的评价结果进行对比,如 表1所示。 从表1中SNR与Seg CD指标可以看出,三 子阵的相位匹配法的降噪能力较强。为了对比三子 阵、谱减和MMSE降噪能力的差异,我们对不同 信噪比的含噪语音信号分别用这三种算法进行处 图4纯净语音信号与处理后语音信号的每段功率谱密度比较 Fig.4 Comparison of average power density spectrums for each pe— riod of clean speech signal and noise reduction speech signal 理,并把处理后的信号与原始纯净语音、含噪语音 与纯净语音分别求其段内平均功率谱密度距离,并 作图进行比较,如图5所示。 音信号每帧的平均功率谱密度分布,从图中可以看 出,处理后语音信号的功率谱密度分布和纯净语音 信号的功率谱密度分布几乎相同,相似度极高。 为了度量降噪前后语音信号与纯净语音信号 的相似程度,分别计算了含噪语音、经三子阵相位 匹配处理后的语音和原始纯净语音的功率谱密度 的相关系数矩阵,如式(13)、(14)所示: r 1.000 0.23697 =. 由图5可看出,当输入功率谱密度距离较大时, 三子阵法降噪后的功率谱密度距离比MMSE和谱 减法小,但随着输入功率谱密度距离的减小,三种 方法处理后的功率谱距离逐渐达到一致,即功率谱 距离越小,处理后的信号与纯净信号越接近。明显 表明三子阵的降噪性能优于MMSE法和谱减法。 I 0 2369 1.000 I 1r 1.000 0.99087 (13)(14)=I1 0 9908 1 000 l f . . H 为纯净语音与含噪语音的功率谱密度相关 系数矩阵, 为纯净语音与处理后语音的功率谱密 度相关系数矩阵,由式(14)可知,处理后的语音与 纯净语音的功率谱密度的互相关系数p=O.9908, 表明处理后的语音和纯净语音达到了很高的相似 程度。 为了比较处理前后与纯净语音信号的功率谱 密度差距,定义平均段内功率谱密度距离Seg CD 如下: Seg输入Seg.CD/dB 图5段内平均功率谱密度距离输入一输出曲线 F .5 Input YS.output curves of Seg—CD for three kinds of noise reduction processing(Seg—CD is the diference of average power desity spectrums between pure speech signal and noisy speech signa1.) CD=segGy( 一segGx(co) (1 5) 其中,segGy( 代表原始纯净语音的平均段内 功率谱密度, G ( 代表处理后的平均段内功率 谱密度。用此差值来度量语音信号处理前后的相似 程度,距离越小则表明处理后的语音与原始纯净语 音越接近,即处理后语音的清晰度越高。 为了评价三予阵相位匹配法的降噪性能,。F面 5 总结 本文通过以上仿真实验得出以下结论,用三子 阵的相位匹配原理处理后的语音信号比传统的谱 减算法和最小均方误差算法(MMSE)处理后的语音 信号在听觉质量和自然度上都有明显的改进,能更 表1三子阵、MMSE、谱减三种算法降噪前后主观MOS、SNR和SegCD比较 Table 1 Comparison of Subjective MOS、SNR and Seg_CD before nd aafter three sub array,MMSE and spectral subtraction noise reduction 第6期 王科攀等:信号相位匹配算法的语音降噪及性能评估 619 好地降低噪声,恢复原始语音信号的特性,且几乎 感受不到音乐噪声。并且该算法对输入信号的信噪 性能分析[J].空军工程大学学报(自然科学版),2008,9(3):58-62 YU Xiangzhen ZHU Weijie.ZHANG Longjun Performance analysis for principle of matched phase of signal in coherent inter— 比要求不高,对提取强背景噪声中的期望信号有很 大的应用前景。对基于平均段内功率谱密度距离的 语音质量客观评价结果与主观评价结果做比较分 ference suppression[J]Journal of Air Force Engineering Universi— ty(Natural Science Edition),2008.99(3):58—62 [4] 贾冲,孙浩海,吴其前,张雄伟.语音音质客观评价系统的实现 fJ].解放军理工大学学报(自然科学版),2004,5(3):33—36. 析,得出该结果能较好地映射主观评价,表明该评 价方法具有一定的可行性。 参 考 文 献 [1] 陈照平,马建芬,张雪英.一种基f快速噪声估计的MMSE语音 增强算法【J].计算机工程与应用,2007,43(22):113—115. CHENG Zhaoping.MA Jianfen,ZHANG Xueying.Mini— mum-Mean-Square—Error algorithm based on fast noise estima— tion[J].Computer Engineering and Applications,2007,43(22): 113 114. [2] 孙进才,朱维杰.信号相位匹配原理及其应用[M].西北工业大学 出版社.2005,18.39. SUN Jincai,ZHU Weijie.Signal phase matching principle and ap— plication[M】.Northwestern Polytechnic University Press,2005, 18—39. [3】 于湘珍,朱维杰,张龙军利用信号相位匹配原理抵消相干干扰的 JIA Chong,SUN Haohai,WU Qiqian,ZHANG Xiongwei.Sys・ tem implementation for objective assessment of speech qualitic【JJ. Journal of PLA University of Science and Technology,2004,5(3): 33.36. [5】 李薇,胡智奇,尚秋峰,戚银城语音质量客观评价方法的研究 [J]电力系统通信,2009,30(198):64—71. LI Wei,HU Zhiqi,SHANG Qiufeng,QI Yincheng Research on object evaluation of speech qualiyt[J】.Telecommunications for Electirc Power System,2009,30(198):64—71 [6]赵力.语音信号处理[M】.北京:机械Xi,Ak ̄版社,2003,25—50. ZHAO Li.Speech signal precessing[M].BeOing:China Machine Press,2003,25—50 [7] 沈允春,罗天方,沈东旭.随机信号分析【M】北京:防一 业出版 社,2008,123-120. SHEN Yunchun,LUO Tianfang,SHEN Dongxu.Random Signal Analysis[M]Beijing:National Defense Industry Press,2008, 】23.】20