基于特征参数归一化的鲁棒语音识别方法综述

来源：意榕旅游网

第２４卷第５期　２０１０年９月　中文信息学报　ＪＯＵＲＮＡＬ　ＯＦ　ＣＨＩＮＥＳＥ　ＩＮＦＯＲＭＡＴＩＯＮ　ＰＲＯＣＥＳＳＩＮ『Ｇ　Ｖｏ１．２４，Ｎｏ．５　Ｓｅｐ．，２０１０　文章编号：１００３—００７７（２０１０）０５—０１０６—１１　基于特征参数归一化的鲁棒语音识别方法综述　肖云鹏，叶卫平　（北京师范大学信息科学与技术学院，北京１００８７５）　摘　要：目前，自动语音识别系统往往会因为环境中复杂因素的影响，造成训练环境和测试环境存在不匹配现象，　使得识别系统性能大幅度下降，极大地限制了语音识别技术的应用范围。近年来，很多鲁棒语音识别技术成功地　被提出，这些技术的目标都是相同的，主要是提高系统的鲁棒性，进而提高识别率。其中，基于特征的归一化技术　简单而有效，常常被作为鲁棒语音识别的首选方法，它主要是通过对特征向量的统计属性、累积密度函数或功率谱　的归一化来补偿环境不匹配产生的影响。该文主要对目前主流的归一化方法进行介绍，其中包括倒谱矩归一化方　法、直方图均衡化方法以及调频谱归一化方法等。　关键词：鲁棒语音识别；倒谱均值归一化；高阶倒谱矩归一化；直方图均衡化；倒谱形状归一化　中图分类号：ＴＰ３９１　文献标识码：Ａ　Ｓｕｒｖｅｙ　ｏｆ　Ｆｅａｔｕｒｅ　Ｎｏｒｍａｌｉｚａｔｉｏｎ　Ｔｅｃｈｎｉｑｕｅｓ　ｆｏｒ　Ｒｏｂｕｓｔ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　ＸＩＡＯ　Ｙｕｎｐｅｎｇ，ＹＥ　Ｗｅｉｐｉｎｇ　（Ｃｏｌｌｅｇｅ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｂｅｉｊｉｎｇ　Ｎｏｒｍａｌ　Ｕｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ　１００８７５，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　ｃｕｒｒｅｎｔ　ａｕｔｏｍａｔｉｃ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ（ＡＳＲ）ｓｙｓｔｅｍｓ　ｏｆｔｅｎ　ｄｅｔｅｒｉｏｒａｔｅｓ　ｒａｄｉｃａｌｌｙ　ｗｈｅｎ　ｔｈｅ　ｉｎｐｕｔ　ｓｐｅｅｃｈ　ｉｓ　ｃｏｒｒｕｐｔｅｄ　ｂｙ　ｖａｒｉｏｕｓ　ｋｉｎｄｓ　ｏｆ　ｎｏｉｓｅ　ｓｏｕｒｃｅｓ．Ｓｕｃｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｄｅｇｒａｄａｔｉｏｎ　ｉｓ　ｍａｉｎｌｙ　ｃａｕｓｅｄ　ｂｙ　ｍｉｓｍａｔｃｈ　ｂｅｔｗｅｅｎ　ｔｈｅ　ｔｒａｉｎｉｎｇ　ａｎｄ　ｒｅｃｏｇｎｉｔｉｏｎ　ｅｎｖｉｒｏｎｍｅｎｔｓ．Ｑｕｉｔｅ　ａ　ｆｅｗ　ｔｅｃｈｎｉｑｕｅｓ　ｈａｖｅ　ｂｅｅｎ　ｐｒｏｐｏｓｅｄ　ｔｏ　ｒｅｄｕｃｅ　ｔｈｉｓ　ｍｉｓｍａｔｃｈ　ｏｖｅｒ　ｔｈｅ　ｐａｓｔ　ｓｅｖｅｒａｌ　ｙｅａｒｓ．Ｓｏｍｅ　ｏｆ　ｔｈｅ　ｔｅｃｈｎｉｑｕｅｓ，ｌｉｋｅ　ｆｅａｔｕｒｅ—ｂａｓｅｄ　ｎｏｒｍａｌｉｚａｔｉｏｎ，ａｒｅ　ｇｅｎｅｒａｌｌｙ　ｓｉｍｐｌｅ　ｙｅｔ　ｐｏｗｅｒｆｕｌ　ｔｏ　ｐｒｏｖｉｄｅ　ｒｏｂｕｓｔｎｅｓｓ　ａｇａｉｎｓｔ　ｓｅｖｅｒａｌ　ｆｏｒｍｓ　ｏｆ　ｓｉｇｎａｌ　ｄｅｇｒａｄａｔｉｏｎ．Ｓｏ　ｎｏｒｍａｌｉｚａｔｉｏｎ　ｓｔｒａｔｅｇｉｅｓ　ａｒｅ　ｏｆｔｅｎ　ｃｈｏｓｅｎ　ａｓ　ｔｈｅ　ｐｒｅｆｅｒｒｅｄ　ｍｅｔｈｏｄ　ｆｏｒ　ｓｐｅｅｃｈ　ｒｏｂｕｓｔｎｅｓｓ．Ｔｈｅｙ　ａｒｅ　ｅｍｐｌｏｙｅｄ　ｂｙ　ｎｏｒｍａｌｉｚｉｎｇ　ｔｈｅ　ｓｔａｔｉｓｔｉｃａｌ　ｐｒｏｐ—　ｅｒｔｉｅｓ（ｍｏｍｅｎｔ）。ｃｕｍｕｌａｔｉｖｅ　ｄｅｎｓｉｔｙ　ｆｕｎｃｔｉｏｎ　ｏｒ　ｐｏｗｅｒ　ｓｐｅｃｔｒａ１　ｄｅｎｓｉｔｙ（ＰＳＤ）ｏｆ　ｆｅａｔｕｒｅ　ｖｅｃｔｏｒ　ｔｏ　ｃｏｍｐｅｎｓａｔｅ　ｆｏｒ　ｔｈｅ　ｅｆｆｅｃｔｓ　ｏｆ　ｅｎｖｉｒｏｎｍｅｎｔａｌ　ｍｉｓｍａｔｃｈ．Ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ｍｏｓｔ　ｃｏｍｍｏｎｌｙ　ｕｓｅｄ　ｆｅａｔｕｒｅ　ｎｏｒｍａｌｉｚａｔｉｏｎ　ｍｅｔｈｏｄｓ　ａｒｅ　ｒｅ—　ｖｉｅｗｅｄ，ｓｕｃｈ　ａｓ　ｃｅｐｓｔｒａｌ　ｍｏｍｅｎｔ　ｎｏｒｍａｌｉｚａｔｉｏｎ，ｈｉｓｔｏｇｒａｍ　ｅｑｕａｌｉｚａｔｉｏｎ　ｔｅｃｈｎｉｑｕｅ（ＨＥＱ）ａｎｄ　Ｍｏｄｕｌａｔｉｏｎ　Ｓｐｅｃｔｒｕｍ　Ｎｏｒｍａｌｉｚａｔｉｏｎ　ｅｔｃ．　Ｋｅｙ　ｗｏｒｄｓ：ｒｏｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ；ｃｅｐｓｔｒａｌ　ｍｅａｎ　ｎｏｒｍａｌｉｚａｔｉｏｎ；ｈｉｇｈ　ｏｒｄｅｒ　ｃｅｐｓｔｒａｌ　ｍｏｍｅｎｔ　ｎｏｒｍａｌｉｚａｔｉｏｎ；ｈｉｓ—　ｔｏｇｒａｍ　ｅｑｕａｌｉｚａｔｉｏｎ；ｃｅｐｓｔｒａｌ　ｓｈａｐｅ　ｎｏｒｍａｌｉｚａｔｉｏｎ　别技术的应用范围。正因如此，鲁棒语音识别技术　引言　目前，语音识别技术已经取得了很大的成就，然　而绝大多数识别系统仍然局限于在安静的环境下使　用。在实际环境中，往往会因为环境中复杂因素的　影响，造成训练环境和测试环境存在不匹配现象，使　得识别系统性能大幅度下降，极大地限制了语音识　收稿日期：２００９　０９　０８定稿日期：２Ｏ１Ｏ—Ｏ卜Ｏ４　长久以来一直被视为重要的研究领域，并取得了初　步性地进展。其主要是对语音信号本身、语音特征　参数或模型参数做适当的处理与调整，以减少噪声　干扰的影响，降低训练环境与测试环境不匹配的情　形或提升语音信号特征参数本身的鲁棒性，进而提　高系统的性能。　根据噪声对语音频谱的干扰方式不同可以把噪　作者简介：肖云鹏（１９８６　）女，硕十生，主要研究方向为鲁棒语音识别和普通话发音自动评估和检错；叶卫平（１９５７一）　女，硕士，副教授，主要研究方向为语音处理和图像处理等。　５期　肖云鹏等：基于特征参数归一化的鲁棒语音识别方法综述　１Ｏ７　声分为加性噪声和乘性噪声两类：　（一）加性噪声（Ａｄｄｉｔｉｖｅ　Ｎｏｉｓｅ）　加性噪声为录制语音时，原始语音与背景噪声　音等等。　（二）卷积性噪声（Ｃｏｎｖｏｌｕｔｉｏｎ　Ｎｏｉｓｅ）　卷极性噪声通常是指语音信号在由不同通道传　输时所产生的通道效应（Ｃｈａｎｎｅｌ　Ｅｆｆｅｃｔ），例如电话　以线性相加的方式同时被收录进去，即所采集到的　语音信号为纯净的语音信号和噪声的和。这种噪声　在日常生活中很容易接触到，例如实际环境中的风　声雨声、办公室里的打印机的工作声、计算机中的磁　盘驱动器和风扇等设备的声音以及周围说话人的声　线路效应、麦克风通道效应等等。其与语音在频谱　是相乘的关系，在时域上是卷积关系，故称卷积性噪　声。加性噪声和卷极性噪声对语音信号的干扰过程　示意图如图１所示。　一　一干　『７ｆ，１　，７（，）　带　号　）×　。　）　近年来，越来越多的学者致力于鲁棒语音识别　的研究，许多鲁棒语音识别技术成功地被提出，这些　技术的目标都是相同的，主要是提高语音的鲁棒性，　进而提高识别率，使语音识别技术能够更广泛地应　用到日常生活中的各个方面。依据方法本质的不同　大体可分为三类解决方法＿ｌ　：　ＨＥＱ）Ｉｓ－９］等等。　（三）声学模型自适应技术（Ａｃｏｕｓｔｉｃ　Ｍｏｄｅｌ　Ａ—　ｄａｐｔｉｏｎ　Ｔｅｃｈｎｉｑｕｅｓ）　由少量的自适应语料调整由干净语音或不同环　境下语料训练而成的声学模型中的概率分布参数，　如均值向量和混合高斯模型的协方差矩阵，希望调　整后的模型可以适用于测试语料的环境，以降低环　境不匹配的影响。在实际应用中，由于它直接调整　（一）语音增强技术（Ｓｐｅｅｃｈ　Ｅｎｈａｎｃｅｍｅｎｔ　Ｔｅｃｈｎｉｑｕｅｓ）　置于识别器前端，消除测试语音中噪声的影响，　语音模型参数来降低环境噪声产生的不确定度，常　常产生较好的效果。常见的技术有最大后验概率法　（Ｍａｘｉｍｕｍ　ａ　Ｐｏｓｔｅｒｉｏｒ，ＭＡＰ）＿１　，最大相似度线性　回归法（Ｍａｘｉｍｕｍ　ｌｉｋｅｌｉｈｏｏｄ　Ｌｉｎｅｒ　Ｒｅｇｒｅｓｓｉｏｎ，　提高语音信号本身的质量。所有操作基本都是针对　原始语音波形而进行的，与后续的特征提取及模型　匹配没有直接关系。通常假设语音信号与噪声信号　二者在统计上是不相关的，力求能由带噪语音信号　中重建出干净语音信号。常见的技术有谱减法　（Ｓｐｅｃｔｒａｌ　Ｓｕｂｓｔｒａｃｔｉｏｎ）　、卡尔曼滤波器（Ｋａｌｍａｎ　Ｆｉｌｔｅｒ）Ｅａ］、信号子空间方法（Ｓｉｇｎａｌ　Ｓｕｂｓｐａｃｅ　Ａｐ　ｐｒｏａｃｈ）　等。　ＭＬＬＲ）［　等。　上述三类方法中，第一类和第二类方法属于语　音识别系统前端处理环节。其中，大多数语音增强　算法是以提高输入信号的信噪比为目的，使受到噪　声干扰的语音听起来会比较接近无噪环境下的语　（二）鲁棒性语音特征（Ｒｏｂｕｓｔ　Ｓｐｅｅｃｈ　Ｆｅａ—　ｔｕｒｅ）　音，往往在提高语音识别系统的识别率上效果并不　显著。第三类方法属于后端处理环节，目的是让识　别器中的隐马尔科夫模型（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ，　寻找稳健的耐噪声的语音特征参数和对从含噪　语音中提取的特征进行处理。其处理的基本思想就　是去除由噪声引起的带噪语音特征与纯净语音特征　ＨＭＭ）更适用于实际环境。这类方法的优点是需　要少量的自适应语料就能对声学模型进行调试；缺　之间的偏差，主要通过对语音特征的一些统计特性　（如均值、方差）或分布归一化来实现。常见的技术　有倒频谱均值消去法（Ｃｅｐｓｔｒａｌ　Ｍｅａｎ　Ｓｕｂｔｒａｃｔｉｏｎ，　ＣＭＳ）ｌ６］、倒频谱归一化法（Ｃｅｐｓｔｒａｌ　Ｎｏｒｍａｌｉｚａｔｉｏｎ，　ＣＮ）＿７］以及直方图均衡化（Ｈｉｓｔｏｇｒａｍ　Ｅｑｕａｌｉｚａｔｉｏｎ，　点就是在进行自适应调试时，计算量很大。本文将　讨论的基于特征参数归一化的鲁棒语音识别方法属　于第二类鲁棒性语音特征，其简单和实用性，是声学　模型自适应技术和大部分语音增强技术无法比拟　的，所以常常被作为鲁棒语音识别的首选方法口　。　１Ｏ８　中文信息学报　性在一定程度上也能反映噪声对倒频谱分布的影响　２语音归一化的依据　２．１噪声对语音统计特性的影响　趋势。　图２为在几种不同信噪比的背景噪声污染下的　第一维倒频谱分布。统计语料内容来自１６名男女　录制的１　２３２句话。可以看上，倒频谱特征的全局　的均值和方差均有所偏移。其中，均值随着信噪比　的降低而提高，而方差随着分布的坡度（Ｓｌｏｐｅ）的增　加而降低。此外，偏度也有所移动，在高信噪比表现　出来的双峰（Ｂｉｍｏｄａ１）特性随着信噪比的降低逐渐　显示出单峰特性。　Ｔ　一语音的统计特性（如均值，方差）能提供许多由　噪声引起的语音倒频谱偏差的相关信息。理论上　讲，在数学研究中，只有前四阶矩（Ｍｏｍｅｎｔ）具有明　确的物理含义，分别为均值、方差、偏度（Ｓｋｅｗｎｅｓｓ）　和陡峭度（Ｋｕｒｔｏｓｉｓ）。　均值　定义如下：　Ｆ，ＥＸ］＝＝＝　１∑ｘＥｋ３　ｋ＝１　（１）　其中，Ｘ（　）是倒频谱系数序列，Ｔ是特征序列　的长度。　方差是二阶中心矩：　一ＥＥ（Ｘ—ＥＥＸ］）。］一ＥＥｘ。］一Ｅ［Ｘ］　（２）　高阶矩可通过分布的均值来得到。Ｎ阶中心　距（Ｃｅｎｔｒａｌ　Ｍｏｍｅｎｔｓ）定义如下：　ＭＮ—ＥＥ（ｚ一　）　］　（３）　图２加入不同信噪比的噪声后第一维倒频谱的分布　偏度和陡峭度分别为三阶中心矩Ｍ。和四阶中　心矩Ｍ４，它们分别描述了倒频谱分布的对称性和相　对平坦度。　图３为纯净语音、噪声和带噪语音（信噪比为　加性噪声对语音统计特性的影响并非是纯净语　音和噪声语音统计量的简单相加或变换，但统计特　ＣＬＥＡＮ　ＳＰＥＥＣＨ　ＣＥＦ８ＴＲＡ　１０ｄＢ）的倒频谱的前四个统计特性。第一行描述了　除了０阶倒频谱以外的１２阶倒频谱系数的均值；下　ＭＥＡＮ　图３　纯净语音、噪声和带噪语音的ＭＦＣＣ一０的统计属性　５期　肖云鹏等：基于特征参数归一化的鲁棒语音识别方法综述　１Ｏ９　面三行描述了全部１３阶倒频谱系数的方差、偏度及　陡峭度。可以看出，在加性噪声的影响下，语音信号　倒频谱的方差和其他统计属性均有所降低，这就导　致了识别过程中的环境不匹配，从而造成识别率低　下。可以假设，如果对倒频谱的这些特性进行归一　化，那么环境不匹配程度就可以被降低或补偿。　２．２标准的用于鲁棒语音识别的语料库ＡＵＲＯＲＡ　为了评价在噪声环境下各种鲁棒语音识别算法　的性能，需要建立一个标准的带噪语音数据库。一　是可以比较各种鲁棒语音识别算法的相对有效性；　二是可以验证算法的合理性以及允许他人有条件评　估你的算法。ＡＵＲＯＲＡ语料库就是为此目的而发　行的语料库，其中最常用语料库的是ＡＵＲＯＲＡ　２．０　和３．０。ＡＵＲＯＲＡ　２．０是在ＴＩ—ＤＩＧＩＴ语料库基础　上，内容为美国成年男女录制的一系列连续的英文　数字串，人工加上不同加性噪声和通道噪声的干扰。　ＡＵＲＯＲＡ　３．０是欧洲语言车载语音数据库　（ＳｐｅｅｃｈＤａｔａＣａｒ）的一个子集，是在实际车载环境下　录制的数字串语音数据文件，包含四种欧洲语言。　此外，ＡＵＲＯＲＡ－Ｔ作组成员还为噪声环境下语音　识别系统的评估的实验框架提供了标准设置，包括　前端预处理、特征提取、训练和识别过程涉及到的主　要参数都提供了参考数据，并在此基础上给出了未　使用任何鲁棒技术的参考性的识别结果，这为各种　鲁棒语音识别算法的评估和比较提供了必要条　件　。本文所提到的算法都在ＡＵＲＯＲＡ数据库　上验证了有效性。　３归一化方法介绍　语音特征的统计特性受噪声环境的影响，归一　化方法应用于语音识别系统当中来补偿环境噪声不　匹配的影响，进而来提高系统的识别率。大多数归　一化方法都应用在倒频谱域，作为语音特征的后加　工。其中，梅尔倒谱系数（Ｍｅｌ—Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒａｌ　Ｃｏｅｆｆｉｃｉｅｎｔｓ）为大家接受并认同的一种特征，各种各　样的鲁棒语音技术都是基于这种特征发展而来的。　它的优点是不需要任何噪声环境的先验知识和自适　应方法，实现方法简单，而且效果比较理想。本节对　各种归一化算法进行介绍。　３．１倒频谱矩归一化（Ｃｅｐｓｔｒａｌ　Ｍｏｍｅｎｔ　Ｎｏｒｍａｌｉ—　ｚａｔｉｏｎ）　倒谱均值归一化法（Ｃｅｐｓｔｒａｌ　Ｍｅａｎ　Ｎｏｒｍａｌｉｚａ—　ｔｉｏｎ，ＣＭＮ）［¨］，倒谱方差归一化（Ｃｅｐｓｔｒａｌ　Ｖａｒｉａｎｃｅ　Ｎｏｒｍａｌｉｚａｔｉｏｎ，ＣＶＮ）［　以及高阶倒谱矩归一化　（Ｈｉｇｈｅｒ　Ｏｒｄｅｒ　Ｃｅｐｓｔｒａｌ　Ｍｏｍｅｎｔ　Ｎｏｒｍａｌｉｚａｔｉｏｎ，　ＨＯＣＭＮ）［１３，１７］都属于对倒谱矩的归正方法，目的　是使带噪语音特征参数的概率密度函数（Ｐｒｏｂａｂｉｌｉ—　ｔｙ　Ｄｅｎｓｉｔｙ　Ｆｕｎｃｔｉｏｎ，ＰＤＦ）更接近纯净语音的概率　密度函数，以减少测试语料和训练语料环境的不匹　配度。其中，ＣＭＮ是对一阶矩做归一化，ＣＶＮ是对　ＣＭＮ的补充，在ＣＭＮ的基础上再对二阶矩进行归　一化。这两种方法都是常用的方法，ＣＭＮ在倒谱　域去中除了直流分量，这些直流分量包含了大部分　信道失真，而ＣＶＮ对方差的进一步归一化进一步　减少了带噪语音信号和纯净语音信号的概率密度函　数的差异。而ＨＯＣＭＮ是对高阶矩（大于３）进行　归一化，取得了更好的效果。下面采取统一的公式　对上述方法进行描述口　”ｊ。　倒谱序列Ｘ（ｎ）的Ｎ阶矩定义如下：　Ｅ［ｘ　（ｎ）］　１∑Ｘ　（是）　（４）　其中，Ｘ（　）是倒频谱系数序列，丁是特征序列　的长度，该序列的Ｎ阶距就是对Ｘ　（　）取期望值。　语音信号的倒谱系数的概率密度函数通常被看　作准高斯分布（Ｑｕａｓｉ—Ｇａｕｓｓｉａｎ　Ｄｉｓｔｒｉｂｕｔｉｏｎ）。在　这个前提下，其倒谱特征的奇次阶距（Ｏｄｄ　Ｏｒｄｅｒ　Ｍｏｍｅｎｔｓ）应为０，偶次阶距（Ｅｖｅｎ　Ｏｒｄｅｒ　Ｍｏｍｅｎｔｓ）　应为某一特定的常数ｌ１川。Ｎ阶距归一化的目的是：　ＥＩｘ　一｛　㈣　其中，Ｘ㈨（　）是Ｘ（　）的Ｎ阶距归一化后对应　的序列；ＭＮ是标准正态高斯分布Ｎ（０，１）的Ｎ阶　矩。　有了上述的表示式，可以将上文提到的ＣＭＮ　和Ｃ　Ｎ的定义如下：　Ｘ　ｓ（　）一Ｘ［１］（　）一Ｘ（　）一ＥＥＸ（ｎ）］（６）　ｘ　（　）一Ｘ　一　兰　√Ｅ［Ｘｌ　］（ｎ）］；　　一Ｘ（ｎ）－—－Ｅ—［Ｘ（ｎ）］　（７）　其中，　Ｌ，Ｍ是Ｘ（　）的Ｌ和Ｊｉｖ阶距同时被归一　化后对应的序列。所以，ＣＶＮ总是和ＣＭＮ结合一　起使用，所以也称为均值方差归一化（Ｍｅａｎ　ａｎｄ　Ｖａｒｉａｎｅｅ　Ｎｏｒｍａｌｉｚａｔｉｏｎ，ＭＶＮ）。　偶次Ｎ的ＨＯＣＭＮ总是和一阶矩归一化同时　存在的，并满足如下关系式：　１１Ｏ　中文信息学报　ＸＥｌ～］（　）Ａ　ｂＸ　Ｅ１］（　）一　Ｘ（　（靠）　，（８）　ＨＯＣＭＮＩＩ，其中，ｂ为比例因子。　￡．／ｖ］　Ｅ［ｘ　州（　）］　ｂＮｚＥｘ￣ｊ（７ｚ）］一ＭＮ　（９）　Ｉｌ　ＨＯＣ（ＭＮ［　】　Ｌ：ｏｄｄ）　Ｊ　ｌ（Ｎ：ｅｖｅｎ）ｌ　ＨＵｃＭ　ＮｆｌＮ］Ｌ　可得，６一［　］　１，不同的Ｎ对应不同　图５　奇次阶和偶次阶ＨＯＣＭＮ的级联系统　的比例因子ｂ。　如果Ｎ的值比较大，ｂ可以通过下式来近似　６一　而　可以看出，只要给定不同的Ｎ就可以对序列　Ｘ（　）的第Ｎ阶矩进行归一化，换句话说，对于不同　的Ｎ，我们就能得到不同的比例因子ｂ。　奇次的ＨＯＣＭＮ是由三阶矩倒谱矩归一化　胡　扩展而来的，它也是在一阶矩归一化的基础上进行　高阶归正的。其满足下式：　Ｘ［１，～］　ａＸ［Ｎ１－１　，Ｎ１］（　）＋ｘ［１，Ｎ　１］（　）－ｔ－Ｃ（１１）　上式中，　Ｃ—ｎＥ［Ｘ［Ｎ１－，ＮＩ一１］（　）］　一ａＭ　１　（１２）　Ｅ［Ｘ　，Ｎ３（　）］　一Ｅ｛［ｎ（Ｘ［Ｎ１　１　１］（　）　ＭＮ　１）＋Ｘ［１　１］］Ｎ｝　（１３）　上式展开后，当ａ很小时，我们可以把高次项去　掉，仅保留最后两项，这样ａ就可以近似表示成为：　。…≈　　２　（Ｎ　１　Ｅ［ｘ　，）——～ｉ．１　］（ｎ）］　Ｘ蕊Ｎ　１　（１４）　由于公式仅是一个近似计算，存在一定误差，递　归算法如图４所示能得到更精确的结果。　Ｍ月、　１『　　ＨＯＣＭＮ［ｔ．Ｎ－Ｉ】　１．　～Ｉ　１】（　）　一ｌ～　Ｉａｔｅ“ｌ　Ｊ　ＨＯＣＭＮ［Ｎ＿ｑ　ｌ＋Ⅳ＿ｌ　ｎ　一１１（　ｒ　｛７１　Ｎ　Ｉ　）一ａ＾　一ｉ　Ｊ　ｌ　…ｌｆ月、　图４奇次阶ＨＯＣＭＮ的流程　可以看出，在对高阶矩进行归一化前均会先进　行ＣＭＮ，也就是说，经过ＨＯＣＭＮ作用后的特征参　数各维的均为都为０。对于奇次阶距和偶次阶距都　进行归一化的ＨＯＭＶＮ可以通过一个串联系统来　实现，先对特征系数进行奇次阶距的归正，再进行偶　次阶距的归正，如图５所示。　ｃ．Ｗ．Ｈｓｕ　ａｎｄ　Ｉ　．ｓ．Ｌｅｅ提出使用ＨＯＣＭＮ能　消除测试语料和训练语料之间残余的不匹配，效果　优于ＣＭＮ和ＣＶＮ，并指出最优的倒谱矩组合模式　为ＨＯＣＭＮ［１＇）Ｉｌ。。］　”　。但也可以看出，随着Ｌ和Ｎ　的增长，算法复杂度越高，收敛速度越来越慢。　３．２　直方图均衡化法（Ｈｉｓｔｏｇｒａｍ　Ｅｑｕａｌｉｚａｔｉｏｎ，　ＨＥＱ）　ＣＭＮ和ＣＶＮ在一定程度上补偿了信道失真　和加性噪声产生的负面影响，但是他们线性的本质　使其不能很好地解决各种环境噪声产生的非线性失　真。解决办法除了上面所述的对高阶矩进行进一步　归一化以外，直方图均衡化＿８　９］也是一种有效的方　法。　直方图均衡化作为一种特征补偿技术起初是在　数字图像处理中被提出的［８］，是一种采用压缩原始　图像中像素数较少的部分，拉伸像素数较多的部　分，从而使整个图像的对比度增强、图像变清晰的　方法，在图像处理领域得以广泛的应用。近几年来　不少学者将其成功地应用到语音处理上¨２　。比　如，Ｔｏｒｒｅ　Ｌ胡等将其应用到语音识别上以提高系统　鲁棒性。实际上，直方图均衡化就是一个样本的非　线性变换，目的是使得变换后的样本服从我们所需　要的参考分布。直方图均衡化方法是一种非线性的　补偿变换，其不仅仅对特征分布的一阶和二阶矩进　行归一化，而是试图匹配训练和测试语料特征参数　的分布，即对概率分布的所有阶矩都进行所有归一　化，使得训练和测试的语音特征之间的不匹配程度　降低，从而提高系统的识别性能。　３．２．１直方图均衡化的基本原理　ＨＥＱ的假设前提是训练语料的语音特征参数　的统计分布和训练语料特征参数的统计分布（也可　称为参考分布）是一致的。由于语音特征矢量是多　维的，为了简化模型，通常假定特征矢量各维分量　相互独立，由此我们可以在特征的每一维分量上独　立进行直方图的非线性变换。假设　为测试语句　语音特征向量的某一维特征参数，其概率密度函数　（Ｐｒｏｂａｂｉｌｉｔｙ　Ｄｅｎｓｉｔｙ　Ｆｕｎｃｔｉｏｎ）为Ｐ　（　），参考概　率密度函数为Ｐ　。　（　），变换后的矢量为Ｙ，其服从　５期　肖云鹏等：基于特征参数归一化的鲁棒语音识别方法综述　参考概率密度函数Ｐ　（．ｚ），变换记为Ｆ（　）。直方　图变换可以看成将原变量的直方图变换到参考的直　方图，以达到将原变量变换到目标变量的过程。　ＨＥＱ原理图见图６。　ｆ　…“　。…　　ＩＩ．０　Ｃ７　）　、＼　ｉ＼　３ＤＦ　Ｃｍ，　）　一一一一　｛ＣＩ　１．０　一　＼　图６　ＨＥＱ的基本原理　根据直方图的定义，经变换后的小面积元对应　相等，即　Ｐ　（　）ｄｙ—Ｐ　（ｚ）ｄｘ　（１５）　设Ｆ　（　）为Ｆ（　）的反函数，若上述关系式以累　积概率密度函数（Ｃｕｍｕｌａｔｉｖｅ　Ｐｒｏｂａｂｉｌｉｔｙ　Ｆｕｎｃｔｉｏｎ）　表示出来，可得到测试语句累积密度函数Ｃ　（ｚ）和　训练语料密度函数Ｃ　（　）之间的关系为：　Ｃｌ　（　）一Ｉ　Ｐｎ　（　）ｄｘ　Ｊ一　一ｌ一　　Ｐ　（Ｆ＿ｌ（Ｙ，））（　（　））　，　一　ｕ）　一　ＩＰ　，　（　）　　Ｉ一　）　（１６）　一ＣＴｒａ　（　）　从上式可得到将原样本空间变换到参考分布空　间的变换函数为：　Ｆ（　）一（　（Ｃ１　（ｚ））　（１７）　其中，Ｃ　为Ｃ　的反函数。　值得注意的是，在实际应用中语音特征参数为　一有限集合，所以无法非常准确估算实际的累积分　布函数，通常使用累积直方图（Ｃｕｍｕｌａｔｉｖｅ　Ｈｉｓｔｏ—　ｇｒａｍ）去近似累积分布函数。　３．２．２查表式直方图均衡化法（Ｔａｂｌｅ—Ｂａｓｅｄ　Ｈｉｓ—　ｔｏｇｒａｍ　Ｅｑｕａｌｉｚａｔｉｏｎ，ＴＨＥＱ）　ＴＨＥＱ口　是一种直方图均衡化的一种具体实　现方法。其对于所有训练语料而言，将语音特征向　量的每一维分量统计出一个累积直方图。然后以表　格方式将累积直方图所有信息进行存储，用来当做　转换的参考分布。对于测试语料语音特征向量的每　一维也采用同样的方法统计ｍ累积直方图，在进行　均衡化的过程中，进行查表（Ｔａｂｌｅ—Ｌｏｏｋｕｐ）转换，　每个区间内特征值用先前建立好参考分布的特征值　逐一取代。　不难看出，ＴＨＥＱ需要将庞大的表格信息加载　到内存中才能进行转换匹配动作，而且若要有良好　的补偿效果，表格所记录的点数不能太少，但当表格　记录点数增加时，需耗费更大量的内存空间与进行　查表转换的处理器运算时间。　３．２．３　分位数直方图均衡化法（Ｑｕａｎｔｉｌｅ—ｂａｓｅｄ　Ｈｉｓｔｏｇｒａｍ　Ｅｑｕａｌｉｚａｔｉｏｎ，ＱＨＥＱ）　ＱＨＥＱ是一种参数型的直方图均衡化方　法［２　５－２６］，其对于语音特征向量的每一维利用转换函　数Ｈ（　）进行均衡化，欲使转换后的语音特征参数　的统计分布能够和参考分布相似。数学关系式表示　如下：　Ｈ　一Ｑ　｛ａ（（麦）　＋ｃ　一　（麦））｝　（１８）　其中，　为待转换的特征参数；Ｑ　为整个语句　中该维特征参数中的最大值；ａ和），为转换因子，可　通过下式求得：　／Ｋ１　、　——｛口，ｙ｝一ａｒｇ　｛　，ｙａｒ　ｉｎ（＼　　：ｌ　（Ｈ（Ｑ　）一Ｑ　）　）（１９）／　　其中Ｋ为分位数的个数通常设置为４，就是取　四分位数¨２　；　为待转换语句中第忌个分位数对　应的特征值；Ｑ　ｔｒａ　为训练语料参考分布中的第　个　分位数。　就是说在对于每一句话进行均衡化前，需要进　行分位数校正，以求得最佳的参数ａ和），，此校正是　以最小均方误差为准则进行的。　ＱＨＥＱ虽然转换过程不像ＴＨＥＱ需通过大量　的查表动作，只需使用少量的参数即可进行等化动　作，但是对每一句待转换的语句在进行转换动作　前，必须利用格式搜寻以在线实时运算求取参数，　因此所需的处理器运算时间也是相当可观的。　传统的两种直方图均衡化方法虽然能有效补偿　噪声产生的非线性失真，但无论是传统的查表直方　图均衡化法还是分位数直方图均衡化法，在实现的　过程中，需要耗费大量的存储空间或是处理器运算　时间。为了解决这个问题，Ｓｈｉｈ—Ｈｓｉａｎｇ　Ｌｉｎ等　。　提　出了用数据拟合的概念求累积分布函数的反函数，　只需使用少量的多项式系数与多项式函数，便能迅　速地将测试语料语音特征向量每～维德统计分布转　换至先前已从训练语句中定义好的参考分布，不能　１１２　中文信息学报　拥有和直方图均衡化相同的效果。　．　定义如下：　３．３倒频谱形状归一化法（Ｃｅｓｐｔｒａｌ　Ｓｈａｐｅ　Ｎｏｒｍａ１．　ｉｚａｔｉｏｎ）　ｍ，一ＥＥ『ｘ　Ｉ　］一ｌ　Ｉ　Ｉ　Ｐ　（ｚ　Ｉ　Ｖｏ）ｄｘ　（２５）　前面介绍的归一化方法使识别系统在各种噪声　其中，Ｅ［・］表示取均值操作。将公式（２Ｏ）带　入公式（２５）可得到：　一环境下性能有所提升，但都存在各自的缺陷。比如　直方图均衡化ＨＥＱ需要大量的训练语料才能估计　出比较精确的特征分布，而高阶倒频谱矩归一化　ＨＯＣＭＮ的奇次阶距很难准确地估算出来。中国　ＥＥ　ｌ　Ｘ【　］一Ａ　（　。）￡　舌　。＞０　（２６）　科技大学王仁华等提出了倒频谱形状归一化法　（Ｃｅｓｐｔｒａｌ　Ｓｈａｐｅ　Ｎｏｒｍａｌｉｚａｔｉｏｎ，ＣＳＮ）　］，其在一定　程度上解决了这两种方法存在的问题，同时能达到　很好的鲁棒效果。它仅需要估算出一个适当的形状　因子（Ｓｈａｐｅ　Ｆａｃｔｏｒ），而形状因子能简单而准确地　估算出来。此外，与传统的归一化方法相比，ＣＳＮ　有更明确的物理意义和更强的正对性。　ＣＳＮ使用广义高斯密度函数（Ｇｅｎｅｒａｌｉｚｅｄ　Ｇａｕｓｓｉａｎ　Ｄｅｎｓｉｔｙ，ＧＧＤ）＿２　。。　来描述噪声环境下每　一维语音特征分布，ＧＧＤ的概率密度函数ＰＤＦ定　义如下：　＝＝＝　ｅｘｐ（一［Ａ（　）　（２Ｏ）　其中　）一√　（２１）　这里，ｒ（・）为Ｇａｍｍａ函数。　ｒ（　）：：＝ｆ。。　ｚ￣ｌ　ｅ　ｘｄ　，ｚ＞０　（２２）　Ｊ　０　其中，参数　描述了指数衰减率。　ＣＳＮ算法描述如下：　步骤１：首先　是）一　（２３）　这里，ｘ（ｎ，是）为第　帧的第是维特征；　（ｋ）和　（愚）为当前语料第ｋ维特征序列的均值和方差。　步骤２：利用指数因子来实现倒频谱形状归一　化：　ｚ（ｎ，忌）一［　（　，忌）］　”　（２４）　其中，ａ（ｋ）表示第ｋ维特征对应的形状因子　（Ｓｈａｐｅ　Ｆａｃｔｏｒ）。上述公式的目的就是使处理过的　特征满足参考分布（Ｒｅｆｅｒｅｎｃｅ　Ｄｉｓｔｒｉｂｕｔｉｏｎ）。ＣＳＮ　采用了矩匹配估计（Ｍｏｍｅｎｔ　Ｍａｔｃｈｉｎｇ　Ｅｓｔｉｍａｔｏｒ）　方法［２　。　广义高斯分布的ｒ阶中心距（Ｃｅｎｔｒａｌ　Ｍｏｍｅｎｔ）　广义高斯比例函数（ｔｈｅ　Ｇｅｎｅｒａｌｉｚｅｄ　Ｇａｕｓｓｉａｎ　ｒａｔｉｏ　Ｆｕｎｃｔｉｏｎ）如下：　ｏ，ｒ　一　一　ｍ：　１　‘【ｒ十１）／　）　（２７）　基于上述公式，定义如下方程：　Ｆ（ａ（是））一　（口（愚）＇ｒ）一Ｕ（（　２ｒ＋　１）　／ｖ０）　Ｆ（１／Ｖｏ）　—一０　（２８）　这里Ｍ（ａ（志），ｒ）可以用如下公式估计：　（　），ｒ）一　争　１∑ｌ　ｚ（ｎ，是）ｆ：　。ｒ　（２９）　（　，ｉ　ｒ）‘　其中，Ｎ为帧数。　显然，ａ（忌）是方程（２５）的根。尽管方程没有闭　合解，但Ｆ（ａ（愚））是ａ（最）的递增函数，可通过割线法　求得。这里，有两个参数需要设置：形状参数　。和　矩的阶数ｒ。实验表明：　。＝２和ｒ一２就能得到比　较好的实验结果。　此外，文献［２８］给出了以上三种方法在Ａｕｒｏ—　ｒａ２．０和３．０的识别率比较。其中，ＣＳＮ的平均识　别高于ＨＥＱ，ＨＥＱ高于ＨＣＯＭＮ和ＣＭＶＮ。下　面给出在纯净语料训练模型的各种归一化方法的在　语料库Ａｕｒｏｒａ２．０识别率比较，具体参数设置和其　他识别结果参照文献Ｅ２８］。　表１　ＣＳＮ和其他归一化方法在不同测试集下的识别率比较　Ｗｏｒｄ　Ｅｒｒｏｒ　Ｒａｔｅ／　Ｒｅｉａｔｉｖｅ　Ｍｅｔｈｏｄ　ｏｆ　Ｃｌｅａｎ　Ｃｏｎｄｉｔｉｏｎ　Ｔｒａｉｎｉｎｇ　Ｅｒｒｏｒ　Ｒａｔｅ　Ｓｅｔ　Ａ　Ｓｅｔ　Ｂ　Ｓｅｔ　Ｃ　Ａｖｇ　Ｒｅｄｕｃｔｉｏｎ　ＭＶＮ　２９．８２　２９．２３　３３．６３　３Ｏ．３５　ＨＥＱ　２０．１４　１９．１９　１９．５７　１９．６５　３５．３　Ｈ０ＣＭＮ　１９．７５　１８．７６　２Ｏ．８７　１９．５８　３５．５　ＣＳＮ　１９．１３　１８．３５　１９．１６　１８．８２　３８．０　５期　肖云鹏等：基于特征参数归一化的鲁棒语音识别方法综述　１１３　对特征参数概率分布的实验表明，在有噪声影　响的情况下，特征参数通常呈现双峰分布，鉴于此，　中国科技大学王仁华等提出了一种新的基于双高斯　混合模型（Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ，ＧＭＭ）的特征　参数归一化方法口　，以提高语音识别系统的鲁棒　调频谱（Ｍｏｄｕｌａｔｉｏｎ　Ｓｐｅｃｔｒｕｍ）的概念首先是　由Ｈｏｕｔｇａｓｔ和Ｓｔｅｅｎｅｋｅｎ提出的［３引，语音信号的　调频的含义和通信系统中的幅度调制类似。由于语　音信号是宽带信号，往往对其频谱划分为若干个频　带再进行后续处理。每个频带内信号的能量包络称　性。该方法采用更为细致的双高斯模型来表达特征　参数的累积分布函数（ＣＤＦ），并依据估计得到的　ＣＤＦ进行参数变换将训练和识别时的特征参数的　为该带宽的调制信号，这个调制信号的功率频谱密　度函数（ＰＳＤ）就是调频谱。需要强调的是，调频谱　不仅适用于原始语音信号，同样适用于倒频谱系　数。　分布都归正为标准高斯分布，从而提高识别率。在　Ａｕｒｏｒａ　２和Ａｕｒｏｒａ　３数据库上的实验结果表明，基　于双高斯的归一化方法的性能明显好于传统的倒谱　均值归一化（ＣＭＮ）和倒谱均值方差归一化方法　（ＣＭＶＮ），而与非参数化方法一直方图均衡化的性　能相当。　３．４调频谱归一化法（Ｍｏｄｕｌａｔｉｏｎ　Ｓｐｅｃｔｒｕｍ　Ｎｏｒ—　ｍａｌｉｚａｔｉｏｎ）　３．５　时间序列结构归一化法（Ｔｅｍｐｏｒａｌ　Ｓｔｒｕｃｔｕｒｅ　Ｎｏｒｍａｌｉｚａｔｉｏｎ，ＴＳＮ）　新加坡大学李海洲等，提出了一套时间序列滤　波器设计的新方法，称为时间序列结构归一化　法ｌ３　，是调频谱正规化法的一种典型的实现方法。　其此目的在于将语音特征序列的功率谱密度归～　化，使其轮廓逼近于一参考功率频谱密度。基于　ＡＵＲＯＲＡ一２数据库，实验结果表明：当此方法所得　的时间序列滤波器作用于ＣＭＶＮ与ＭＶＡ处理后　的梅尔倒谱特征参数时，在各种噪声环境下所得的　语音识别率都有大幅度改进。　上述介绍的方法是对语音特征的概率分布及统　计特性进行归一化，除此以外，还可以修正语音特征　的功率频谱密度（Ｐｏｗｅｒ　Ｓｐｅｃｔｒａｌ　Ｄｅｎｓｉｔｙ，ＰＳＤ）函　数　。。。　，将其归一化至一参考的ＰＳＤ，以得到新的　语音特征参数，来降低噪声对语音的影响。　Ｎ个特ｔｉｅ序列Ｊ　ｌ　ＴＳＮ具体实现方法如下，可参见图７：　ｌ　对　洹料Ｌ取平均ｒ－Ｊ　—ｒ—］　参考　。函数　Ｎ卜＿．个特征序列Ｉ　预处理　　特征提取墨陶　｝．Ｊ　Ⅳ组滤波器系数ｌＩ　Ｉ　厂——］　特征序列　Ｊｖ个滤波后个　时域滤波　图７　ＴＳＮ原理图　（１）估计每一句训练语料和测试语料的第　维　特征序列的功率频谱密度（ＰＳＤ），分别记作Ｐ　（尼，　）和Ｐ　（七，　）。然后，将训练语料所有句子同一　维的ＰＤＳ作平均，所得即为参考ＰＤＳ。　Ｐ　（是，Ｊ）一Ｅ｛Ｐ　（是，）｝　．　叶变换（ＩＤＦＴ）：　ｈ（ｒ，Ｊ）一ＩＤＦＴ（１　Ｈ（ｋ，Ｊ）１）　Ｗｉｎｄｏｗ）以较少截断效应：　（３２）　（４）对上述滤波器系数乘以汉宁窗（Ｈａｎｎｉｎｇ　（３Ｏ）　ｈ（ｒ，　）一ｈ（ｒ，Ｊ）・叫（ｒ）　（３３）　（２）ＴＮＳ使用滤波器的幅度响应定义如下：　其中：　Ｊ　Ｈ（ｋ，　）』一、／／Ｐ　，（走，Ｊ）／Ｐ　（是，　）　（３１）　（３）进一步求取该滤波器的脉冲响应（Ｉｍｐｕｌｓｅ　（ｒ）一０．５（１一ｃ。ｓ（２丌　｛　）），（３４）　０≤　≤Ｍ一１　Ｒｅｓｐｏｎｓｅ），即对上式的ｌ　Ｈ（是，ｊ）Ｉ进行逆离散傅立　１１４　中文信息学报　２Ｏ１Ｏ年　（５）将滤波器系数总和归一化为１，以达到直流　增益归一化的目的：　ｈ（ｒ，Ｊ）一　旦　～　（３５）　∑ｈ（ｒ　，Ｊ）　ｒ　一０　其中，Ｍ为滤波器长度，式ｈ（ｒ，Ｊ）即为第．　维　特征序列对应的时间序列滤波器的脉冲响应。　ＴＳＮ法对语音特征具有较好的鲁棒化效果，且　执行复杂度极低，但仍有待改进之处，首先ＴＳＮ所　得的初始滤波器系数是参考频率响应的逆函数求　得，然后将这些系数乘上一个汉宁窗以减缓不当高　频成分产生，此求取滤波器的方法未必是最佳化的，　所得滤波器系数的频率响应与参考频率响应之间误　差较大；其次，在ＴＳＮ法中，滤波器系数和被归一化　为１，代表直流增益为一定值，此步骤使归一化的特　征参数的功率频谱密度并不一定接近参考功率频谱　密度，只是轮廓上大致相同；最后，ＴＳＮ是在ＭＶＡ　处理后的基础上再对梅尔倒谱系数进行处理，进而　得到良好的效果，但单独使用改进效果并不明显。　鉴于ＴＳＮ存在的一些问题，国立暨南国际大学　电机工程学系王致程等进而探讨发展出了更精确更　有效的调频谱归一化技术，提出了三种新方法分别　为等波纹时问序列滤波器设计法（Ｅｑｕｉ—Ｒｉｐｐｌｅ　Ｔｅｍｐｏｒａｌ　Ｆｉｌｔｅｒｉｎｇ，ＥＲＴＦ）、最小平方频谱拟合法　（Ｌｅａｓｔ—Ｓｑｕａｒｅｓ　Ｓｐｅｃｔｒｕｍ　Ｆｉｔｔｉｎｇ，ＬＳＳＦ）以及幅度　频谱内插法（Ｍａｇｎｉｔｕｄｅ　Ｓｐｅｃｔｒｕｍ　Ｉｎｔｅｒｐｏｌａｔｉｏｎ，　ＭＳＩ）［３５３，实验结果表明ＥＲＴＦ、ＬＳＳＦ以及ＭＳＩ法　与传统的ＴＳＮ相比在各种不同的噪声环境下识别　率均有明显提升，且并不需要与ＭＶＮ或ＭＶＡ法　结合，也能有效处理梅尔倒谱特征因噪声干扰所造　成的失真。然而当它们与ＭＶＮ或ＭＶＡ法结合　时，也可以得到更加的识别准确度。　４　总结　本文介绍了目前基于语音特征归一化来实现鲁　棒语音识别的主要技术，主要是倒频谱矩归一化法、　直方图均衡化方法、调频谱归一化方法以及它们的　改进算法。这些算法都有各自的优势和待改进的地　方，但总体来讲，它们都能在一定程度上消除或补偿　了噪声带来的环境不匹配，较大幅度地提高识别器　的性能。在实际应用中要根据具体需要，选用不同　的归一化方法。此外，特征归一化技术还可以和一　些后端处理技术相结合，如声学模型自适应技术　（Ｍｏｄｅｌ　Ａｄａｐｔａｔｉｏｎ）　。　和不确定译码（Ｕｎｃｅｒｔａｉｎ—　ｔｙ　Ｄｅｃｏｄｉｎｇ）　。　等，达到更好的补偿效果，进而更　有效地提高识别系统的性能。　参考文献　Ｅｌｉ　Ｙ．Ｆ．Ｇｏｎｇ．Ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ　ｉｎ　ｎｏｉｓｙ　ｅｎｖｉｒｏｎ—　ｍｅｎｔｓ：Ａ　ｓｕｒｖｅｙ［Ｊ］．Ｓｐｅｅｃｈ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ，１９９５，　１６：２６１—２９１．　［２］Ｓ．Ｂｏｌ１．Ｓｕｐｐｒｅｓｓｉｏｎ　ｏｆ　ａｃｏｕｓｔｉｃ　ｎｏｉｓｅ　ｉｎ　ｓｐｅｅｃｈ　ｕｓｉｎｇ　ｓｐｅｃｔｒａｌ　ｓｕｂｔｒａｃｔｉｏｎ［Ｊ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ａｃｏｕｓ—　ｔｉｃｓ，Ｓｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ，１９７９，２７（２）：　１１３—１２０．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎ—　ｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，Ａｃｏｕｓｔｉｃｓ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　［３］　Ｋ．Ｐａｌｉｗａ１　ａｎｄ　Ａ．Ｂａｓｕ．Ａ　ｓｐｅｅｃｈ　ｅｎｈａｎｃｅｍｅｎｔ　ｍｅｔｈ—　ｏｄ　ｂａｓｅｄ　ｏｎ　Ｋａｌｍａｎ　ｆｉｌｔｅｒｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　１　９８７　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａ１　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ．Ａ—　ｃｏｕｓｔｉｃｓ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ．Ｄａｌｌａｓ，Ｔｅｘａｓ，ＵＳＡ，　１９８７：１７７　１８Ｏ．　［４］　Ｙ．Ｅｐｈｒａｉｍ　ａｎｄ　Ｈ．Ｉ　．Ｖａｎ　Ｔｒｅｅｓ．Ａ　ｓｉｇｎａｌ　ｓｕｂｓｐａｃｅ　ａｐｐｒｏａｃｈ　ｆｏｒ　ｓｐｅｅｃｈ　ｅｎｈａｎｃｅｍｅｎｔ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　１９９３　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉ０ｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ。Ａ—　ｃｏｕｓｔｉｃｓ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ．Ｍｉｎｎｅａｐｏｌｉｓ，ＭＮ，　ＵＳＡ，】９９３：３５５—３５８．　Ｅ５］Ｈ．Ｌｅｖ—Ａｒｉ，Ｙ．Ｅｐｈｒａｉｍ．Ｅｘｔｅｎｓｉｏｎ　ｏｆ　ｔｈｅ　ｓｉｇｎａｌ　ｓｕｂｓｐａｃｅ　ｓｐｅｅｃｈ　ｅｎｈａｎｃｅｍｅｎｔ　ａｐｐｒｏａｃｈ　ｔＯ　ｃｏｌｏｒｅｄ　ｎｏｉｓｅ　ＥＪＪ．ＩＥＥＥ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｌｅｔｔｅｒｓ，２００３，１０　（４）：１Ｏ４—１Ｏ６．　Ｅ６］　Ｓ．Ｆｕｒｕｉ．Ｃｅｐｓｔｒａｌ　ａｎａｌｙｓｉｓ　ｔｅｃｈｎｉｑｕｅ　ｆｏｒ　ａｕｔｏｍａｔｉｃ　ｓｐｅａｋｅｒ　ｖｅｒｉｆｉｃａｔｉｏｎ　ＥＪ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ａｃｏｕｓ—　ｔｉｃｓ，Ｓｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ，１９８１，２９（２）：２５４—　２７２．　Ｅ７］　ｏ．Ｖｉｉｋｋｉ　ａｎｄ　Ｋ．Ｌａｕｒｉｌａ．Ｃｅｐｓｔｒａｌ　Ｄｏｍａｉｎ　Ｓｅｇｍｅｎｔａｌ　Ｆｅａｔｕｒｅ　Ｖｅｃｔｏｒ　Ｎｏｒｍａｌｉｚａｔｉｏｎ　ｆｏｒ　Ｎｏｉｓｅ　Ｒｏｂｕｓｔ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．Ｓｐｅｅｃｈ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ，１９９８，２５：　１３３—１４７．　Ｅ８２　Ａ．ｄｅ　ｌａ　Ｔｏｒｒｅ，Ａ．Ｍ．Ｐｅｉｎａｄｏ，Ｊ．Ｃ．Ｓｅｇｕｒａ　ｅｔ　ａ１．　Ｈｉｓｔｏｇｒａｍ　ｅｑｕａｌｉｚａｔｉｏｎ　ｏｆ　ｓｐｅｅｃｈ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　ｆｏｒ　ｒｏ　ｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ　ｆｉＪ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ａ　ｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ，２００５，１３（３）：　３５５—３６６．　Ｅ９］Ｓ．Ｈ．Ｉ　ｉｎ，Ｙ．Ｍ．Ｙｅｈ，ａｎｄ　Ｂ．Ｃｈｅｎ．Ａ　Ｃｏｍｐａｒａｔｉｖｅ　Ｓｔｕｄｙ　ｏｆ　ＨＥＱ　ｆｏｒ　Ｒｏｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ　ＥＪ］．Ｉｎ—　ｔｅｒｎａｔｉｏｎａｌ　Ｊｏｕｒｎａｌ　ｏｆ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ　ａｎｄ　Ｃｈｉｎｅｓｅ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ，２００７，１２（２）：２１７—２３８．　［１ｏ］Ｊ．Ｉ　．Ｇａｕｖａｉｎ　ａｎｄ　Ｃ．Ｈ．Ｌｅｅ．Ｍａｘｉｍｕｍ　ａ　ｐｏｓｔｅｒｉｏｒｉ　ｅｓｔｉｍａｔｉｏｎ　ｆｏｒ　ｍｕｌｔｉｖａｒｉａｔｅ　Ｇａｕｓｓｉａｎ　ｍｉｘｔｕｒｅｏｂｓｅｒｖａ—　ｔｉｏｎｓ　ｏｆ　Ｍａｒｋｏｖ　ｃｈａｉｎｓ　ＥＪ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｓｐｅｅｃｈ　ａｎｄ　Ａｕｄｉｏ　Ｐｒｏｃｅｓｓｉｎｇ，１９９４，２（２）：２９１－２９８．　［１１］Ｃ．Ｊ．Ｌｅｇｇｅｔｔｅｒ　ａｎｄ　Ｐ．Ｃ．Ｗｏｏｄｌａｎｄ．Ｍａｘｉｍｕｍ　５期　肖云鹏等：基于特征参数归一化的鲁棒语音识别方法综述　１１５　Ｌｉｋｅｌｉｈｏｏｄ　Ｌｉｎｅａｒ　Ｒｅｇｒｅｓｓｉｏｎ　ｆｏｒ　Ｓｐｅａｋｅｒ　Ａｄａｐｔａｔｉｏｎ　ｏｆ　Ｃｏｎｔｉｎｕｏｕｓ　Ｄｅｎｓｉｔｙ　Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌｓ［Ｊ］．　Ｃｏｍｐｕｔｅｒ　Ｓｐｅｅｃｈ　ａｎｄ　Ｌａｎｇｕａｇｅ，１９９５，９（４）：８０６—　８１４．　［１２］　Ｊ．Ｄｒｏｐｐｏ．Ｎｏｉｓｅ　Ｒｏｂｕｓｔ　Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉ—　ｔｉｏｎ［ＤＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｅ　ｅｕｒａｓｉｐ．ｏｒｇ／Ｐｒｏｃｅｅｄ—　ｉｎｇｓ／／Ｅｕｓｉｐｃ０／Ｅｕｓｉｐｃｏ２ＯＯ８／ｔｕｔｏｒｉａ１ｓ／ｔｕｔｏｒｉａ１３　—　ｄｒｏｐｐｏ．ｐｄｆ，２００８—０８—１５．　［１３］　Ｒ．Ｔｏｇｎｅｒｉ，Ａ．Ｍ．Ｔｏｈ　ａｎｄ　Ｓ．Ｎｏｒｄｈｏｌｍ．Ｅｖａｌｕａ—　ｔｉｏｎ　ａｎｄ　Ｍｏｄｉｆｉｃａｔｉｏｎ　ｏｆ　Ｃｅｐｓｔｒａｌ　Ｍｏｍｅｎｔ　Ｎｏｒｍａｌｉｚａ—　ｔｉｏｎ　ｆｏｒ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　ｉｎ　Ａｄｄｉｔｉｂｅ　Ｂａｂｂｌｅ　Ｅｎ—　ｓｅｍｂｌｅ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１ｌｔｈ　Ａｕｓｔｒａｌｉａｎ　Ｉｎ—　ｔｅｒｎａｔｉｏｎａ１　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｓｐｅｅｃｈ　Ｓｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌ—　ｏｇｙ．Ｎｅｗ　Ｚｅａｌａｎｄ，２００６：９４—９９．　Ｅ１４］　Ｈ．Ｇ．Ｈｉｒｓｃｈ　ａｎｄ　Ｄ．Ｐｅａｒｃｅ．Ｔｈｅ　Ａｕｒｏｒａ　Ｅｘｐｅｒｉ—　ｍｅｎｔａｌ　Ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ｔｈｅ　Ｐｅｒｆｏｒｍａｎｃｅ　Ｅｖａｌｕａｔｉｏｎ　ｏｆ　Ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ＩＳＣＡ　ＩＴＲｗ　ＡＳＲ２０００．Ｐａｒｉｓ，Ｆｒａｎｃｅ，２０００：１８１—１８８．　［１５］　Ａ．Ａｃｅｒｏ　ａｎｄ　Ｘ．Ｈｕａｎｇ．Ａｕｇｍｅｎｔｅｄ　Ｃｅｐｓｔｒａｌ　Ｎｏｒ—　ｍａｌｉｚａｔｉｏｎ　ｆｏｒ　Ｒｏｂｕｓｔ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／Ｐｒｏｃ．　ｏｆ　ＩＥＥＥ　Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ｗｏｒｋｓｈｏｐ．　Ｓｎｏｗｂｉｒｄ，Ｕｔａｂ，ＵＳＡ：１９９５．　［１６］　Ｐ．Ｊａｉｎ　ａｎｄ　Ｈ．Ｈｅｒｍａｎｓｋｙ．Ｉｍｐｒｏｖｅｄ　ｍｅａｎ　ａｎｄ　ｖａ—　ｒｉａｎｃｅ　ｎｏｒｍａｌｉｚａｔｉｏｎ　ｆｏｒ　ｒｏｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ　［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　２００１　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒ—　ｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ。Ａｃｏｕｓｔｉｃｓ　ａｎｄ　Ｓｉｇｎａ１　Ｐｒｏｃｅｓｓｉｎｇ．　Ｓａｌｔ　Ｌａｋｅ　Ｃｉｔｙ，Ｕｔａｈ，ＵＳＡ：２００１．　［１７］　Ｃ．Ｗ．Ｈｓｕ　ａｎｄ　Ｌ．Ｓ．Ｉ　ｅｅ．Ｈｉｇｈｅｒ　ｏｒｄｅｒ　ｃｅｐｓｔｒａｌ　ｍｏｍｅｎｔ　ｎｏｒｍａｌｉｚａｔｉｏｎ（ＨＯＣＭＮ）ｆｏｒ　ｒｏｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　２００４　ＩＥＥＥ　Ｉｎｔｅｒｎａ—　ｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，Ａｃｏｕｓｔｉｃｓ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ．Ｍｏｎｔｒｅａｌ，Ｃａｎａｄａ：２００４：１９７—２００．　［１８］　Ｙ．Ｈ．Ｓｕｋ，Ｓ．Ｈ．Ｃｈｏｉ　ａｎｄ　Ｈ．Ｓ．Ｌｅｅ．Ｃｅｐｓｔｒｕｍ　ｔｈｉｒｄ—ｏｒｄｅｒ　ｎｏｒｍａｌｉｓａｔｉｏｎ　ｍｅｔｈｏｄ　ｆｏｒ　ｎｏｉｓｙ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ　ＥＪ］．ＩＥＥＥ　Ｅｌｅｃｔｒｏｎｉｃｓ　Ｌｅｔｔｅｒｓ，３５（７）：　５２７　５２８．　［１９］　Ｓ．Ｄｈａｒａｎｉｐｒａｇａｄａ　ａｎｄ　Ｍ．Ｐａｄｍａｎａｂｈａｎ．Ａ　ｎｏｎｌｉｎ—　ｅａｒ　ｕｎｓｕｐｅｒｖｉｓｅｄ　ａｄａｐｔａｔｉｏｎ　ｔｅｃｈｎｉｑｕｅ　ｆｏｒ　ｓｐｅｅｃｈ　ｒｅｅ—　ｏｇｎｉｔｉｏｎ［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　Ｔｈｅ　６ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｓｐｏｋｅｎ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ．Ｂｅｉｊｉｎｇ，　Ｃｈｉｎａ，２０００：５５６－５５９．　［２ｏ］　Ａ．ｄｅ　ｌａ　Ｔｏｒｒｅ，Ｊ．Ｃ．Ｓｅｇｕｒａ，Ｃ．Ｂｅｎｉｔｅｚ　ｅｔ　ａ１．Ｎｏｎ—　ｌｉｎｅａｒ　ｔｒａｎｓｆｏｒｍａｔｉｏｎｓ　ｏｆ　ｔｈｅ　ｆｅａｔｕｒｅ　ｓｐａｃｅ　ｆｏｒ　ｒｏｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ［ｃ］／／Ｐｒ。ｃｅｅｄｉｎｇｓ　ｏｆ　２００２　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａ１　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ。Ａｃｏｕｓｔｉｃｓ　ａｎｄ　Ｓｉｇｎａ１　Ｐｒｏｃｅｓｓｉｎｇ．Ｏｒｌａｎｄｏ，ＦＩ　，ＵＳＡ，２００２：４０１—　４０４．　［２１］　Ｓ．Ｍｏｌａｕ，Ｄ．Ｋｅｙｓｅｒｓ　ａｎｄ　Ｈ．Ｎｅｙ．Ｍａｔｃｈｉｎｇ　ｔｒａｉｎ—　ｉｎｇ　ａｎｄ　ｔｅｓｔ　ｄａｔａ　ｄｉｓｔｒｉｂｕｔｉｏｎｓ　ｆｏｒ　ｒｏｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃ—　ｏｇｎｉｔｉｏｎ［Ｊ］．Ｓｐｅｅｃｈ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ，２００３，４１（４）：　５７９—６Ｏ】．　［２２］　Ｃ．Ｙ．Ｗａｎ　ａｎｄ　Ｉ　．Ｓ．Ｌｅｅ．Ｊｏｉｎｔ　Ｕｎｃｅｒｔａｉｎｔｙ　Ｄｅｃｏ—　ｄｉｎｇ（ＪＵＤ）ｗｉｔｈ　Ｈｉｓｔｏｇｒａｍ—Ｂａｓｅｄ　Ｑｕａｎｔｉｚａｔｉｏｎ　（ＨＱ）ｆｏｒ　Ｒｏｂｕｓｔ　ａｎｄ／ｏｒ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉ—　ｔｉｏｎ［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　２００６　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，Ａｃｏｕｓｔｉｃｓ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏ—　ｃｅｓｓｉｎｇ．Ｔｏｕｌｏｕｓｅ，Ｆｒａｎｃｅ，２００６：１２５—１２８．　［２３］　Ｃ．Ｙ．Ｗａｎ　ａｎｄ　Ｌ．Ｓ．Ｌｅｅ．Ｈｉｓｔｏｇｒａｍ—ｂａｓｅｄ　ｑｕａｎｔｉ—　ｚａｔｉｏｎ（ＨＱ）ｆｏｒ　ｒｏｂｕｓｔ　ａｎｄ　ｓｃａｌａｂｌｅ　ｄｉｓｔｒｉｂｕｔｅｄ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇ　ｏｆ　９ｔｈ　Ｅｕｒｏｐｅａｎ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｓｐｅｅｃｈ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ　ａｎｄ　Ｔｅｃｈｎｏｌｏ—　ｇＹ．Ｌｉｓｂｏｎ，Ｐｏｒｔｕｇａｌ，２００５：９５７　９６０．　［２４］　Ｍ．Ｓｋｏｓａｎ　ａｎｄ　Ｄ．Ｍａｓｈａｏ．Ｍａｔｃｈｉｎｇ　ｆｅａｔｕｒｅ　ｄｉｓｔｒｉ—　ｂｕｔｉｏｎｓ　ｆｏｒ　ｒｏｂｕｓｔ　ｓｐｅａｋｅｒ　ｖｅｒｉｆｉｃａｔｉｏｎ　Ｅｅｌ／／Ｐｒｏｃｅｅｄ—　ｉｎｇｓ　ｏｆ　Ａｎｎｕａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｆ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ａｓｓｏｃｉａｔｉｏｎ　ｏｆ　Ｓｏｕｔｈ　Ａｆｒｉｃａ．Ｇｒａｂｏｕｗ，Ｓｏｕｔｈ　Ａｆｒｉｃａ，　２００４：９３－９７．　Ｅ２５］　Ｆ．Ｈｉｌｇｅｒ　ａｎｄ　Ｈ．Ｎｅｙ．Ｑｕａｎｔｉｌｅ　Ｂａｓｅｄ　Ｈｉｓｔｏｇｒａｍ　Ｅ　ｑｕａｌｉｚａｔｉｏｎ　ｆｏｒ　Ｎｏｉｓｅ　Ｒｏｂｕｓｔ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　７ｔｈ　Ｅｕｒｏｐｅａｎ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｓｐｅｅｃｈ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ．　Ａａｌｂｏｒｇ，　Ｄｅｎｍａｒｋ，２００１：ｌ１３５—１１３８．　［２６］　Ｆ．Ｈｉｌｇｅｒ，Ｓ．Ｍｏｌａｕ　ａｎｄ　Ｈ．Ｎｅｙ．Ｑｕａｎｔｉｌｅ　Ｂａｓｅｄ　Ｈｉｓｔｏｇｒａｍ　Ｅｑｕａｌｉｚａｔｉｏｎ　Ｆｏｒ　Ｏｎｌｉｎｅ　Ａｐｐｌｉｃａｔｉｏｎｓ　［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　７ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｓｐｏｋｅｎ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ．Ｄｅｎｖｅｒ，Ｃｏｌｏｒａｄｏ，　ＵＳＡ，２００２：２３７－２４０．　［２７］　Ｆ．Ｈｉｌｇｅｒ　ａｎｄ　Ｈ．Ｎｅｙ．Ｑｕａｎｔｉｌｅ　ｂａｓｅｄ　ｈｉｓｔｏｇｒａｍ　ｅ—　ｑｕａｌｉｚａｔｉｏｎ　ｆｏｒ　ｎｏｉｓｅ　ｒｏｂｕｓｔ　ｌａｒｇｅ　ｖｏｃａｂｕｌａｒｙ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，　Ｓｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ，２００６，１４（３）：８４５—８５４．　［２８］　Ｊ．Ｄｕ　ａｎｄ　Ｒ．Ｈ．Ｗａｎｇ．Ｃｅｐｓｔｒａｌ　ｓｈａｐｅ　ｎｏｒｍａｌｉｚａ—　ｔｉｏｎ（ＣＳＮ）ｆｏｒ　ｒｏｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ［ｃ］／／Ｐｒｏ—　ｃｅｅｄｉｎｇｓ　ｏｆ　２００８　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａ—　ｃｏｕｓｔｉｃｓ．Ａｃｏｕｓｔｉｃｓ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ．Ｉ　ａｓ　Ｖｅ　ｇａｓ，ＮＶ，ＵＳＡ，２００８：４３８９—４３９２．　［２９］　Ｓ．Ｇａｚｏｒ　ａｎｄ　Ｗ．Ｚｈａｎｇ．Ｓｐｅｅｃｈ　ｐｒｏｂａｂｉｌｉｔｙ　ｄｉｓｔｒｉｂｕ—　ｔｉｏｎ［Ｊ］．ＩＥＥＥ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｌｅｔｔｅｒｓ，２００３，１０　（７）：２０４—２０７．　［３ｏ］　Ｋ．Ｋｏｋｋｉｎａｋｉｓ　ａｎｄ　Ａ．Ｋ．Ｎａｎｄｉ．Ｓｐｅｅｃｈ　Ｍｏｄｅｌｌｉｎｇ　Ｂａｓｅｄ　Ｏｎ　Ｇｅｎｅｒａｌｉｚｅｄ　Ｇａｕｓｓｉａｎ　Ｐｒｏｂａｂｉｌｉｔｙ　Ｄｅｎｓｉｔｙ　Ｆｕｎｃｔｉｏｎｓ［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　２００５　ＩＥＥＥ　Ｉｎｔｅｒｎａ—　ｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，Ａｃｏｕｓｔｉｃｓ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ．Ｐｈｉｌａｄｅｌｐｈｉａ，ＵＳＡ，２００５：３８１—３８４．　［３１］　Ｂ．Ｌｉｕ，Ｌ．Ｒ．Ｄａｉ　ｅｔ　ａ１．Ｄｏｕｂｌｅ　Ｇａｕｓｓｉａｎ　ｂａｓｅｄ　ｆｅａ　ｔｕｒｅ　ｎｏｒｍａｌｉｚａｔｉｏｎ　ｆｏｒ　ｒｏｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ　［ｃ］／／Ｐｒ０ｃｅｅｄｉｎｇｓ　ｏｆ　４ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｃｈｉｎｅｓｅ　Ｓｐｏｋｅｎ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ．Ｈｏｎｇ　Ｋｏｎｇ，　Ｃｈｉｎａ，２００４：２５３－２５６．　［３２３　Ｔ．Ｈｏｕｔｇａｓｔ　ａｎｄ　Ｈ．Ｊ．Ｍ．Ｓｔｅｅｎｅｋｅｎ．Ａ　ｒｅｖｉｅｗ　ｏｆ　ｔｈｅ　ＭＴＦ　ｃｏｎｃｅｐｔ　ｉｎ　ｒｏｏｍ　ａｃｏｕｓｔｉｃｓ　ａｎｄ　ｉｔｓ　ｕｓｅ　ｆｏｒ　ｅｓｔｉｍａｔｉｎｇ　ｓｐｅｅｃｈ　ｉｎｔｅｌｌｉｇｉｂｉｌｉｔｙ　ｉｎ　ａｕｄｉｔｏｒｉａ［Ｊ］．Ｔｈｅ　１１６　中文信息学报　２Ｏ１Ｏ年　Ｊｏｕｒｎａｌ　ｏｆ　ｔｈｅ　Ａｃｏｕｓｔｉｃａｌ　Ｓｏｃｉｅｔｙ　ｏｆ　Ａｍｅｒｉｃａ，１９８５，　Ｅ３７］　Ｍ．Ｇ．Ｒａｈｉｍａｎｄ　ａｎｄ　Ｂ．Ｈ．Ｊｕａｎｇ．Ｓｉｇｎａｌ　ｂｉａｓ　ｒｅ—　７７（３）：１０６９—１０７７．　ｍｏｖａｌ　ｂｙ　ｍａｘｉｍｕｍ　ｌｉｋｅｌｉｈｏｏｄ　ｅｓｔｉｍａｔｉｏｎ　ｆｏｒ　ｒｏｂｕｓｔ　［３３］　Ｘ．Ｘｉａｏ，Ｅ．Ｓ．Ｃｈｎｇ　ａｎｄ　Ｈ．Ｌｉ．Ｔｅｍｐｏｒａｌ　Ｓｔｒｕｃｔｕｒｅ　ｔｅｌｅｐｈｏｎｅ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　Ｎｏｒｍａｌｉｚａｔｉｏｎ　ｏｆ　Ｓｐｅｅｃｈ　Ｆｅａｔｕｒｅ　ｆｏｒ　Ｒｏｂｕｓｔ　Ｓｐｅｅｃｈ　ｏｎ　Ｓｐｅｅｃｈ　ａｎｄ　Ａｕｄｉｏ　Ｐｒｏｃｅｓｓｉｎｇ，１９９６，４（１）：１９—３Ｏ．　Ｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＩＥＥＥ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｌｅｔｔｅｒｓ，　［３８］　Ｊ．Ｄｒｏｐｐｏ，Ａ．Ａｃｅｒｏ　ａｎｄ　Ｌ．Ｄｅｎｇ．Ｕｎｃｅｒｔａｉｎｔｙ　ｄｅ—　２００７，１４（７）：５００—５０３．　ｃｏｄｉｎｇ　ｗｉｔｈ　ＳＰＬＩＣＥ　ｆｏｒ　ｎｏｉｓｅ　ｒｏｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉ—　Ｅ３４］　Ｘ．Ｘｉａｏ，Ｅ．Ｓ．Ｃｈｎｇ　ａｎｄ　Ｈ．Ｌｉ．Ｎｏｒｍａｌｉｚｉｎｇ　ｔｈｅ　ｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　２００２　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　ｓｐｅｅｃｈ　ｍｏｄｕｌａｔｉｏｎ　ｓｐｅｃｔｒｕｍ　ｆｏｒ　ｒｏｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃｏｇ—　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，Ａｃｏｕｓｔｉｃｓ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏ—　ｎｉｔｉｏｎ［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　２００７　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　ｃｅｓｓｉｎｇ．Ｏｒｌａｎｄｏ，Ｆｌｏｒｉｄａ，２００２：５７—６Ｏ．　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，Ａｃｏｕｓｔｉｃｓ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏ　［３９］　Ｈ．Ｌｉａｏ　ａｎｄ　Ｍ．Ｊ．Ｆ．Ｇａｌｅｓ．Ｊｏｉｎｔ　ｕｎｃｅｒｔａｉｎｔｙ　ｄｅｃｏ—　ｃｅｓｓｉｎｇ．Ｈｏｎｏｌｕｌｕ。ＨＩ，ＵＳＡ，２００７：１５２０—６１４９．　ｄｉｎｇ　ｆｏｒ　ｎｏｉｓｅ　ｒｏｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／Ｐｒｏ　［３５］　Ｃ．Ａ．Ｐａｎ，Ｃ．Ｃ．Ｗａｎｇ　ａｎｄ　Ｊ．Ｗ．Ｈｕｎｇ．Ｉｍｐｒｏｖｅｄ　ｃｅｅｄｉｎｇｓ　ｏｆ　Ｔｈｅ　９ｔｈ　Ｅｕｒｏｐｅａｎ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｓｐｅｅｃｈ　ｍｏｄｕｌａｔｉｏｎ　ｓｐｅｃｔｒｕｍ　ｎｏｒｍａｌｉｚａｔｉｏｎ　ｔｅｃｈｎｉｑｕｅｓ　ｆｏｒ　ｒｏ—　Ｃｏｍｍｕｎｃｉａｔｉｏｎ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ．Ｌｉｓｂｏｎ，Ｐｏｒｔｕｇａｌ，　ｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　２００８　２００５：３１２９—３１３２．　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｅｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，Ａｅｏｕｓ　Ｅ４ｏ］　Ｈ．１　ｉａｏ　ａｎｄ　Ｍ．Ｊ．Ｆ．Ｇａｌｅｓ．Ｉｓｓｕｅｓ　ｗｉｔｈ　ｕｎｃｅｒｔａｉｎｔｙ　ｔｉｃｓ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ．Ｌａｓ　Ｖｅｇａｓ，ＮＶ，ＵＳＡ，　ｄｅｃｏｄｉｎｇ　ｆｏｒ　ｎｏｉｓｅ　ｒｏｂｕｓｔ　ａｕｔｏｍａｔｉｃ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉ—　２００８：４０８９—４０９２．　ｔｉｏｎ［Ｊ］．Ｓｐｅｅｃｈ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ，２００８，５０（４）：２６５—　［３６］　Ｍ．Ｍａｔａｓｓｏｎｉ，Ｍ．Ｏｍｏｌｏｇｏａｎｄ　ａｎｄ　Ｄ．Ｇｉｕｌｉａｎｉ．　２７７．　Ｈａｎｄｓ—ｆｒｅｅ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ　ｕｓｉｎｇ　ａ　ｆｉｌｔｅｒｅｄ　ｃｌｅａｎ　［４１］　Ｖ．Ｓｔｏｕｔｅｎ，Ｈ．Ｖａｎ　ｈａｍｍｅａｎｄ　ａｎｄ　Ｐ．Ｗａｍｂａｃｑ．　ｃｏｒｐｕｓ　ａｎｄ　ｉｎｃｒｅｍｅｎｔａｌ　ＨＭＭ　ａｄａｐｔａｔｉｏｎ［Ｃ￣／／Ｐｒｏ　Ｍｏｄｅｌ　ｂａｓｅｄ　ｆｅａｔｕｒｅ　ｅｎｈａｎｃｅｍｅｎｔ　ｗｉｔｈ　ｕｎｃｅｒｔａｉｎｔｙ　ｃｅｅｄｉｎｇｓ　ｏｆ　２０００　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａ１　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａ—　ｄｅｃｏｄｉｎｇ　ｆｏｒ　ｎｏｉｓｅ　ｒｏｂｕｓｔ　ＡＳＲ［Ｊ］．Ｓｐｅｅｃｈ　Ｃｏｍｍｕ—　ｃｏｕｓｔｉｃｓ．Ａｃｏｕｓｔｉｃｓ　ａｎｄ　Ｓｉｇｎａ１　Ｐｒｏｃｅｓｓｉｎｇ．Ｉｓｔａｎｂｕｌ，　ｎｉｃａｔｉｏｎ，２００６。４８（１１）：５０２　１５１４．　Ｔｕｒｋｅｙ，２０００：１４０７　１４１Ｏ．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文