第34卷第6期 2017年6月 计算机应用研究 Application Research of Computers Vo1.34 No.6 Jun.2017 基于多级SVM分类的语音情感识别算法 任浩,叶亮 ,李月,沙学军 (哈尔滨工业大学电子与信息工程学院,哈尔滨150001) 摘要:为了提高语音情感识别系统的识别准确率,在传统支持向量机(SVM)方法的基础上,提出了一种基于 主成分分析法(PCA)的多级SVM情感分类算法。首先将容易区分的情感分开,针对混淆度大且不能再利用多 级分类策略直接进行区分的情感,采用PCA进行特征降维,然后逐级地判断出输入语音所属的情感类型。与传 统基于SVM分类算法的语音情感识别相比,本方法可将七种情感的平均识别率提高5.05%,并且特征维度可降 低58.3%,从而证明了所提出方法的正确性与有效性。 关键词:语音情感识别;支持向量机;多级分类;主成分分析 中图分类号:TP391.4 文献标志码:A 文章编号:1001—3695(2017)06—1682-03 doi:10.3969/j.issn.1001—3695.2017.06.018 Speech emotion recognition algorithm based on multi—layer SVM classification Ren Hao,Ye Liang ,Li Yue,Sha Xuejun (School ofElectronic&Information Engineering,Harbin Institute ofTechnology,Harbin 150001,China) Abstract:In order to improve the accuracy of speech emotion recognition systems,based on the traditional suppo ̄vector ma- chine(SVM)method.this paper proposed a multi.1ayer SVM emotion classiifcation algorithm combined with PCA.The first 1ayer separated the emotions which could be easily distinguished.For the emotions which couldn’t be distinguished by the first layer,the algorithm performed feature dimension reduction with the principal component analysis(PCA)method,and then sep— arated emotions layer by layer;Compared to the traditional SVM classifier.the proposed PCA—combined multi 1ayer SVM classi— ier improves tthe average recognition accuracy of 7 emotions by 5.05%and reduces the feature dimension by 58.3%.thus proves the correctness and effectiveness of the proposed method. Key words:speech emotion recognition;SVM;multi—layer classification;PCA 随着计算机科学技术的蓬勃发展,人机交互的应用领域也 越来越广泛,情感的理解能力逐渐成为衡量机器是否具有智能 的重要标准。目前虽然已经有很多人机交互的机器人产品问 征情感区分能力高低的判定并无定论。Bou—Ghazale等人 研 究发现,倒谱特征LPCC(1inear predictor cepstral coeficfient,线 性预测倒谱系数)、OSALPCC(one—sided autocorrelation LPCC, 世,但基本上都很难准确理解人类的意图,为了实现人机的自 然交互,机器必须能够要准确地理解并区分人类的情感。作为 人类日常情感交流的主要方式,人类话语中所携带的情感信息 越来越受到人们的重视。 针对语音情感识别率不高、特征维数多、计算量大的问题, 本文在柏林语音情感数据库的基础上,提出了多级分类策略与 PcA降维相结合的方法,首先将容易区分的情感分开,然后再 针对混淆度大且不能再利用多级分类策略进行区分的情感采 用PCA进行降维,最终实现对七种情感的分类。 单侧自相关LPCC)和MFCC的区分能力明显优于线性谱特征 LPC和OSALPC。然而,Nwe等人却得出了相反的结论。具体 地说,当HMM(hidden Markov model,隐马尔可夫模型)被用做分 类器对包括生气、厌恶、恐惧、愉悦、悲伤和惊奇在内的六类情感 进行话者相关的识别时,LFPC取得了77.1%的识别率,而LPCC 和MFCC的识别率分别为56.1%和59.0%。此外,还可以利用 共振峰作为衡量语音质量的特征。由于语音信号的不同特征分 别能从不同侧面对语音情感信息进行表达,所以目前使用融合 特征进行语音情感识别研究是本领域的主流方法 J。 1 研究现状 当前,用于语音情感识别的声学特征大致可归纳为韵律学 2多级分类算法与PCA降维 2.1 PCA降维 特征、基于谱的相关特征和音质特征这三种类型 。这些特 征常常以帧为单位进行提取,却以全局特征统计值的形式参与 情感的识别。韵律学特征的情感区分能力已得到语音情感识 别领域研究人员的广泛认可 ,然而对线性谱特征和倒谱特 一主成分分析(principal component analysis,PCA)本质上是 种多元的统计学分析方法。PCA将数据集中的多个多元变 目的。语音的特征值维数很大,其中可能有很多对语音包含的 量通过线性变换选出较少的几个重要变量,以达到特征提取的 收稿日期:2016—04—12;修回日期:2016-06—21 基金项目:国家自然科学基金资助项目(61602127);国家“973”计划资助项目 (2013CB329003);国家科技重大专项资助项目(2014ZX0300400);国家教育部留学回国人员科研启动基金资助项目 作者简介:任浩(1991一),男,河南驻马店人,硕士,主要研究方向为语音情感识别、机器学习;叶亮(1981一),男(通信作者),黑龙江哈尔滨人,助 理研究员,博士,主要研究方向为模式识别、移动通信(yeliang@hit.edu.cn);李月(1982.),女,河北秦皇岛人,博士,主要研究方向为模式识别、移 动通信;沙学军(1966-),男,黑龙江齐齐哈尔人,教授,博导,工学博士,主要研究方向为移动通信. 第6期 任浩,等:基于多级SVM分类的语音情感识别算法 ・l683・ 情感值没有贡献或者贡献较小的特征值,通过PCA去除一些 噪声信息的影响。 次进行分类,所得boredom、neutral、sadness三种情感的类别问 混淆度如表5所示。 表1提取的情感特征 2.2多级分类算法 本文所选语音库为柏林语音情感库,该语音库有恐惧 fear、厌恶disgust、快乐happy、无聊boredom、中性neutral、悲伤 sadness和愤怒anger七种情感,共535条语音样本。 由于在情感分类中,某些情感比较相近,而某些情感却很 容易区分,所以先将比较相近的情感归为一类,进行粗分类;然 后再对容易混淆的情感进行细分类;最后对不能再利用多级分 类策略进行区分的情感采用PCA进行特征降维将其分开,通 过逐级分类,最终实现对所有七种情感的分类。 首先定义情感状态集合为B={fear,disgust,happy,bore— dom,neutral,sadness,anger},B中情感状态的个数s=7。情感混 淆度是指情感之间的相似程度,定义第i类情感 与第 类情 感B,的混淆度为, 其表示第i类情感误判为第 类情感的概 率与第. 类情感误判为第i类情感的概率的平均值,其表达式为 (1) 其中: 为测试样本; 为测试样本 所对应的识别结果。 多级分类的构造算法具体步骤为: a)利用传统SVM方法计算情感识别混淆矩阵。 b)将混淆度超过概率P的情感归为一类,本文初次分组P 设为10%,再次分组P设为15%,每多一级,则P递增5%。 若情感不重复,则将其归为一组,若与之前组内情感重复,则将 重复组并为一组。即若Io6>P,Iod>P,则将。、b归为一组,C、d 归为一组;若la6>P且,6。>P,则将a、b、C归为一组。 e)对未分组的情感状态,根据式(1)计算其情感混淆度, 转至步骤a),将其归入已有组或单独成组。 d)七种情感都得到正确分组,结束。 3实验结果与分析 本文选取的语音情感特征如表1所示,共72个情感特征。 传统方法利用SVMl9’ 进行情感识别一次性将七种情感分 开。实验采用台湾大学林智仁开发的LibSVM工具,其中使用 的核函数为RBF核函数,采用十折交叉验证,即将数据集分成 十份,将其中九份作为训练数据,一份作为测试数据,进行实 验。每次实验都会得出相应的识别率,更换测试集做十次实 验,结果的平均值作为对算法精度的估计,所得混淆矩阵如表 2所示。根据式(1)计算类间混淆度,得到七种情感类别间混 淆度,如表3所示。从表3得出,lar=11.04%, ^=15.06%, ..根据多级分类构造算法将fear( 、happy(h)、anger(a)作为一 类,In 6=31.93%, 6=l0.16%,则将boredom(b)、neutral(n)、 sadness(s)作为一类;又因disgust(d)与其他六类情感的混淆 度都小于10%,所以将其单独作为一类。根据多级分类构造 算法步骤b),经过第一级分类后需再次进行分类,对fear、hap— PY、anger再次进行分类,所得fear、happy、anger情感的类别间 混淆度如表4所示。 由表4可以看出,,^=15.70%,L.^:18.10%,其混淆度 . 都大于15%,根据多级构造算法可知,将fear、happy、anger作 为一类,对于这三种情感不再利用原特征进行分类,而是利用 PCA对原来的72维特征进行降维 l l],本文选取降维后的30 维作为这三种情感的特征,同理,对boredom、neutral、sadness再 情感 fear disgust happy boredom neutral sadness anger disgust 9.78 happy 7.77 8.19 boredom 2.58 5.56 2.64 neutrla 5.97 7.06 4.08 31.93 sadness 5.32 5.40 0.81 10.16 6.74 anger 11.o4 6.32 15.06 0.39 0 0 表5 三种情感boredom、neutral、sadness的类别问混淆度 /% 由表5可以看出,厶 =33.83%,sadness与其他两种情感 的混淆度都小于15%,所以将sadness单独作为一类,boredom 与neutral作为一类。同时对于boredom和neutral这两种情感 进行PCA特征降维,将原来的72维特征降低到30维特征。 经过以上论述之后,根据多级构造算法得出多级分类示意图, 如图1所示。通过一级判决器后七种情感的混淆矩阵如表6 所示;最终得到的七种情感的混淆矩阵如表7所示;传统 SVM、多级分类+SVM、多级分类+SVM+PCA三种方法的平 均识别率如表8所示。 。[I。 。。。f。。e。。a。。 r ,。。。d。。i。s。。g。。u。。。。。s。。t‘塑 ,。。h。。。。a。p。。。。p。。。y。g!!。,。。b‘。o。 。。r。。e。。。d。。o。。。。m。 。。,。,2。ne。‘。。。ut。。。。。r’ al,’’。’ —— II 匪 ;.[二二= {。j匝回 l_——= 二■—=二二二] e嚣 .I卤函 卤 藤 图1多级分类后示意图 ・1684・ 计算机应用研究 第34卷 将表7与表2进行对比,fear情感识别率有少许降低,其 他六种情感的识别率都得到了不同程度的提高,同时平均识别 率也由58.69%提高到了63.74%,从而证明了本文所提出多 因此在以后的研究工作中,需要对相似情感进行针对性的研 究,找出能对相似情感进行区分的情感特征,从而减少相互的 误判率,提高情感识别率。 参考文献: [1]韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述[J].软 件学报,2014,25(1):37—5O. 级分类算法确实能够提高识别率。并且从表8可以得知,采取 PCA进行特征降维后平均识别率只有少许下降,但特征从72 维降低到了30维,特征维度减少了58.3%,降低了计算的复 杂度。 表6通过一级判决器后七种情感混淆矩阵 /% [2]周晓凤,肖南峰,文翰.基于情感特征分类的语音情感识别研究 [J].计算机应用研究,2012,29(10):3648-3650. [3]Delic V,Bojanic M,Gnjatovic M,et a1.Discrimination capability of prosodic and spectral features for emotional speech recognition[J].E— lectronics&Electrical Engineering,2012,18(9):51-54. [4]Pribil J,Pribilova A.A statistical analysis of spectral properties and prosodic parameters of emotional speech[J].Measurement Science 表7基于多级分类的七种情感混淆矩阵 /% Review,2009,9(4):95-104. [5]Boa-Ghazale S E,Hansen J H L.A comparative study of traditional and newly proposed features for recognition of speech under stress [J].IEEE Trans on Speech and Audio Processing,2000,8(4): 429—442. [6]Schuller B,Zhang Zixing,Weninger F,et a1.Synthesized speech for model training in cross-corpus recognition of human emotion[J].1n。 ternational Journal of Speech Technology.2012,15(3):313— 323. [7]Prrez—Espinosa H,Reyes—Garcia C A,Vi嵋senor—Pineda L.Acoustic SVM 58.69 多级分类+SVM 64.11 多级分类+SVM+PCA 63.74 feature selection and classification of emotions in speech using a 3D continuous emotion model[J].Biomedical Signal Processing and Control,2012,7(1):79-87. 4结束语 本文在柏林情感语音库上进行实验,首先通过传统SVM 方法得出七种情感的混淆矩阵,然后根据本文所提出的多级分 类策略将其中情感先进行粗分类,再对容易混淆的情感进行细 分类,最后对于不能再利用多级分类策略进行细分的情感,采 取PCA方法进行特征降维,从而去除一些无用特征的干扰。 实验表明,本文所提出的多级分类策略能够提高平均识别率, [8]Ayadi M E,Kamel M S,Karray F.Survey on speech emotion reeogni- tion:features,classification schemes,and databases[J].Pattern Recognition,2011,44(3):572-587. [9]Zhu Xiaoqiang,Gong Pinghua,Zhao Zengshun,et a1.Learning similarity metirc with SVM[C]//Proc of International Joint Conference on Neural Networks.[S.1_]:IEEE Press,2012:l-8. [10]Wang Zhigang,Zhao Zengshun,Weng Shifeng,et a1.Solving one—class problem with outlier examples by SVM[J].Neurocomputing,2015, 149(PA):100—105. 同时运用PCA算法进行特征降维也会降低计算复杂度,从而 提高情感识别的运算速度。 通过实验可以看出,通过一级判决器后,情感基本上都得 [11]罗宪华,杨大利,徐明星,等.面向非特定人语音情感识别的PCA 特征选择方法[J].计算机科学,2011,38(8):212-213. [12]陈炜亮,孙晓.基于MFCCG.PCA的语音情感识别[J].北京大学 学报:自然科学版,2015,51(2):269.274. 至盯正确分类,但最终结果中相似情感的混淆度仍然很大, (上接第1681页) 优化算法[J].计算机应用与软件,2007,24(1):157-159. [33]孟伟,韩学东,洪炳.蜜蜂进化型遗传算法[J].电子学报,2006, 34(7):1294—1300. [27]Lemma T A,Bin M H F.Use of fuzzy systems and bat algorithm for energy modeling in a gas turbine generator[C]//Proc of IEEE Collo。 quium on Humanities,Science and Engineering.2011:305—310. [34]贺毅朝,宋建民,张敬敏,等.利用遗传算法求解静态与动态背包 问题的研究[J].计算机应用研究,2015,32(4):1011-1015. [35]赵增顺,林艳艳,冯翔,等.基于高斯粒子群优化的RBPF滤波算 法[J].计算机应用研究,2015,32(2):423.426. [36]Yao Xin,Liu Yong,Lin Guangming.Evolutionary programming make faster[J].IEEE Trans on Evolutionary Computation,1999,3 (2):82—102. [28]盛晓华,叶春明.基于蝙蝠算法的PFsP调度干扰管理研究[J]. 计算机工程与应用,2014,50(8):241.246. [29]Mishra S,Shaw K,Mishra D.A new metahcuristic classification ap. proach for microarray data[J].Procedia Technology,2012,4(1): 802—806. [30]Khan K,Sahai A.A comparison of BA,GA,PSO,BP and LM for training feed forward neurla networks in e—learning context[J].Inter- national Journal of Intelligent Systems and Applications,2012,4 [37]Liu Yong,Yao Xin.How to control search step size in fast evolutionary programming[C]//Proc of IEEE Congress on Evolutionary Computa— tion.[S.1.]:IEEE Press,2002:652.656. [38]吴聪聪,贺毅朝,陈嶷瑛,等.求解0-1背包问题的二进制蝙蝠算 法[J].计算机工程与应用,2015,52(19):71_74. (7):23—29. [31]Khan K,Nikov A,Sahm A.A fuzzy bat clustering method forergonomic screening of office workplaces[C]//Advances in Intelligent and Soft Computing.Berlin:Springer.201l:59—66. [39]李佩泽,王珊珊,樊岩.基于改进蝙蝠算法的背包问题求解[J]. 计算机应用研究,2015,32(11)i3226—3229. [32]贺毅朝,王彦祺,刘建芹.一种适于求解离散问题的二进制粒子群