您好,欢迎来到意榕旅游网。
搜索
您的当前位置:首页一种基于SVM和相关性的基因选择方法

一种基于SVM和相关性的基因选择方法

来源:意榕旅游网
维普资讯 http://www.cqvip.com 第24卷第6期 2007年6月 计算机应用与软件 Computer Applications and Software Vo1.24 No.6 Jun.20o7 一种基于SVM和相关性的基因选择方法 姬翔王安文 (西北大学计算机科学系陕西西安710069) 摘 要 为了能找出与疾病相关的诊断基因,更好地进行基因诊断和基因治疗,利用支持矢量机(Support Vector MachinesSVM) ,给出了一种针对多病类情况的基于SVM和相关性的基因选择方法。该方法一次性考虑基因区分所有病类的能力,为避免所选基因 冗余,对所选基因的相关性加以约束,然后进行基因选择。采用该方法对真实的DNA微阵列数据进行实验,样本在所选基因子空间 上的表达数据有很好可分性,所选基因子空间有良好的分类推广能力,表明了该方法的有效性。 关键词 SVM相关性 交叉验证基因选择 GENE SELECTIoN METHoD BASED oN SVM AND CoRRELATIoN Ji Xiang Wang Anwen (Department ofComputer Science,Northwest University,Xi'an 710069,Shaanxi,China) Abstract In order to find out the diagnostic genes which provide successful diagnoses and good treatments,a gene selection method based on SVM and correlation for multiple diseases is proposed.This method takes the clsasiifcation abilities of genes to separate all the diseases in. to consideration at a sanle time.1imits the degree of correlation between any pairs of selected genes lest there should be redundant in selected genes and selects geBe subset.The experiments on real DNA microarray datasets were conducted by this method and the results illustrate that the samples took on a good separability in the selected gene subspace and the selected gene subspace had a capacity of clsasiifcation generlai- zation,which show great effectiveness of the method. Keywords SVM Correlation Cross validation Gene selection 个能代表该类的理想基因,使得这两个基因有最大的负相关性, 0引 言 再用统计相关分析对每个基因与该理想基因的相关性进行计 算,选择基因。然而,这些方法基本上都是在两类情况下进行的 DNA微阵列数据对了解疾病在基因级别的发病机理、疾病 基因选择,在多病类情况下进行基因选择的方法还很少。但现 的诊断和治疗等都有很高的应用价值,为通过数据分析和处理 实世界中,一般都是多病类的复杂情况。 手段运用计算机进行基因诊断、基因治疗等提供了前提和可能 为了保证多病类情况下基因诊断的可靠性,本文给出了一 性 。例如,利用基因表达数据可以对没有显著变化的肿瘤组 种有效的多病类情况下的基因选择方法——基于SVM和相关 织作出早期诊断 ,可以区分形态学上相似的肿瘤。但由于各 性的基因选择方法。该方法一次性考虑基因区分所有病类的能 种限制,我们只能采集到基因数目(成千上万个)远远大于样本 力,为避免所选基因冗余,对所选基因的相关性加以约束,用 数(几十个)的超高维空间超小样本的基因表达数据。而超高 Leave.One.Out交叉验证(LOOCV) l9 方法评估所选基因子空 维空间超小样本数据的分类问题是模式识别中的一个难点,原 间的分类推广能力,进行基因选择。我们用真实的DNA微阵列 因主要是:(1)DNA微阵列数据的样本数相对于基因数极少,造 数据进行实验,在一定线性相关程度范围内,选出了有效的基因 成了严重的维数发难现象 J,导致分类性能严重下降。(2)样 子集,样本在所选基因子空间上的表达数据有很好可分性,所选 本数极少,使得常常无法用传统的与估计概率密度有关的方法 基因子空间有强的分类推广能力,表明了本文方法的有效性。 来做分类识别 J。(3)高维使数据存在很多与分类无关的噪 声。另外,DNA微阵列数据的采集成本也比较大。为了解决这 1基因选择方法 些问题,为基因诊断提供可靠依据,降低基因诊断成本,进行基 因选择就显得尤为重要。 基因选择,即从输入特征集(原基因集合)中选择出与疾病 1.1基因分类贡献的表示 最相关的基因子集。近来,很多研究人员在基因选择方面展开 1.1.1两病类情况 工作。文献[6]采用Fisher线性判别函数与启发式逐步向前搜 在基因空间中,空间维数(即基因数目)m远大于分属于 索结合的方法,在两类中进行基因选择;文献[5]将无监督的属 个病类的样本数n。在这种情况下,容易证明,基因空间中的样 性均值聚类网络加入学习样本的类别信息,形成堆近邻分类法, 进行基因选择;文献[7]是关于两类的基因选择,给每类设计一 收稿日期:2005—06—27。姬翔,硕士生,主研领域:智能信息处理。 维普资讯 http://www.cqvip.com 第6期 姬翔等:一种基于SVM和相关性的基因选择方法 ll7 本通常是线性可分的…,而支持向量机(SVM)是一种具有最优 数目。 推广能力的对二分类问题进行有效线性分类的线性分类器 。 在线性可分的情况下,SVM就是找使得分类间隔margin最大的 分类超平面,以margin来描述样本的可分性和分类器的推广能 1.2基因间的相关性  ’相关的两个基因它们共同被表达或者来自于同一染色体, 因此这两个基因可能有相同的作用。如基因A对分类贡献大, 与它相关性大的基因B对分类的贡献也很可能会比较大。所 力是合理的。进而,从margin的角度来考虑基因对分类的贡献 也是合理的。 把marign看作向量,它与分类超平面的法向量方向一致(规 定)。又margin=2/l lll,所以,向量marin= g以,一般不考虑所选基因相关性的基因选择方法可能将这两个 基因都选上。但是,这两个基因共同提供的对分类有用的信息 和其中任何一个基因单独提供的差不多 ,选择的基因中产生 — = l ll ll ll l,其中, 为分类超平面的权系数向量(或法向量), ll ll ll J ll 表示分类超平面的法向量方向。图1给出了线性可分情况下,二 维特征空间中的margin向量示意图。g 和 代表两个特征,M, 和M:分别是m ̄rgin向量在这两个特征轴上的投影向量,由几何 M- , l: ’l l= :!It』 I 一 。又l lmarign l= ̄/ll - +l I,所以,Il 。lI和 ll ll可以表示其各自对应特征对l lmargin II的贡献,即对分类 的贡献。又lI >0,因此,I 。I和I :I可以用来表示g 和 分别对分类的贡献。 图1二维特征空I司中的margin向量不图 然而,一般来说,同一基因在不同病类中的表达水平可能存 在差异。某一基因在不同病类中表达水平的差异越大,这一基 因作为诊断基因的可能性就越大。所以,在基因分类贡献的表 示中加入基因表达水平差异的信息是合理的。 以病类i中所有样本的k基因表达水平的均值m = 1 ”∑g 作为k基因在病类i中的表达水平, 1日 表示病类i的 样本总数(两类情况,i=1,2),g 为病类i中样本1的k基因的 表达水平。那么,k基因在病类i和病类 中表达水平的差异即 为I 一 I。因此,在两类问题的线性可分情况下,k基因分 两病类的贡献表示为f ff m:一m:I,其中 (k=1,2,A,It;n 为基因数)是分两病类的SVM分类器权向量的第k个分量。 1.1.2多病类情况 用上述基因分两病类的贡献表示方法,在多病类情况下,求 得各基因分任意两病类的贡献。将对任意两病类分类都有贡献 (分类贡献值大于0)的各基因对各病类对的相应分类贡献求 和,作为该基因分所有病类的总贡献,即k基因分所有病类的总 贡献表示为 ∑ 一 I , :1,2,A,K, l< 且i< k=1,2,A,n n ≤n 其中, 为病类总数,n 为对每个病类对分类都有贡献的基因 了冗余。为了选择更有效的基因,本文对所选基因间的相关程 度加以约束。 本文把基因间的相关性考虑为一种简单的线性相关性,用 Pearson线性相关系数“。。来度量。例如,基因r与基因r 之间的 线性相关性即为 、.1 , 一、, 一、 D s 一gr八 一gr … √∑ ( 一 ) 一∑ ( 一 ,) 其中,g 是样本s的r基因的表达水平,g,是所有样本的r基因 表达水平的均值,r=1,2,A,n;s=1,2,A,m(n为基因总数,m为 样本总数)。 1.3本文方法基本思想 先用所有样本训练分各病类对的 (K一1)/2(K为病类 数)个线性SVM分类器,使各SVM分类器分相应两病类的所有 样本的测试误识率均为0。此时,获得 (K一1)/2个margin向 量。按式(1)计算对所有病类对分类都有贡献的基因各自分所 有病类的总贡献。然后,按式(2)计算这些基因两两间的Pear- son相关系数。给定Pearson线性相关性阈值P和LOOCV平均 误识率阈值6,选择前n(n≤预选出的基因数目)个贡献最大的 基因,使得这n个基因两两间的Pearson线性相关性小于等于阈 值P,且所有样本在所选基因子空间中做SVM+LOOCV的平均 误识率小于等于阈值6。 2实验与结果分析 2.1 实验数据 我们所用的实验数据是lymphoma数据 。该数据由4026 种基因,96个样本组成,共9类。由于数据中存在空值(缺失), 所以在空值处填人空值所在样本所属类中该种基因的均值。然 后从处理后的数据中,分别取出扩散大B细胞淋巴瘤(DL- BCL)、小囊淋巴瘤(FL)、慢性淋巴白血病(CLL)3类共66个样 本,形成一组新数据,记为data。 2.2实验及结果分析 2.2.1所选的基因子集 用本文基于SVM和相关性的基因选择方法,对data数据在 不同线性相关性阈值下进行基因选择,找到能为诊断扩散大B 细胞淋巴瘤、小囊淋巴瘤、慢性淋巴白血病有效的基因。选择结 果如表1所示(其中Fisher指Fisher指标的值,wFisher指加权 Fisher指标的值¨3 ),从表中不难看出,既不是所选的基因越不 相关,也不是所选的基因越相关,它们所构成的基因子空间的分 类推广能力和所有样本在其上的可分性就越强。而是,在一定 的线性相关程度范围内,所选基因子空间的分类推广能力和所 有样本在其上的可分性较强。 维普资讯 http://www.cqvip.com ll8 计算机应用与软件 2007血 表1在不同线性相关性阈值P下。所选基因的结果 阈值P 可分性 所选基因 所选基因数目 LOOCV平均误识率 Fisher wFisher 0.1 1269 3794 706 407 298 71 437 7 0.0152 0.9403 3.6803 0.2 l269、3794、706、510、2159、1305、346 7 0 1.2293 5.1229 0.3 1269 3794 706 3531 510 2153 2012 7 0.0l52 1.3324 5.4227 0.4 l269、3794、1368、706、852、2460 6 0.0l52 1.778l 6.4896 0.5 1269 3794、1368、706 759 42 3530 1293 8 0.0l52 1.37l0 5.1979 0.6 l269、3794、1368、1262、706、759 6 0.0152 1.8646 6.6469 0.7 1269 3794、1368,1262 706、759 6 0.0l52 1.8646 6.6469 0.8 1269 3794 1368 3754.1262.706.759 7 0.0152 2.0010 6.8235 0,9 l269、3794、1368、3754、1262、706、759 7 0.0l52 2.00l0 6.8235 l 1269 3794 1368、3789 3754 3831 1262 706 759 9 0.0152 1.6915 5.9263 注:①所有LOOCV的平均误识率阈值8都取0.02; 2.2.3分类推广能力的检验 ②所选基因按分所有病类的总贡献降序排列。 为了进一步检验本文方法的有效性,以下用含单隐层的多 将所选基因的数目、所选基因子空间的分类推广能力和所 层感知器MLP+LOOCV方法对本文方法所选的性能最好的基 有样本在其上的可分性兼顾考虑,当线性相关性阈值P=0.8 因子空间的分类推广能力进行了检验,检验结果如表2所示。 (或0.9)时,所选基因子集的性能相对来说最好,且所选的基因 表2 MLP在所选最好基因子空间中进行LOOCV的平均误识率 只有7个。当线性相关性阈值P=1,即对所选基因间的相关性 不加约束,用本方法选择的基因子集的性能,都没有在对所选基 因间的线性相关性加以一定约束的情况下选择出的好。表明在 基因选择过程中,对所选基因间的线性相关性加以一定的约束 是有意义的。 在data数据中所选的最好基因子集对应lymphoma数据中 注:h表示中间单隐层神经兀数日 中间单隐层神经元数目分别取2、3、4、5时,这4种结构的 的真实基因子集为:GENE3320X、GENE1636X、GENE3389X、 MLP进行LOOCV所获得的平均误识率都为O,表明本文方法在 GENE1610X、GENE3342X、GENE2328X、GENE2401X(基因按对 阈值P=0.8(或0.9)的情况下所选的基因子空间确实具有良 所有病类的分类总贡献降序排列)。 好的分类推广能力,充分表明了本文基于SVM和相关性的基因 2.2.2可分性的可视化 选择方法的有效性。 Top 2 DCA Top 2wocA 3结论 本文提出了一种新的基于SVM和相关性的基因选择方法, 该方法的优点是,加入了对所选基因线性相关性的约束机制,尽 量避免选择冗余基因;一次性考虑了基因区分所有病类的能力, 减少了计算时间。用该方法对真实DNA微阵列数据进行实验, 在一定的线性相关性阈值下,选出了性能良好的基因子集,不但 样本在所选基因子空间中表达数据的可分性好,而且所选基因 10 10 5 10 子空间的分类推广能力也很强。利用MLP+LOOCV方法检验 P=0 8(或P=0.9)(基因:l269、3794,l368、3754. 所选基因子空间的分类推广能力,也取得了良好的结果。这些 1262.706、759) 都充分表明了本文方法的有效性。 图2 data数据所有样本在所选最好 基因子空间上DCA/wDCA投影到 参考文献 前2、3个主分量的数据散布情况 [1]刘申岭.基于SVM的基因选择[D].西安电子科技大学硕士学位 图2给出了所有样本在所选最好基因子空间中的表达数据 论文,代号:10701,2004,1. 通过DCA/wDCA投影¨ (分别对应文献[12]中的DCAF/ f 2]Y0ung RA.Bi0medical discovery with DNA arrays[J].Cell,2000, DCAW方法)到前2、3个主分量上的情况。可以看出,这组数据 102(1):9. 的样本在所选最好基因子空间中的表达数据的散布情况,呈现 『3]E ric Mj0lsneSS,Dennis DeCoste.Machine Learning for Science:state of 出类间可分性好(类间散布大)、类内聚集性好(类内散布小)的 the art and future prospects[J].Science,2001,293(14):2051 —2055, 特点。在二维投影上,没有重叠。进一步表明了本文方法的有 (下转第175页) 效性,表明对所选基因相关性加以约束是可行的。 维普资讯 http://www.cqvip.com 第6期 施裕琴等:网上选课系统安全技术研究 175 道。它们是攻击者直接可以用来影响系统的工具。在攻击者寻 找和利用系统安全漏洞时,它们总是给系统安全带来压力。对 path元素指定要授权的页面,authorization元素指定授权访 问或拒绝的用户。“?”表示匿名用户。上面的授权允许Admin 访问该页面,不允许匿名访问。 (2)根据用户权限定制网页 付所有这些攻击的通用防卫策略就是所谓的输人验证。Web 访问控制是在表示层实现的。用ASP.NET来设计系统的表示 层时,对页面的访问控制要分成两个部分来设计:用户的认证与 授权,根据用户权限定制网页。 (1)用户认证与授权 安全控制不仅体现在安全模型的设计上,还要针对每一个 受控页面进行仔细的设计。在设计安全的ASP.NET页面时,要 根据用户的不同权限,在页面显示每一个链接之前对用户的权 限进行判断,如果用户没有权限访问此权限对应的页面(资 源),就要隐藏该链接。这种设计不仅可以防止敏感地址被泄 露而且使界面更友好。 对Web访问的认证方式是和系统选用的开发标准相关联 的。本系统采用ASP.NET来实现B/S结构,所以下面我们来讨 论本系统的安全访问模型。ASP.NET对Web页面的保护是通 过两个过程来完成的:1)认证。认证就是对用户的合法性进行 确认,.NET框架提供了4种认证模式;2)授权。授权就是把有 些页面授权给某些用户访问(或者拒绝某些用户访问某些页 面),经过授权的用户在每次访问页面时如果经过了认证,那么 就可以访问请求的页面。认证与授权的设置都是在网站的根目 录下面的一个名为web.config的配置文件中进行配置的,该文 件是一个标准的XML文件。 认证的相关配置是在web.config的Authentication元素中设 置的: <!一一mode=[WindowslFormslPassportlNone]一一> <authentication mode=”Forms”></authentication> 其中mode的值表明选择的认证模式。ASP.NET提供了下 列四种模式: ・Windows:通过Windows的系统认证。该模式不需要编 码,只要对IIS5.0进行合理的配置即可实现。但是MIS系统很 难管理认证信息。 ・Forms:利用ASP.NET页面进行认证,这是一种可控且 灵活的方式。 ・Passport:微软提供的一种集中认证模式,为成员站点提 供单一登录和核心框架。Passport是一种基于表单的认证服务。 ・None:用户不需要认证服务或者计划开发自己定制的代 码来进行认证时,使用该方法。 针对本系统的应用需求和.NET的现状,本系统选择Form 认证模式,即由开发者自己设计Web页面来管理认证。这样我 们需按下面的方式设置web.config的认证Element: <authentication mode=”Forms”> (forms nallle= MyWeb loginUrl= Signln.aspx Protection=’None’path=’f > </forms> </authentication> 其中loginln是进行认证的页面,一般认证页面就是访问敏 感信息的登录页面。认证页面是一个ASP.NET页面,它调用 RBAC模块中的函数完成认证的过程,认证成功后生成有效票 据,该票据保存在加密的Cookie中。认证通过后,定位到用户 请求的页面。如果没有通过认证,可以将用户的H1TP请求重 定位到安全页面。 授权在web.config的下列Element中设置: <location path=”MySercretData.aspx”> <system.web> <authorization> <!一一<allow USe/'S="Adrnin' ̄/>一一><deny user=” > </authorization> </system.web> </location> 4结束语 在B/S模式下,不但要考虑数据访问的安全性,还要考虑 网络的安全性。本文详细地分析了网上选课系统的安全系统架 构,以RBAC为基础,设计了一个高效的数据访问模型,并且以 微软的.NET框架为标准,对Web页面的访问控制机制进行了 研究和设计。用本文的安全模型构建的网上选课系统运行 良好。 参考文献 [1]张永胜.ASP.NET的身份验证及授权机制应用研究.计算机应用, 2004(8). [2]桂学勤.ASP.NET安全性工作方案和窗体身份验证的实现.微计 算机应用,2005(1). [3]王国欣.B/S模式下管理信息系统的安全模型设计.计算机工程, 2004(12). 『4]冯亚丽.基于WEB的成绩管理信息系统的安全策略.大庆石油学 院学报,2004(12). [5]Bertrand Meyer..NET ls Coming.Computer,2001(8). (上接第118页) 『4]Vladimir N Vapnik.The Nature of Statistical Learning Theory.Spring— er—Verlag[EB/OL],N.Y.,1995. [5]贺仁亚,程乾生.一种新的分类方法[J].数学的实践与认识, 2002。32(5):830—834. [6]Xiong Momiao,Li Wuju,Zhao Jinying,Jin Li,Eric Boerwinkle.Feature (Gene) Selection in Gene Expression—Based Tumor Clsasiifcation 『J].Molecular Genetics and Metabolism,2001,73(3):239—247. 『7]W0n Hong Hee,Cho Sung Bae.Pmred Neural Network with Negatively C0rrelated Features ofr Cancer Clsasiifcation in DNA Gene Expression Profiles,0-7803-7898-9/03◎2003 1EEE. [8]边肇祺,张学工,等.模式识别[M].第二版.北京:清华大学出版 社,1999,12 ̄284—304,77. 『9]JAEGER J,SENGUPTA R,RUZZO W L.1mpmved gene selection for classificati0n of micmarrays[A].Pac ̄c Symposium on Bicoompufing [C],Hawaii,USA:[S.n],2003(8):53—64. f 10]李云,叶春晓,李季,刘嘉敏,吴中福.基于特征关联性的特征选择 算法研究[J].微型机与应用,2004,23(6):58—6o・ [11]http://llmpp.nih.gov/lymphoma. [12]张军英,Wang Y J,Khan J,Clarke R.基于类别空间的基因选择 [J].中国科学:E辑,2003,12. [13]姬翔.基于SVM的多病类诊断基因选择方法研究[D].西安:西安 电子科技大学硕士学位论文,代号:10701,2005,l・ 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrf.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务